国家标准网
文库搜索
切换导航
首页
频道
仅15元无限下载
联系我们
首页
仅15元无限下载
联系我们
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210359944.2 (22)申请日 2022.04.07 (71)申请人 平安科技 (深圳) 有限公司 地址 518000 广东省深圳市福田区福田街 道福安社区益田路5033号平 安金融中 心23楼 (72)发明人 司世景 王健宗 张传尧 (74)专利代理 机构 深圳众鼎专利商标代理事务 所(普通合伙) 44325 专利代理师 谭果林 (51)Int.Cl. G06F 40/284(2020.01) G06F 40/30(2020.01) G06F 40/247(2020.01) (54)发明名称 词向量的生成方法、 装置、 计算机设备及存 储介质 (57)摘要 本发明涉及人工智能技术, 提供一种词向量 的生成方法、 装置、 计算机设备及存储介质, 利用 预设的模型对语料库中的词语进行训练, 得到语 料库中词语的初始化向量, 通过预设的排序模型 对基于词语的初始化向量生成的待构建词向量 词语的候选词进行排序处理, 得到所述待构建词 向量词语的正相关集合和负相关集合, 对候选词 进行排序处理, 减少了对词语的标注数量, 提高 了模型的训练效率, 通过预设的排序模 型得到的 正相关集合和负相关集合样本, 提高了样本的质 量, 将高质量样本送入对比学习模型中进行训 练, 提高了待构建词向量词语词向量的生成质 量。 权利要求书2页 说明书10页 附图2页 CN 114722802 A 2022.07.08 CN 114722802 A 1.一种词向量的生成方法, 其特 征在于, 包括: 利用预设的机器学习 模型对语料库中的各个词语进行训练, 得到所述语料库中各个词 语的初始化词向量; 从所述语料库中选取出待构建词向量词语的候选词, 利用预设的排序模型对所述候选 词进行排序处理, 根据排序结果, 得到所述待构建词向量词语的正相关集合和负相关集合; 其中, 所述预设的排序模型为对采用人工标注所述候选词的训练集进 行训练得到的排序模 型; 从所述正相关集合和所述负相关集合中分别选取出所述待构建词向量词语的正例对 和负例对; 根据所述待构建词向量词语, 以及基于所述待构建词向量词语的正例对和负例对训练 得到的目标对比学习模型, 得到所述待构建词向量词语的词向量。 2.如权利要求1所述的词向量的生成方法, 其特征在于, 所述利用预设的机器学习模型 对语料库中的各个词语进行训练, 得到所述语料库中各个词语的初始化词向量, 包括: 对所述语料库中的各个词语进行 预处理, 得到具有统一数据结构的各个词语; 利用预设的机器学习模型对所述各个词语具有统一数据结构的语料库中的词语进行 训练, 得到所述语料库中各个词语的初始化词向量。 3.如权利要求1所述的词向量的生成方法, 其特征在于, 所述从所述语料库中选取出待 构建词向量词语的候选词, 包括: 根据所述语料库中的各个词语初始化词向量, 计算所述待构建词向量词语的初始化词 向量与所述语料库中其他各词语的初始化词向量之间的相似度, 根据所述相似度的大小, 确定所述待构建词向量词语的正相关候选词集 合和负相关候选词集 合; 根据预设的筛选规则, 从所述正相关候选词集合和所述负相关候选词集合中筛选得到 所述待构建词向量词语的候选词。 4.如权利要求3所述的词向量的生成方法, 其特征在于, 所述根据预设的筛选规则, 从 所述正相关候选词集合和所述负相关候选词集合中筛选得到所述待构建词向量词语的候 选词, 包括: 根据预设的匹配模型, 分别计算所述正相关候选词集合中各个词语之间的相关性和所 述负相关候选词集合中各个词语之 间的相关系数, 分别得到第一相关性序列值和 第二相关 性序列值; 根据所述第 一相关性序列值与预先设置的第 一阈值区间, 从所述正相关候选词集合中 得到第一部分候选词; 根据所述第 二相关性序列值与预先设置的第 二阈值区间, 从所述负相关候选词集合中 得到第二部分候选词; 所述第一部分候选词与所述第二部分候选词构成候选词。 5.如权利要求1所述的词向量的生成方法, 其特征在于, 所述利用预设的排序模型对所 述候选词进行排序 处理, 根据排序结果, 得到所述待构建词向量词语的正相关集合和负相 关集合, 包括: 根据预设的标注方法, 对所述 候选词进行 标注, 得到候选词训练集; 基于所述 候选词训练集对预设的排序模型进行训练, 得到学习后的排序模型;权 利 要 求 书 1/2 页 2 CN 114722802 A 2将所述候选词训练集输入到所述学习后的排序模型中, 得到所述 候选词的排序结果; 基于所述候选词的排序 结果, 得到所述述待构建词向量词语的正相关集合和负相关集 合。 6.如权利要求1所述的词向量的生成方法, 其特征在于, 所述根据 所述述待构建词向量 词语, 以及基于所述待构建词向量词语的正例对和负例对训练得到的目标对比学习模型, 得到所述待构建词向量词语的词向量, 包括: 将所述待构建词向量词语的正例对和负例对作为训练集, 对预设的对比学习 模型进行 训练, 得到目标对比学习模型; 将所述述待构建词向量词语输入至所述目标对比学习模型, 得到所述待构建词向量词 语的词向量。 7.如权利要求6所述的词向量的生成方法, 其特征在于, 所述将所述待构建词向量词语 的正例对和负例对作为训练集, 对预设的对比学习模型进行训练, 得到目标对比学习模型, 包括: 对所述待构建词向量词语的正例对和负例对进行增广处理, 得到增广后的待构建词向 量词语的训练样本; 基于所述增广后的待构建词向量词语的训练样本, 对所述对比学习模型进行训练, 得 到目标对比学习模型。 8.一种词向量的生成装置, 其特 征在于, 初始化单元: 利用预设的机器学习模型对语料库中的各个词语进行训练, 得到所述语 料库中各个词语的初始化词向量; 排序单元: 从所述语料库中选取出待构建词向量词语的候选词, 利用预设的排序模型 对所述候选词进行排序 处理, 根据排序结果, 得到所述待构建词向量词语的正相关集合和 负相关集合; 其中, 所述预设的排序模型为对采用人工标注所述候选词的训练集进行训练 得到的排序模型; 选取单元: 从所述正相关集合和所述负相关集合中分别 选取出所述待构建词向量词语 的正例对和负例对; 训练单元: 根据所述待构建词向量词语, 以及基于所述待构建词向量词语的正例对和 负例对训练得到的目标对比学习模型, 得到所述待构建词向量词语的词向量。 9.一种计算机设备, 包括存储器、 处理器以及存储在所述存储器中并可在所述处理器 上运行的计算机可读指 令, 其特征在于, 所述计算机可读指 令为权利要求 1‑7任意一项 所述 的引擎生成的可读指令 。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质存储计算机指 令, 该计算机指令用于使该计算机执 行前述任一权利要求1 ‑7所述方法的步骤。权 利 要 求 书 2/2 页 3 CN 114722802 A 3
专利 词向量的生成方法、装置、计算机设备及存储介质
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 17:52:23
上传分享
举报
下载
原文档
(464.9 KB)
分享
友情链接
DL-T 2340-2021 大坝安全监测资料分析规程.pdf
DB37-T 1933—2022 氯碱安全生产技术规范 山东省.pdf
GB-T 24405.2-2010 - ISO IEC 20000-2-2005 信息技术 服务管理 第2部分:实践规则.pdf
中国人工智能系列白皮书 大模型技术白皮书2023版.pdf
GB-T 42615-2023 在用电梯安全评估规范.pdf
T-QGCML 106—2021 生物基热拌用高性能沥青再生剂.pdf
GB-T 30233-2013 腧穴主治.pdf
GB-T 36699-2018 锅炉用液体和气体燃料燃烧器技术条件.pdf
GB-T 31344-2014 节能量测量和验证技术要求 板坯加热炉系统.pdf
GB-T 37267-2018 建筑抗震支吊架通用技术条件.pdf
GB-T 32831-2016 高能激光光束质量评价与测试方法.pdf
GB-T 36572-2018电力监控系统网络安全防护导则.pdf
DB63-T 2064-2022 草原损害程度评定技术规范 青海省.pdf
GB-T 3220-2011 集装箱吊具.pdf
GM-T 0010-2012 SM2密码算法加密签名消息语法规范.pdf
T-CAAMTB 65—2022 汽车非解耦式电子助力制动系统总成性能要求及台架试验方法.pdf
绿盟 SecXOps安全智能分析技术白皮书.pdf
T-CSBZ 007—2017 石材防水背胶.pdf
DB6301-T 4-2023 住宅物业星级服务规范 西宁市.pdf
T-ZZB 1589—2020 计算机控制360度机头旋转模板缝纫机.pdf
1
/
3
15
评价文档
赞助2.5元 点击下载(464.9 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
点击进入官方售后微信群
支付 完成后 如未跳转 点击这里下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。