(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210359944.2 (22)申请日 2022.04.07 (71)申请人 平安科技 (深圳) 有限公司 地址 518000 广东省深圳市福田区福田街 道福安社区益田路5033号平 安金融中 心23楼 (72)发明人 司世景 王健宗 张传尧  (74)专利代理 机构 深圳众鼎专利商标代理事务 所(普通合伙) 44325 专利代理师 谭果林 (51)Int.Cl. G06F 40/284(2020.01) G06F 40/30(2020.01) G06F 40/247(2020.01) (54)发明名称 词向量的生成方法、 装置、 计算机设备及存 储介质 (57)摘要 本发明涉及人工智能技术, 提供一种词向量 的生成方法、 装置、 计算机设备及存储介质, 利用 预设的模型对语料库中的词语进行训练, 得到语 料库中词语的初始化向量, 通过预设的排序模型 对基于词语的初始化向量生成的待构建词向量 词语的候选词进行排序处理, 得到所述待构建词 向量词语的正相关集合和负相关集合, 对候选词 进行排序处理, 减少了对词语的标注数量, 提高 了模型的训练效率, 通过预设的排序模 型得到的 正相关集合和负相关集合样本, 提高了样本的质 量, 将高质量样本送入对比学习模型中进行训 练, 提高了待构建词向量词语词向量的生成质 量。 权利要求书2页 说明书10页 附图2页 CN 114722802 A 2022.07.08 CN 114722802 A 1.一种词向量的生成方法, 其特 征在于, 包括: 利用预设的机器学习 模型对语料库中的各个词语进行训练, 得到所述语料库中各个词 语的初始化词向量; 从所述语料库中选取出待构建词向量词语的候选词, 利用预设的排序模型对所述候选 词进行排序处理, 根据排序结果, 得到所述待构建词向量词语的正相关集合和负相关集合; 其中, 所述预设的排序模型为对采用人工标注所述候选词的训练集进 行训练得到的排序模 型; 从所述正相关集合和所述负相关集合中分别选取出所述待构建词向量词语的正例对 和负例对; 根据所述待构建词向量词语, 以及基于所述待构建词向量词语的正例对和负例对训练 得到的目标对比学习模型, 得到所述待构建词向量词语的词向量。 2.如权利要求1所述的词向量的生成方法, 其特征在于, 所述利用预设的机器学习模型 对语料库中的各个词语进行训练, 得到所述语料库中各个词语的初始化词向量, 包括: 对所述语料库中的各个词语进行 预处理, 得到具有统一数据结构的各个词语; 利用预设的机器学习模型对所述各个词语具有统一数据结构的语料库中的词语进行 训练, 得到所述语料库中各个词语的初始化词向量。 3.如权利要求1所述的词向量的生成方法, 其特征在于, 所述从所述语料库中选取出待 构建词向量词语的候选词, 包括: 根据所述语料库中的各个词语初始化词向量, 计算所述待构建词向量词语的初始化词 向量与所述语料库中其他各词语的初始化词向量之间的相似度, 根据所述相似度的大小, 确定所述待构建词向量词语的正相关候选词集 合和负相关候选词集 合; 根据预设的筛选规则, 从所述正相关候选词集合和所述负相关候选词集合中筛选得到 所述待构建词向量词语的候选词。 4.如权利要求3所述的词向量的生成方法, 其特征在于, 所述根据预设的筛选规则, 从 所述正相关候选词集合和所述负相关候选词集合中筛选得到所述待构建词向量词语的候 选词, 包括: 根据预设的匹配模型, 分别计算所述正相关候选词集合中各个词语之间的相关性和所 述负相关候选词集合中各个词语之 间的相关系数, 分别得到第一相关性序列值和 第二相关 性序列值; 根据所述第 一相关性序列值与预先设置的第 一阈值区间, 从所述正相关候选词集合中 得到第一部分候选词; 根据所述第 二相关性序列值与预先设置的第 二阈值区间, 从所述负相关候选词集合中 得到第二部分候选词; 所述第一部分候选词与所述第二部分候选词构成候选词。 5.如权利要求1所述的词向量的生成方法, 其特征在于, 所述利用预设的排序模型对所 述候选词进行排序 处理, 根据排序结果, 得到所述待构建词向量词语的正相关集合和负相 关集合, 包括: 根据预设的标注方法, 对所述 候选词进行 标注, 得到候选词训练集; 基于所述 候选词训练集对预设的排序模型进行训练, 得到学习后的排序模型;权 利 要 求 书 1/2 页 2 CN 114722802 A 2将所述候选词训练集输入到所述学习后的排序模型中, 得到所述 候选词的排序结果; 基于所述候选词的排序 结果, 得到所述述待构建词向量词语的正相关集合和负相关集 合。 6.如权利要求1所述的词向量的生成方法, 其特征在于, 所述根据 所述述待构建词向量 词语, 以及基于所述待构建词向量词语的正例对和负例对训练得到的目标对比学习模型, 得到所述待构建词向量词语的词向量, 包括: 将所述待构建词向量词语的正例对和负例对作为训练集, 对预设的对比学习 模型进行 训练, 得到目标对比学习模型; 将所述述待构建词向量词语输入至所述目标对比学习模型, 得到所述待构建词向量词 语的词向量。 7.如权利要求6所述的词向量的生成方法, 其特征在于, 所述将所述待构建词向量词语 的正例对和负例对作为训练集, 对预设的对比学习模型进行训练, 得到目标对比学习模型, 包括: 对所述待构建词向量词语的正例对和负例对进行增广处理, 得到增广后的待构建词向 量词语的训练样本; 基于所述增广后的待构建词向量词语的训练样本, 对所述对比学习模型进行训练, 得 到目标对比学习模型。 8.一种词向量的生成装置, 其特 征在于, 初始化单元: 利用预设的机器学习模型对语料库中的各个词语进行训练, 得到所述语 料库中各个词语的初始化词向量; 排序单元: 从所述语料库中选取出待构建词向量词语的候选词, 利用预设的排序模型 对所述候选词进行排序 处理, 根据排序结果, 得到所述待构建词向量词语的正相关集合和 负相关集合; 其中, 所述预设的排序模型为对采用人工标注所述候选词的训练集进行训练 得到的排序模型; 选取单元: 从所述正相关集合和所述负相关集合中分别 选取出所述待构建词向量词语 的正例对和负例对; 训练单元: 根据所述待构建词向量词语, 以及基于所述待构建词向量词语的正例对和 负例对训练得到的目标对比学习模型, 得到所述待构建词向量词语的词向量。 9.一种计算机设备, 包括存储器、 处理器以及存储在所述存储器中并可在所述处理器 上运行的计算机可读指 令, 其特征在于, 所述计算机可读指 令为权利要求 1‑7任意一项 所述 的引擎生成的可读指令 。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质存储计算机指 令, 该计算机指令用于使该计算机执 行前述任一权利要求1 ‑7所述方法的步骤。权 利 要 求 书 2/2 页 3 CN 114722802 A 3

.PDF文档 专利 词向量的生成方法、装置、计算机设备及存储介质

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 词向量的生成方法、装置、计算机设备及存储介质 第 1 页 专利 词向量的生成方法、装置、计算机设备及存储介质 第 2 页 专利 词向量的生成方法、装置、计算机设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:52:23上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。