专利词向量的生成方法、装置、计算机设备及存储介质 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210359944.2 (22)申请日 2022.04.07 (71)申请人平安科技（深圳）有限公司地址 518000 广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼 (72)发明人司世景　王健宗　张传尧　 (74)专利代理机构深圳众鼎专利商标代理事务所(普通合伙) 44325 专利代理师谭果林 (51)Int.Cl. G06F 40/284(2020.01) G06F 40/30(2020.01) G06F 40/247(2020.01) (54)发明名称词向量的生成方法、装置、计算机设备及存储介质 (57)摘要本发明涉及人工智能技术，提供一种词向量的生成方法、装置、计算机设备及存储介质，利用预设的模型对语料库中的词语进行训练，得到语料库中词语的初始化向量，通过预设的排序模型对基于词语的初始化向量生成的待构建词向量词语的候选词进行排序处理，得到所述待构建词向量词语的正相关集合和负相关集合，对候选词进行排序处理，减少了对词语的标注数量，提高了模型的训练效率，通过预设的排序模型得到的正相关集合和负相关集合样本，提高了样本的质量，将高质量样本送入对比学习模型中进行训练，提高了待构建词向量词语词向量的生成质量。权利要求书2页说明书10页附图2页 CN 114722802 A 2022.07.08 CN 114722802 A 1.一种词向量的生成方法，其特征在于，包括：利用预设的机器学习模型对语料库中的各个词语进行训练，得到所述语料库中各个词语的初始化词向量；从所述语料库中选取出待构建词向量词语的候选词，利用预设的排序模型对所述候选词进行排序处理，根据排序结果，得到所述待构建词向量词语的正相关集合和负相关集合；其中，所述预设的排序模型为对采用人工标注所述候选词的训练集进行训练得到的排序模型；从所述正相关集合和所述负相关集合中分别选取出所述待构建词向量词语的正例对和负例对；根据所述待构建词向量词语，以及基于所述待构建词向量词语的正例对和负例对训练得到的目标对比学习模型，得到所述待构建词向量词语的词向量。 2.如权利要求1所述的词向量的生成方法，其特征在于，所述利用预设的机器学习模型对语料库中的各个词语进行训练，得到所述语料库中各个词语的初始化词向量，包括：对所述语料库中的各个词语进行预处理，得到具有统一数据结构的各个词语；利用预设的机器学习模型对所述各个词语具有统一数据结构的语料库中的词语进行训练，得到所述语料库中各个词语的初始化词向量。 3.如权利要求1所述的词向量的生成方法，其特征在于，所述从所述语料库中选取出待构建词向量词语的候选词，包括：根据所述语料库中的各个词语初始化词向量，计算所述待构建词向量词语的初始化词向量与所述语料库中其他各词语的初始化词向量之间的相似度，根据所述相似度的大小，确定所述待构建词向量词语的正相关候选词集合和负相关候选词集合；根据预设的筛选规则，从所述正相关候选词集合和所述负相关候选词集合中筛选得到所述待构建词向量词语的候选词。 4.如权利要求3所述的词向量的生成方法，其特征在于，所述根据预设的筛选规则，从所述正相关候选词集合和所述负相关候选词集合中筛选得到所述待构建词向量词语的候选词，包括：根据预设的匹配模型，分别计算所述正相关候选词集合中各个词语之间的相关性和所述负相关候选词集合中各个词语之间的相关系数，分别得到第一相关性序列值和第二相关性序列值；根据所述第一相关性序列值与预先设置的第一阈值区间，从所述正相关候选词集合中得到第一部分候选词；根据所述第二相关性序列值与预先设置的第二阈值区间，从所述负相关候选词集合中得到第二部分候选词；所述第一部分候选词与所述第二部分候选词构成候选词。 5.如权利要求1所述的词向量的生成方法，其特征在于，所述利用预设的排序模型对所述候选词进行排序处理，根据排序结果，得到所述待构建词向量词语的正相关集合和负相关集合，包括：根据预设的标注方法，对所述候选词进行标注，得到候选词训练集；基于所述候选词训练集对预设的排序模型进行训练，得到学习后的排序模型；权　利　要　求　书 1/2 页 2 CN 114722802 A 2将所述候选词训练集输入到所述学习后的排序模型中，得到所述候选词的排序结果；基于所述候选词的排序结果，得到所述述待构建词向量词语的正相关集合和负相关集合。 6.如权利要求1所述的词向量的生成方法，其特征在于，所述根据所述述待构建词向量词语，以及基于所述待构建词向量词语的正例对和负例对训练得到的目标对比学习模型，得到所述待构建词向量词语的词向量，包括：将所述待构建词向量词语的正例对和负例对作为训练集，对预设的对比学习模型进行训练，得到目标对比学习模型；将所述述待构建词向量词语输入至所述目标对比学习模型，得到所述待构建词向量词语的词向量。 7.如权利要求6所述的词向量的生成方法，其特征在于，所述将所述待构建词向量词语的正例对和负例对作为训练集，对预设的对比学习模型进行训练，得到目标对比学习模型，包括：对所述待构建词向量词语的正例对和负例对进行增广处理，得到增广后的待构建词向量词语的训练样本；基于所述增广后的待构建词向量词语的训练样本，对所述对比学习模型进行训练，得到目标对比学习模型。 8.一种词向量的生成装置，其特征在于，初始化单元：利用预设的机器学习模型对语料库中的各个词语进行训练，得到所述语料库中各个词语的初始化词向量；排序单元：从所述语料库中选取出待构建词向量词语的候选词，利用预设的排序模型对所述候选词进行排序处理，根据排序结果，得到所述待构建词向量词语的正相关集合和负相关集合；其中，所述预设的排序模型为对采用人工标注所述候选词的训练集进行训练得到的排序模型；选取单元：从所述正相关集合和所述负相关集合中分别选取出所述待构建词向量词语的正例对和负例对；训练单元：根据所述待构建词向量词语，以及基于所述待构建词向量词语的正例对和负例对训练得到的目标对比学习模型，得到所述待构建词向量词语的词向量。 9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，其特征在于，所述计算机可读指令为权利要求 1‑7任意一项所述的引擎生成的可读指令。 10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机指令，该计算机指令用于使该计算机执行前述任一权利要求1 ‑7所述方法的步骤。权　利　要　求　书 2/2 页 3 CN 114722802 A 3

专利 词向量的生成方法、装置、计算机设备及存储介质

专利词向量的生成方法、装置、计算机设备及存储介质