专利基于语义相似模型的标签生成方法、系统、装置和介质 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210356249.0 (22)申请日 2022.04.06 (65)同一申请的已公布的文献号申请公布号 CN 114443850 A (43)申请公布日 2022.05.06 (73)专利权人杭州费尔斯通科技有限公司地址 310000 浙江省杭州市滨江区西兴街道阡陌路482号B楼第七层 (72)发明人周泽伟　杨红飞　程东　 (74)专利代理机构杭州创智卓英知识产权代理事务所(普通合伙) 33324 专利代理师季健康 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/30(2020.01) G06F 40/289(2020.01) G06K 9/62(2022.01)(56)对比文件 CN 113064990 A,2021.07.02 CN 111738009 A,2020.10.02 CN 111325030 A,2020.0 6.23 CN 10864752 9 A,2018.10.12 CN 113591469 A,2021.1 1.02 CN 10813 3045 A,2018.0 6.08 CN 107180 075 A,2017.09.19 CN 112579730 A,2021.0 3.30 CN 10862890 6 A,2018.10.09 US 20183 57216 A1,2018.12.13 US 202108189 9 A1,2021.0 3.18 US 2021173862 A1,2021.0 6.10 郑开雨等.基于上下文语义的朴素贝叶斯文本分类算法. 《计算机与现代化》 .2018,(第0 6 期),第1- 6页. 夏天.词向量聚类加权TextRan k的关键词抽取. 《数据分析与知识发现》 .2017,(第02期),第 28-34页. 审查员李文静 (54)发明名称基于语义相似模型的标签生成方法、系统、装置和介质 (57)摘要本申请涉及一种基于语义相似模型的标签生成方法、系统、装置和介质，其中，该方法包括：将待标注文本进行分词得到若干文本词汇，并计算其词向量；对文本词汇进行层次聚类，得到预设个数的词簇集合；根据词簇集合中文本词汇的词向量，计算词簇集合的中心点向量；根据中心点向量和词簇集合中文本词汇的词向量，从词向量中得出各个词簇集合的核心语义关键词；分别计算核心语义关键词与预设标签列表中各个标签分类词的相似距离，生成待标注文本的标签，通过本申请，解决了文本标签生成不灵活、可扩展性差的问题，兼顾了模型准确率与模型预测时间之间的平衡，实现了较强的可扩展性，能覆盖到较广范围的具体项目的实际应用中。权利要求书2页说明书8页附图2页 CN 114443850 B 2022.07.22 CN 114443850 B 1.一种基于语义相似模型的标签生成方法，其特征在于，所述方法包括：将待标注文本进行分词，得到若干文本词汇，计算所述文本词汇的词向量；初始化设置所述文本词汇为若干初始集合，根据所述文本词汇的词向量，搜寻距离最近的两个初始集合进行聚类合并，得到若干词簇集合，继续将所述初始集合和所述词簇集合进行所述聚类合并，直至得到预设个数的词簇集合；根据词簇集合中文本词汇的词向量，计算所述词簇集合的中心点向量；通过算法公式 |： 1～L从所述词向量中计算出各个词簇集合的核心语义关键词V_SELECT，其中， V _CENTER为词簇集合的中心点向量， Vl为所述词簇集合中第l个文本词汇的词向量， Wi为词向量第i维的数值， N为词向量的维度， L为所述词簇集合中的文本词汇个数； Mi n表示取最小值；通过算法公式计算出所述核心语义关键词与预设标签列表中标签分类词的相似距离，其中， Vk为所述待标注文本中第k个核心语义关键词的词向量， V_LABEL_j为预设标签列表中第j个标签分类词的词向量， Wi为词向量第i维的数值， N 为词向量的维度， K为所述核心语义关键词的个数；依次判断所述相似距离是否小于预设阈值，若是，则将所述相似距离对应的标签分类词与所述待标注文本关联，根据所述标签分类词生成所述待标注文本的标签。 2.根据权利要求1所述的方法，其特征在于，根据词簇集合中文本词汇的词向量，计算所述词簇集合的中心点向量包括：通过算法公式计算出所述词簇集合的中心点向量 V_CENTER，其中， Vi为所述词簇集合中第i个文本词汇的词向量， Wj为词向量第j维的数值， N 为词向量的维度， L 为所述词簇集合中的文本词汇个数。 3.根据权利要求1所述的方法，其特征在于，将待标注文本进行分词，得到若干文本词汇包括：通过预设分词工具对待标注文本进行分词，得到若干文本词汇，其中，所述预设分词工具包括THULAC分词工具和jieba分词工具。 4.根据权利要求1所述的方法，其特征在于，计算所述文本词汇的词向量包括：通过预设词嵌入算法计算所述文本词汇的词向量，其中，所述词嵌入算法包括 Word2Vec算法和BERT算法。 5.一种基于语义相似模型的标签生成系统，其特征在于，所述系统包括分词嵌入模块、层次聚类模块、关键词模块和标签生成模块；所述分词嵌入模块用于将待标注文本进行分词，得到若干文本词汇，计算所述文本词汇的词向量；所述层次聚类模块用于初始化设置所述文本词汇为若干初始集合，根据所述文本词汇的词向量，搜寻距离最近的两个初始集合进行聚类合并，得到若干词簇集合，继续将所述初始集合和所述词簇集合进行所述聚类合并，直至得到预设个数的词簇集合；所述关键词模块用于根据词簇集合中文本词汇的词向量，计算所述词簇集合的中心点权　利　要　求　书 1/2 页 2 CN 114443850 B 2向量；通过算法公式 |： 1～L从所述词向量中计算出各个词簇集合的核心语义关键词V_SELECT，其中， V _CENTER为词簇集合的中心点向量， Vl 为所述词簇集合中第l个文本词汇的词向量， Wi为词向量第i维的数值， N为词向量的维度， L 为所述词簇集合中的文本词汇个数； Mi n表示取最小值；所述标签生成模块用于通过算法公式计算出所述核心语义关键词与预设标签列表中标签分类词的相似距离，其中， Vk为所述待标注文本中第k个核心语义关键词的词向量， V_LABEL_j为预设标签列表中第j个标签分类词的词向量， Wi为词向量第i 维的数值， N为词向量的维度， K为所述核心语义关键词的个数；依次判断所述相似距离是否小于预设阈值，若是，则将所述相似距离对应的标签分类词与所述待标注文本关联，根据所述标签分类词生成所述待标注文本的标签。 6.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求1至4中任一项所述的基于语义相似模型的标签生成方法。 7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至4中任一项所述的基于语义相似模型的标签生成方法。权　利　要　求　书 2/2 页 3 CN 114443850 B 3

专利 基于语义相似模型的标签生成方法、系统、装置和介质

专利基于语义相似模型的标签生成方法、系统、装置和介质