(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210356249.0
(22)申请日 2022.04.06
(65)同一申请的已公布的文献号
申请公布号 CN 114443850 A
(43)申请公布日 2022.05.06
(73)专利权人 杭州费尔斯 通科技有限公司
地址 310000 浙江省杭州市滨江区西兴街
道阡陌路482号B楼第七层
(72)发明人 周泽伟 杨红飞 程东
(74)专利代理 机构 杭州创智卓英知识产权代理
事务所(普通 合伙) 33324
专利代理师 季健康
(51)Int.Cl.
G06F 16/35(2019.01)
G06F 40/30(2020.01)
G06F 40/289(2020.01)
G06K 9/62(2022.01)(56)对比文件
CN 113064990 A,2021.07.02
CN 111738009 A,2020.10.02
CN 111325030 A,2020.0 6.23
CN 10864752 9 A,2018.10.12
CN 113591469 A,2021.1 1.02
CN 10813 3045 A,2018.0 6.08
CN 107180 075 A,2017.09.19
CN 112579730 A,2021.0 3.30
CN 10862890 6 A,2018.10.09
US 20183 57216 A1,2018.12.13
US 202108189 9 A1,2021.0 3.18
US 2021173862 A1,2021.0 6.10
郑开雨等.基于上下文语义的朴素贝叶斯文
本分类算法. 《计算机与现代化》 .2018,(第0 6
期),第1- 6页.
夏天.词向量聚类加权TextRan k的关键词抽
取. 《数据分析与知识发现》 .2017,(第02期),第
28-34页.
审查员 李文静
(54)发明名称
基于语义相似模型的标签生成方法、 系统、
装置和介质
(57)摘要
本申请涉及一种基于语义相似模型的标签
生成方法、 系统、 装置和介质, 其中, 该方法包括:
将待标注文本进行分词得到若干文本词汇, 并计
算其词向量; 对文本词汇进行层次聚类, 得到预
设个数的词簇集合; 根据词簇集合中文本词汇的
词向量, 计算词簇集合的中心点向量; 根据中心
点向量和词簇集合中文本词汇的词向量, 从词向
量中得出各个词簇集合的核心 语义关键词; 分别
计算核心语义关键词与预设标签列表中各个标
签分类词的相似距离, 生成待标注文本的标签,
通过本申请, 解决了文本标签生成不灵活、 可扩
展性差的问题, 兼顾了模型准确率与模型预测时
间之间的平衡, 实现了较强的可扩展性, 能覆盖到较广范围的具体项目的实际应用中。
权利要求书2页 说明书8页 附图2页
CN 114443850 B
2022.07.22
CN 114443850 B
1.一种基于语义相似 模型的标签生成方法, 其特 征在于, 所述方法包括:
将待标注文本进行分词, 得到若干文本词汇, 计算所述文本词汇的词向量;
初始化设置所述文本词汇为若干初始集合, 根据所述文本词汇的词向量, 搜寻距离最
近的两个初始集合进行聚类合并, 得到若干词簇集合, 继续将所述初始集合和所述词簇集
合进行所述聚类合并, 直至得到预设个数的词簇集 合;
根据词簇集 合中文本词汇的词向量, 计算所述词簇集 合的中心点向量;
通过算法公式
|: 1~L从所述词向量中计算出
各个词簇集合的核心语义关键词V_SELECT, 其中, V _CENTER为词簇集合的中心点向量, Vl为
所述词簇集合中第l个文本词汇的词向量, Wi为词向量第i维的数值, N为词向量的维度, L为
所述词簇集 合中的文本词汇个数; Mi n表示取最小值;
通过算法公式
计算出所
述核心语义关键词与预设标签列表中标签分类词的相似距离, 其中, Vk为所述待标注文本
中第k个核心语义关键词的词向量, V_LABEL_j为预设标签列表 中第j个标签分类词的词向
量, Wi为词向量第i维的数值, N 为词向量的维度, K为所述核心语义关键词的个数;
依次判断所述相似距离是否小于预设阈值, 若是, 则将所述相似距离对应的标签分类
词与所述待标注文本关联, 根据所述标签分类词生成所述待标注文本的标签。
2.根据权利要求1所述的方法, 其特征在于, 根据词簇集合中文本词汇的词向量, 计算
所述词簇集 合的中心点向量包括:
通过算法公式
计算出所述词簇集合的中心点向量
V_CENTER, 其中, Vi为所述词簇集合中第i个文本词汇的词向量, Wj为词向量第j维的数值, N
为词向量的维度, L 为所述词簇集 合中的文本词汇个数。
3.根据权利要求1所述的方法, 其特征在于, 将待标注文本进行分词, 得到若干文本词
汇包括:
通过预设分词工具对待标注文本进行分词, 得到若干文本词汇, 其中, 所述预设分词工
具包括THULAC分词工具和jieba分词工具。
4.根据权利要求1所述的方法, 其特 征在于, 计算所述文本词汇的词向量包括:
通过预设词嵌入算法计算所述文本词汇的词向量, 其中, 所述词嵌入算法包括
Word2Vec算法和BERT算法。
5.一种基于语义相似模型的标签生成系统, 其特征在于, 所述系统包括分词嵌入模块、
层次聚类模块、 关键词模块和标签生成模块;
所述分词嵌入模块用于将待标注文本进行分词, 得到若干文本词汇, 计算所述文本词
汇的词向量;
所述层次聚类模块用于初始化设置所述文本词汇为若干初始集合, 根据 所述文本词汇
的词向量, 搜寻距离最近的两个初始 集合进行聚类合并, 得到若干词簇集合, 继续将所述初
始集合和所述词簇集 合进行所述聚类合并, 直至得到预设个数的词簇集 合;
所述关键词模块用于根据词簇集合中文本词汇的词向量, 计算所述词簇集合的中心点权 利 要 求 书 1/2 页
2
CN 114443850 B
2向量; 通过算法公式
|: 1~L从所述词向量中计算
出各个词簇集合的核心语义关键词V_SELECT, 其中, V _CENTER为词簇集合的中心点向量, Vl
为所述词簇集合中第l个文本词汇的词向量, Wi为词向量第i维的数值, N为词向量的维度, L
为所述词簇集 合中的文本词汇个数; Mi n表示取最小值;
所述标签生 成模块用于通过算法公 式
计算出所述核心语义关键词与预设标签列表中标签分类词的相似距离, 其中, Vk为所述待
标注文本中第k个核心语义关键词的词向量, V_LABEL_j为预设标签列表 中第j个标签分类
词的词向量, Wi为词向量第i 维的数值, N为词向量的维度, K为所述核心语义关键词的个数;
依次判断所述相似距离是否小于预设阈值, 若是, 则将所述相似距离对应的标签分类词与
所述待标注文本关联, 根据所述标签分类词生成所述待标注文本的标签。
6.一种电子装置, 包括存储器和处理器, 其特征在于, 所述存储器中存储有计算机程
序, 所述处理器被设置为运行所述计算机程序以执行权利要求1至4中任一项 所述的基于语
义相似模型的标签生成方法。
7.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 该程序被处理器执
行时实现如权利要求1至4中任一项所述的基于语义相似 模型的标签生成方法。权 利 要 求 书 2/2 页
3
CN 114443850 B
3
专利 基于语义相似模型的标签生成方法、系统、装置和介质
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:49:54上传分享