(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210473957.2
(22)申请日 2022.04.29
(71)申请人 中证信用增进股份有限公司
地址 518000 广东省深圳市福田区深南大
道2012号深圳证券交易所广场4 4楼
(72)发明人 施震 黄晨 汤文华 文卫东
李旭晖
(74)专利代理 机构 北京思格 颂知识产权代理有
限公司 1 1635
专利代理师 李中永
(51)Int.Cl.
G06F 40/289(2020.01)
G06F 40/216(2020.01)
G06F 40/242(2020.01)
G06F 40/30(2020.01)
(54)发明名称
一种关键词抽取方法、 装置及储 存介质
(57)摘要
本发明公开了一种关键词抽取方法、 装置及
储存介质。 所述方法包括: 对待抽取文本进行分
词; 构建分词词图; 根据各分词的义原生成对应
的词向量; 根据各分词的词向量计算得到所述分
词词图中邻接分词间的词义相似度, 并根据所述
词义相似度计算各分词的初始分数, 从而筛选得
到候选关键词; 根据各候选关键词的词频 ‑逆向
文件频率值, 对所述初始分数进行处理, 得到最
终分数, 从而筛选得到关键词。 本发明在词图模
型的基础上, 为分词的词义融合义原信息, 使得
一词多义的分词的词向量在不同语境下有所区
分, 然后结合分词间的共现关系和分词的词义信
息来计算各分词的分数, 并根据词频和逆向文件
频率对分词的分数进行修正, 提高了关键词抽取
效果。
权利要求书3页 说明书10页 附图4页
CN 114912446 A
2022.08.16
CN 114912446 A
1.一种关键词抽取 方法, 其特 征在于, 包括:
对待抽取文本进行分词, 得到分词集 合;
根据预设的词图模型, 构建所述分词集 合对应的分词 词图;
根据所述分词集 合中各分词的义原, 分别生成对应分词的词向量;
根据各分词的词向量计算得到所述分词词图中邻 接分词间的词义相似度, 并根据 所述
词义相似度计算得到所述分词 词图中各分词的初始分数;
根据所述初始分数, 对所述分词集 合中的分词进行筛 选, 得到至少一个候选关键词;
确定各所述候选关键词的词频 ‑逆向文件频率值, 并对所述词频 ‑逆向文件频率值和所
述初始分数进行处 理, 得到各候选关键词的最终分数;
根据所述 最终分数, 对所述至少一个候选关键词进行筛 选, 得到至少一个关键词。
2.如权利要求1所述的关键词抽取方法, 其特征在于, 所述根据 所述分词集合中各分词
的义原, 分别生成对应分词的词向量, 包括:
确定所述分词集 合中各分词对应的义项, 以及所述 义项对应的义原;
根据所述 义项对应的义原的义原向量, 生成各义项的义项向量;
根据注意力机制, 分别对各所述分词对应的义项的义项向量进行加权求和, 得到对应
分词的词向量。
3.如权利要求2所述的关键词抽取方法, 其特征在于, 所述根据 所述义项对应的义原的
义原向量, 生成各义项的义项向量, 具体包括:
计算所述 义项对应的各义原的义原向量的平均值, 得到对应义项的义项向量。
4.如权利要求3所述的关键词抽取方法, 其特征在于, 所述根据注意力机制, 分别对各
所述分词对应的义项的义项向量进行加权求和采用如下计算公式:
其中, e表示分词w的词向量,
表示分词w的第j个义项的义项向量,
表示
分词w的第j个义项的权 重;
所述分词w的第j个义项的权 重采用如下计算公式计算得到:
其中,
分别表示分词w的第j个和第k个义项 的义项向量, wc′表示分词w的前
后各预设数量个分词的词向量的平均值。
5.如权利要求1所述的关键词抽取方法, 其特征在于, 所述根据 所述词义相似度计算得
到所述分词 词图中各分词的初始分数采用如下计算公式:权 利 要 求 书 1/3 页
2
CN 114912446 A
2其中, wi、 wj、 wk分别表示所述分词词图中的第i个、 第j个和 第k个分词, S(wi)、 S(wj)分别
表示分词wi和分词wj的初始分数, In(wi)表示所述分词词图中指向分词wi的分词集合; 0ut
(wj)表示所述分词词图中分词wj所指向的分词集合, d为平滑因子, Sim(wi,wj)表示分词wi和
wj之间的词义相似度, Sim(wk,wj)表示分词wk和wj之间的词义相似度。
6.如权利要求5所述的关键词抽取方法, 其特征在于, 所述根据 各分词的词向量计算得
到所述分词 词图中邻接分词间的词义相似度采用如下计算公式:
其中, Sim(wi,wj)表示分词wi和wj之间的词义相似度, ei、 ej分别表示词语wi、 wj的词向
量。
7.如权利要求1所述的关键词抽取方法, 其特征在于, 所述确定各所述候选关键词的词
频‑逆向文件频率值, 并对所述词频 ‑逆向文件频率值和所述初始分数进行处理, 得到各候
选关键词的最终分数, 包括:
根据各所述候选关键词在所述待抽取文本中的词频和在预设语料库中的逆向文件频
率, 分别计算得到各候选关键词的词频 ‑逆向文件频率 值;
针对每一候选关键词, 对所述词频 ‑逆向文件频率值和所述初始分数进行归一化处理,
并根据预设加权系数进行加权求和, 得到各候选关键词的最终分数。
8.如权利要求1所述的关键词抽取方法, 其特征在于, 所述对待抽取文本进行分词, 得
到分词集 合, 包括:
根据待处理文本所属的知识领域, 使用对应领域的词典对所述待抽取文本进行分词,
得到分词集 合。
9.一种关键词抽取装置, 其特 征在于, 包括:
文本预处 理模块, 用于对待抽取文本进行分词, 得到分词集 合;
词图构建模块, 用于根据预设的词图模型, 构建所述分词集 合对应的分词 词图;
词向量生成模块, 用于根据所述分词集合中各分词的义原, 分别生成对应分词的词向
量;
分数计算模块, 用于根据各分词的词向量计算得到所述分词词图中邻 接分词间的词义
相似度, 并根据所述词义相似度计算得到所述分词 词图中各分词的初始分数;
候选关键词筛选模块, 用于根据所述初始分数, 对所述分词集合中的分词进行筛选, 得
到至少一个候选关键词;
分数修正模块, 用于确定各所述候选关键词的词频 ‑逆向文件频率值, 并对所述词频 ‑
逆向文件频率 值和所述初始分数进行处 理, 得到各候选关键词的最终分数;
关键词筛选模块, 用于根据 所述最终分数, 对所述至少一个候选关键词进行筛选, 得到
至少一个关键词。权 利 要 求 书 2/3 页
3
CN 114912446 A
3
专利 一种关键词抽取方法、装置及储存介质
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:44:28上传分享