(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210492756.7
(22)申请日 2022.05.07
(71)申请人 新智道枢 (上海) 科技有限公司
地址 201702 上海市青浦区高光路215弄9 9
号1幢楼五层5 01室
(72)发明人 王明光 邱世界 蒋维 钟浩
徐佳申 吴正茂 高友光 刘红志
陈磊
(74)专利代理 机构 上海锻创知识产权代理有限
公司 314 48
专利代理师 陈少凌
(51)Int.Cl.
G06F 40/284(2020.01)
G06F 40/30(2020.01)
G06F 40/166(2020.01)G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
基于词向量的警情文本 关键词提取方法、 系
统、 介质及设备
(57)摘要
本发明提供了一种基于词 向量的警情文本
关键词提取方法、 系统、 介质及设备, 包括: 步骤
S1: 将文档拆分成句子得到文档集合D=[S1,
S2,....Sn ]; 其中, S1, S2, ...Sn表示文档中的每
个句子; 步骤S2: 对每个句子S=[W1,W2, ..., W m]
进行分词, 并进行预处理; 设定窗口大小为k, 构
造[W1,W2, ...,Wk], [W2,W3, ...,Wk+1], [W3,
W4...,Wk+2]...; 步骤S3: 基于文档集合D=[S1,
S2,....Sn]分别进行分词后构造的窗口集合依
次进行Ernie处理和TF ‑IDF处理, 得到融合语义
特征和词频特征的窗口向量集合V=[V1 ,
V2,....Vn]; 步骤S4: 计算词频特征的窗口向量
集合V中两两词频特征的窗口向量的相似度, 组
合成以V为顶点, 以相似度值为边的有向图G; 步
骤S5: 基于有向图G使用TextRank对文档中的关
键字进行评分, 从而提取关键 字。
权利要求书2页 说明书8页 附图1页
CN 114943224 A
2022.08.26
CN 114943224 A
1.一种基于词向量的警情文本关键词提取 方法, 其特 征在于, 包括:
步骤S1: 将文档拆分成句子得到集合D=[S1,S2,....Sn]; 其中, S1, S2, ...Sn表示文档
中的每个句子;
步骤S2: 对每个句子S=[W1,W2, ..., Wm]进行分词, 并进行预处理; 设定窗口大小为k,
构造[W1,W2, . ..,Wk], [W2,W3, . ..,Wk+1], [W3,W 4...,Wk+2]...;
步骤S3: 基于文档集合D=[S1,S2,....Sn]分别进行分词后构造的窗口集合依次进行
Ernie处理和TF ‑IDF处理, 得到融合语义特征和词频特征的窗口向量集合V=[V1,V2,
....Vn];
步骤S4: 计算词频特征的窗口向量集合V中两两词频特征的窗口向量的相似度, 组合成
以V为顶点, 相似度值 为边的有向图G;
步骤S5: 基于有向图G使用Text Rank对文档中的关键字进行评分, 选择评分大于预设值
的关键字组合为关键字集合;
所述Ernie处理是基于 字特征输入建模捕获中文语义特 征。
2.根据权利要求1所述的基于词向量的警情文本关键词提取方法, 其特征在于, 所述步
骤S2采用: 对每个句子进 行分词并标记每个单词的词性信息, 保留名词和 动词, 去除包括停
用词以及过 滤词。
3.根据权利要求1所述的基于词向量的警情文本关键词提取方法, 其特征在于, 所述步
骤S3采用:
步骤S3.1: 建立Ern ie模型;
步骤S3.2: 将文档集合D=[S1,S2,....Sn]分别进行分词后构造的窗口集合依次通过
Ernie模型处理和TF ‑IDF处理得到融合语义特征和词频特征的窗口向量集合V=[V1,
V2,....Vn];
所述Ernie模型是对先验语义知识单元进行建模, 通过对词、 实体语义单元的掩码, 使
得Ernie模型学习完整概念的语义表示, 增强了模型语义表示能力。
4.根据权利要求1所述的基于词向量的警情文本关键词提取方法, 其特征在于, 所述步
骤S4采用:
其中, d表示基尼系数; Vi表示第i个节点; P(Vi)表示第i个节点的权重; Wij为Vi和Vj的
计算相似度; In(Vi)为Vi的入度集合, Out(Vj)为Vj的出度集合; Wjk表示Vj和Vk之间的相似
度。
5.一种基于词向量的警情文本关键词提取系统, 其特 征在于, 包括:
模块M1: 将文档拆分成句子得到集合D=[S1,S2,....Sn]; 其中, S1, S2, ...Sn表示文档
中的每个句子;
模块M2: 对每个句子S=[W1,W2, ..., Wm]进行分词, 并进行预处理; 设定窗口大小为k,
构造[W1,W2, . ..,Wk], [W2,W3, . ..,Wk+1], [W3,W 4...,Wk+2]...;
模块M3: 基于文档集合D=[S1,S2,....Sn]分别进行分词后构造的窗口集合依次进行
Ernie处理和TF ‑IDF处理, 得到融合语义特征和词频特征的窗口向量集合V=[V1,V2,权 利 要 求 书 1/2 页
2
CN 114943224 A
2....Vn];
模块M4: 计算词频特征的窗口向量集合V中两两词频特征的窗口向量的相似度, 组合成
以V为顶点, 相似度值 为边的有向图G;
模块M5: 基于有向图G使用Text Rank对文档中的关键字进行评分, 选择评分大于预设值
的关键字组合为关键字集合;
所述Ernie处理是基于 字特征输入建模捕获中文语义特 征。
6.根据权利要求5所述的基于词向量的警情文本关键词提取系统, 其特征在于, 所述模
块M2采用: 对每个句子进 行分词并标记每个单词的词性信息, 保留名词和 动词, 去除包括停
用词以及过 滤词。
7.根据权利要求6所述的基于词向量的警情文本关键词提取系统, 其特征在于, 所述模
块M3采用:
模块M3.1: 建立Ern ie模型;
模块M3.2: 将文档集合D=[S1,S2,....Sn]分别进行分词后构造的窗口集合依次通过
Ernie模型处理和TF ‑IDF处理得到融合语义特征和词频特征的窗口向量集合V=[V1,
V2,....Vn];
所述Ernie模型是对先验语义知识单元进行建模, 通过对词、 实体语义单元的掩码, 使
得Ernie模型学习完整概念的语义表示, 增强了模型语义表示能力。
8.根据权利要求6所述的基于词向量的警情文本关键词提取系统, 其特征在于, 所述模
块M4采用:
其中, d表示基尼系数; Vi表示第i个节点; P(Vi)表示第i个节点的权重; Wij为Vi和Vj的
计算相似度; In(Vi)为Vi的入度集合, Out(Vj)为Vj的出度集合; Wjk表示Vj和Vk之间的相似
度。
9.一种存储有计算机程序的计算机可读存储介质, 其特征在于, 所述计算机程序被处
理器执行时实现权利要求1至4中任一项所述的方法的步骤。
10.一种基于词向量的警情文本关键词提取设备, 其特 征在于, 包括: 控制器;
所述控制器包括权利要求9所述的存储有计算机程序的计算机可读存储介质, 或者, 所
述控制器包括权利要求5 至8中任一项所述的基于词向量的警情文本关键词提取系统。权 利 要 求 书 2/2 页
3
CN 114943224 A
3
专利 基于词向量的警情文本关键词提取方法、系统、介质及设备
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:49:49上传分享