(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210492756.7 (22)申请日 2022.05.07 (71)申请人 新智道枢 (上海) 科技有限公司 地址 201702 上海市青浦区高光路215弄9 9 号1幢楼五层5 01室 (72)发明人 王明光 邱世界 蒋维 钟浩  徐佳申 吴正茂 高友光 刘红志  陈磊  (74)专利代理 机构 上海锻创知识产权代理有限 公司 314 48 专利代理师 陈少凌 (51)Int.Cl. G06F 40/284(2020.01) G06F 40/30(2020.01) G06F 40/166(2020.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于词向量的警情文本 关键词提取方法、 系 统、 介质及设备 (57)摘要 本发明提供了一种基于词 向量的警情文本 关键词提取方法、 系统、 介质及设备, 包括: 步骤 S1: 将文档拆分成句子得到文档集合D=[S1, S2,....Sn ]; 其中, S1, S2, ...Sn表示文档中的每 个句子; 步骤S2: 对每个句子S=[W1,W2, ..., W m] 进行分词, 并进行预处理; 设定窗口大小为k, 构 造[W1,W2, ...,Wk], [W2,W3, ...,Wk+1], [W3, W4...,Wk+2]...; 步骤S3: 基于文档集合D=[S1, S2,....Sn]分别进行分词后构造的窗口集合依 次进行Ernie处理和TF ‑IDF处理, 得到融合语义 特征和词频特征的窗口向量集合V=[V1 , V2,....Vn]; 步骤S4: 计算词频特征的窗口向量 集合V中两两词频特征的窗口向量的相似度, 组 合成以V为顶点, 以相似度值为边的有向图G; 步 骤S5: 基于有向图G使用TextRank对文档中的关 键字进行评分, 从而提取关键 字。 权利要求书2页 说明书8页 附图1页 CN 114943224 A 2022.08.26 CN 114943224 A 1.一种基于词向量的警情文本关键词提取 方法, 其特 征在于, 包括: 步骤S1: 将文档拆分成句子得到集合D=[S1,S2,....Sn]; 其中, S1, S2, ...Sn表示文档 中的每个句子; 步骤S2: 对每个句子S=[W1,W2, ..., Wm]进行分词, 并进行预处理; 设定窗口大小为k, 构造[W1,W2, . ..,Wk], [W2,W3, . ..,Wk+1], [W3,W 4...,Wk+2]...; 步骤S3: 基于文档集合D=[S1,S2,....Sn]分别进行分词后构造的窗口集合依次进行 Ernie处理和TF ‑IDF处理, 得到融合语义特征和词频特征的窗口向量集合V=[V1,V2, ....Vn]; 步骤S4: 计算词频特征的窗口向量集合V中两两词频特征的窗口向量的相似度, 组合成 以V为顶点, 相似度值 为边的有向图G; 步骤S5: 基于有向图G使用Text Rank对文档中的关键字进行评分, 选择评分大于预设值 的关键字组合为关键字集合; 所述Ernie处理是基于 字特征输入建模捕获中文语义特 征。 2.根据权利要求1所述的基于词向量的警情文本关键词提取方法, 其特征在于, 所述步 骤S2采用: 对每个句子进 行分词并标记每个单词的词性信息, 保留名词和 动词, 去除包括停 用词以及过 滤词。 3.根据权利要求1所述的基于词向量的警情文本关键词提取方法, 其特征在于, 所述步 骤S3采用: 步骤S3.1: 建立Ern ie模型; 步骤S3.2: 将文档集合D=[S1,S2,....Sn]分别进行分词后构造的窗口集合依次通过 Ernie模型处理和TF ‑IDF处理得到融合语义特征和词频特征的窗口向量集合V=[V1, V2,....Vn]; 所述Ernie模型是对先验语义知识单元进行建模, 通过对词、 实体语义单元的掩码, 使 得Ernie模型学习完整概念的语义表示, 增强了模型语义表示能力。 4.根据权利要求1所述的基于词向量的警情文本关键词提取方法, 其特征在于, 所述步 骤S4采用: 其中, d表示基尼系数; Vi表示第i个节点; P(Vi)表示第i个节点的权重; Wij为Vi和Vj的 计算相似度; In(Vi)为Vi的入度集合, Out(Vj)为Vj的出度集合; Wjk表示Vj和Vk之间的相似 度。 5.一种基于词向量的警情文本关键词提取系统, 其特 征在于, 包括: 模块M1: 将文档拆分成句子得到集合D=[S1,S2,....Sn]; 其中, S1, S2, ...Sn表示文档 中的每个句子; 模块M2: 对每个句子S=[W1,W2, ..., Wm]进行分词, 并进行预处理; 设定窗口大小为k, 构造[W1,W2, . ..,Wk], [W2,W3, . ..,Wk+1], [W3,W 4...,Wk+2]...; 模块M3: 基于文档集合D=[S1,S2,....Sn]分别进行分词后构造的窗口集合依次进行 Ernie处理和TF ‑IDF处理, 得到融合语义特征和词频特征的窗口向量集合V=[V1,V2,权 利 要 求 书 1/2 页 2 CN 114943224 A 2....Vn]; 模块M4: 计算词频特征的窗口向量集合V中两两词频特征的窗口向量的相似度, 组合成 以V为顶点, 相似度值 为边的有向图G; 模块M5: 基于有向图G使用Text Rank对文档中的关键字进行评分, 选择评分大于预设值 的关键字组合为关键字集合; 所述Ernie处理是基于 字特征输入建模捕获中文语义特 征。 6.根据权利要求5所述的基于词向量的警情文本关键词提取系统, 其特征在于, 所述模 块M2采用: 对每个句子进 行分词并标记每个单词的词性信息, 保留名词和 动词, 去除包括停 用词以及过 滤词。 7.根据权利要求6所述的基于词向量的警情文本关键词提取系统, 其特征在于, 所述模 块M3采用: 模块M3.1: 建立Ern ie模型; 模块M3.2: 将文档集合D=[S1,S2,....Sn]分别进行分词后构造的窗口集合依次通过 Ernie模型处理和TF ‑IDF处理得到融合语义特征和词频特征的窗口向量集合V=[V1, V2,....Vn]; 所述Ernie模型是对先验语义知识单元进行建模, 通过对词、 实体语义单元的掩码, 使 得Ernie模型学习完整概念的语义表示, 增强了模型语义表示能力。 8.根据权利要求6所述的基于词向量的警情文本关键词提取系统, 其特征在于, 所述模 块M4采用: 其中, d表示基尼系数; Vi表示第i个节点; P(Vi)表示第i个节点的权重; Wij为Vi和Vj的 计算相似度; In(Vi)为Vi的入度集合, Out(Vj)为Vj的出度集合; Wjk表示Vj和Vk之间的相似 度。 9.一种存储有计算机程序的计算机可读存储介质, 其特征在于, 所述计算机程序被处 理器执行时实现权利要求1至4中任一项所述的方法的步骤。 10.一种基于词向量的警情文本关键词提取设备, 其特 征在于, 包括: 控制器; 所述控制器包括权利要求9所述的存储有计算机程序的计算机可读存储介质, 或者, 所 述控制器包括权利要求5 至8中任一项所述的基于词向量的警情文本关键词提取系统。权 利 要 求 书 2/2 页 3 CN 114943224 A 3

.PDF文档 专利 基于词向量的警情文本关键词提取方法、系统、介质及设备

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于词向量的警情文本关键词提取方法、系统、介质及设备 第 1 页 专利 基于词向量的警情文本关键词提取方法、系统、介质及设备 第 2 页 专利 基于词向量的警情文本关键词提取方法、系统、介质及设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:49:49上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。