(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210376828.1 (22)申请日 2022.04.12 (65)同一申请的已公布的文献号 申请公布号 CN 114462424 A (43)申请公布日 2022.05.10 (73)专利权人 北京思源智通科技有限责任公司 地址 102400 北京市房山区阎富路69号院 46号楼1至4层101二层07 (72)发明人 李根柱  (74)专利代理 机构 深圳市添源创鑫知识产权代 理有限公司 4 4855 专利代理师 沈冠雄 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/289(2020.01)G06F 40/247(2020.01) G06F 40/216(2020.01) (56)对比文件 CN 114254653 A,2022.03.29 CN 101334768 A,20 08.12.31 US 20213 65634 A1,2021.1 1.25 审查员 邹予婷 (54)发明名称 一种文章段落分析注释方法、 系统、 可读介 质及设备 (57)摘要 本发明提供了一种文章段落分析注释方法、 系统、 可读介质及设备。 该方案包括获取待分析 文章, 进行语义采集生成为段落数据和词汇数 据;根据所述词汇数据进行语义分析, 生成近义 词库;获取全部的句子, 根据所述近义词库进行 关键段关联程度计算, 形成目标关键段落;提取 每个词汇的出现频率, 计算每个词汇的指示词词 频和每个句子的自创程度;对每个段落中的词汇 进行语义提取, 生成语义转折段落;根据所述语 义转折段落、 所述自创程度和所述目标关键段落 进行在线的段落标记、 语句标记和词汇标记。 该 方案通过自动的分析和提取在 文章中的段落、 语 句和词汇快速完成定位关键段落, 分析每个句子 的自创程度, 并进行词频 标记和语义 转折标记。 权利要求书4页 说明书10页 附图9页 CN 114462424 B 2022.07.08 CN 114462424 B 1.一种文章段落分析注释方法, 其特 征在于, 该 方法包括: 获取待分析文章, 进行语义采集 生成为段落数据和词汇数据; 根据所述词汇数据进行语义分析, 生成近义词库; 获取全部的句子, 根据所述近义词库进行关键段关联程度计算, 形成目标关键段落; 提取每个词汇的出现频率, 计算每 个词汇的指示词 词频和每 个句子的自创程度; 对每个段落中的词汇进行语义 提取, 生成语义 转折段落; 根据所述语义转折段落、 所述自创程度和所述目标关键段落进行在线的段落标记、 语 句标记和词汇标记; 其中, 所述提取每个词汇的出现频率, 计算每个词汇的指示词词频和每个句子的自创 程度, 具体包括: 设置第一预设权 重和第二预设权 重; 提取每个词汇出现的频率; 提取每个词汇对应的近义词的出现频率; 利用第三计算公式计算每 个词汇的所述指示词 词频; 利用第四计算公式计算每 个句子的所述自创程度; 对所有的句子进行近义词替换, 生成近义词转化后的句库, 并标记所述近义词转化后 的句库中全部的能够通过历史知识库查询到的句子为已有数据; 利用第五计算公式判断每 个词汇是否为高频词汇; 利用第六计算公式计算每 个句子是否为自创句子; 所述第三计算公式为: Zsi=W1Pj1+W2Pj2 其中,Zsi为所述指示词词频, W1为第一预设权重, W2为第二预设权重, Pj1为第j个词汇的 出现频率, Pj2为第j个词汇的近义词的出现频率; 所述第四计算公式为: KZ = (JY ‑  Y) / JY 其中,Kz为所述自创程度, Y为已有数据的总数, JY为所述近义词转 化后的句库的总数; 所述第五计算公式为: Zsi> Zsi_max +20%*(Zsi_max‑Zsi_min) 其中,Zsi_max为所述指示词 词频最大值, Zsi_min为所述指示词 词频最小值; 所述第六计算公式为: Kz>50%。 2.如权利要求1所述的一种文章段落分析注释方法, 其特征在于, 所述获取待分析文 章, 进行语义采集 生成为段落数据和词汇数据, 具体  包括: 获取待分析文章, 对文章进行 段落分析, 拆分为 不同段落; 根据全部的段落进行词汇拆分, 拆分为 不同的词汇; 根据全部的段落进行语句拆分, 拆分为 不同的语句; 根据段落、 词汇和语句进行实时编号, 并生成为所述段落数据、 所述词汇数据和语句数 据。 3.如权利要求2所述的一种 文章段落分析注释方法, 其特征在于, 所述根据所述词汇数权 利 要 求 书 1/4 页 2 CN 114462424 B 2据进行语义分析, 生成近义词库, 具体包括: 根据所述语句数据, 生成为全部的句子; 根据所述词汇数据, 进行近义词提取, 根据每 个词汇的近义词, 生成所述近义词库; 根据所述语句数据和所述段落数据, 进行从属关系分析, 形成每 个句子对应的段落。 4.如权利要求1所述的一种文章段落分析注释方法, 其特征在于, 所述获取全部的句 子, 根据所述近义词库进行关键段关联程度计算, 形成目标关键段落, 具体包括: 获取所有的句子, 确定每 个句子的编号; 提取每个句子中的词汇, 并根据词汇在所述近义词库中提取对应的近义词 词库; 利用第一计算公式计算所有句子的关联程度; 确定分析 段落, 利用第二计算公式计算所述关键段关联程度; 对所述关键段关联程度最大的段落 号保存为所述目标关键段落; 所述第一计算公式为: Gi=COUNT(Cia=Cib) 其中,Gi为第i句关联程度, COUNT为计次模块, Cia为第i句的第a词对应的近义词, Cib为 除第i句外全部词汇的近义词 词库; 所述第二计算公式为: 其中,Zkey为所述关键段关联程度, max为取最大值函数, k为段落编号, S为全部段落编 号的集合,nk为第k段落的句子总数。 5.如权利要求1所述的一种 文章段落分析注释方法, 其特征在于, 所述对每个段落中的 词汇进行语义 提取, 生成语义 转折段落, 具体包括: 提取段落之间的前后关系, 并进行 段落编号; 对每个段落中的词汇进行语义 提取, 生成每 个词汇的正向均值; 判断全部的相邻段落是否满足第七计算公式, 若不满足, 则将对应的前段和后段标记 为所述语义 转折段落; 所述第七计算公式为: 其中,A为前段正向均值, B为后段正向均值, Ai为前段第 i词汇正向程度, Bi为前段第 i词 汇正向程度, n1为前段词汇数, n2位后段词汇数, m0为第一预设系数, m2位第二预设系数。 6.权利要求1所述的一种 文章段落分析注释方法, 其特征在于, 所述根据 所述语义转折 段落、 所述自创程度和所述目标关键段落进 行在线的段落标记、 语句标记和词汇标记, 具体 包括: 获取自主 展示模式, 其中, 所述自主 展示模式包括段落模式、 语句模式和词汇模式;权 利 要 求 书 2/4 页 3 CN 114462424 B 3

.PDF文档 专利 一种文章段落分析注释方法、系统、可读介质及设备

文档预览
中文文档 24 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种文章段落分析注释方法、系统、可读介质及设备 第 1 页 专利 一种文章段落分析注释方法、系统、可读介质及设备 第 2 页 专利 一种文章段落分析注释方法、系统、可读介质及设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:46:40上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。