(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210376828.1
(22)申请日 2022.04.12
(65)同一申请的已公布的文献号
申请公布号 CN 114462424 A
(43)申请公布日 2022.05.10
(73)专利权人 北京思源智通科技有限责任公司
地址 102400 北京市房山区阎富路69号院
46号楼1至4层101二层07
(72)发明人 李根柱
(74)专利代理 机构 深圳市添源创鑫知识产权代
理有限公司 4 4855
专利代理师 沈冠雄
(51)Int.Cl.
G06F 40/30(2020.01)
G06F 40/289(2020.01)G06F 40/247(2020.01)
G06F 40/216(2020.01)
(56)对比文件
CN 114254653 A,2022.03.29
CN 101334768 A,20 08.12.31
US 20213 65634 A1,2021.1 1.25
审查员 邹予婷
(54)发明名称
一种文章段落分析注释方法、 系统、 可读介
质及设备
(57)摘要
本发明提供了一种文章段落分析注释方法、
系统、 可读介质及设备。 该方案包括获取待分析
文章, 进行语义采集生成为段落数据和词汇数
据;根据所述词汇数据进行语义分析, 生成近义
词库;获取全部的句子, 根据所述近义词库进行
关键段关联程度计算, 形成目标关键段落;提取
每个词汇的出现频率, 计算每个词汇的指示词词
频和每个句子的自创程度;对每个段落中的词汇
进行语义提取, 生成语义转折段落;根据所述语
义转折段落、 所述自创程度和所述目标关键段落
进行在线的段落标记、 语句标记和词汇标记。 该
方案通过自动的分析和提取在 文章中的段落、 语
句和词汇快速完成定位关键段落, 分析每个句子
的自创程度, 并进行词频 标记和语义 转折标记。
权利要求书4页 说明书10页 附图9页
CN 114462424 B
2022.07.08
CN 114462424 B
1.一种文章段落分析注释方法, 其特 征在于, 该 方法包括:
获取待分析文章, 进行语义采集 生成为段落数据和词汇数据;
根据所述词汇数据进行语义分析, 生成近义词库;
获取全部的句子, 根据所述近义词库进行关键段关联程度计算, 形成目标关键段落;
提取每个词汇的出现频率, 计算每 个词汇的指示词 词频和每 个句子的自创程度;
对每个段落中的词汇进行语义 提取, 生成语义 转折段落;
根据所述语义转折段落、 所述自创程度和所述目标关键段落进行在线的段落标记、 语
句标记和词汇标记;
其中, 所述提取每个词汇的出现频率, 计算每个词汇的指示词词频和每个句子的自创
程度, 具体包括:
设置第一预设权 重和第二预设权 重;
提取每个词汇出现的频率;
提取每个词汇对应的近义词的出现频率;
利用第三计算公式计算每 个词汇的所述指示词 词频;
利用第四计算公式计算每 个句子的所述自创程度;
对所有的句子进行近义词替换, 生成近义词转化后的句库, 并标记所述近义词转化后
的句库中全部的能够通过历史知识库查询到的句子为已有数据;
利用第五计算公式判断每 个词汇是否为高频词汇;
利用第六计算公式计算每 个句子是否为自创句子;
所述第三计算公式为:
Zsi=W1Pj1+W2Pj2
其中,Zsi为所述指示词词频, W1为第一预设权重, W2为第二预设权重, Pj1为第j个词汇的
出现频率, Pj2为第j个词汇的近义词的出现频率;
所述第四计算公式为:
KZ = (JY ‑ Y) / JY
其中,Kz为所述自创程度, Y为已有数据的总数, JY为所述近义词转 化后的句库的总数;
所述第五计算公式为:
Zsi> Zsi_max +20%*(Zsi_max‑Zsi_min)
其中,Zsi_max为所述指示词 词频最大值, Zsi_min为所述指示词 词频最小值;
所述第六计算公式为:
Kz>50%。
2.如权利要求1所述的一种文章段落分析注释方法, 其特征在于, 所述获取待分析文
章, 进行语义采集 生成为段落数据和词汇数据, 具体 包括:
获取待分析文章, 对文章进行 段落分析, 拆分为 不同段落;
根据全部的段落进行词汇拆分, 拆分为 不同的词汇;
根据全部的段落进行语句拆分, 拆分为 不同的语句;
根据段落、 词汇和语句进行实时编号, 并生成为所述段落数据、 所述词汇数据和语句数
据。
3.如权利要求2所述的一种 文章段落分析注释方法, 其特征在于, 所述根据所述词汇数权 利 要 求 书 1/4 页
2
CN 114462424 B
2据进行语义分析, 生成近义词库, 具体包括:
根据所述语句数据, 生成为全部的句子;
根据所述词汇数据, 进行近义词提取, 根据每 个词汇的近义词, 生成所述近义词库;
根据所述语句数据和所述段落数据, 进行从属关系分析, 形成每 个句子对应的段落。
4.如权利要求1所述的一种文章段落分析注释方法, 其特征在于, 所述获取全部的句
子, 根据所述近义词库进行关键段关联程度计算, 形成目标关键段落, 具体包括:
获取所有的句子, 确定每 个句子的编号;
提取每个句子中的词汇, 并根据词汇在所述近义词库中提取对应的近义词 词库;
利用第一计算公式计算所有句子的关联程度;
确定分析 段落, 利用第二计算公式计算所述关键段关联程度;
对所述关键段关联程度最大的段落 号保存为所述目标关键段落;
所述第一计算公式为:
Gi=COUNT(Cia=Cib)
其中,Gi为第i句关联程度, COUNT为计次模块, Cia为第i句的第a词对应的近义词, Cib为
除第i句外全部词汇的近义词 词库;
所述第二计算公式为:
其中,Zkey为所述关键段关联程度, max为取最大值函数, k为段落编号, S为全部段落编
号的集合,nk为第k段落的句子总数。
5.如权利要求1所述的一种 文章段落分析注释方法, 其特征在于, 所述对每个段落中的
词汇进行语义 提取, 生成语义 转折段落, 具体包括:
提取段落之间的前后关系, 并进行 段落编号;
对每个段落中的词汇进行语义 提取, 生成每 个词汇的正向均值;
判断全部的相邻段落是否满足第七计算公式, 若不满足, 则将对应的前段和后段标记
为所述语义 转折段落;
所述第七计算公式为:
其中,A为前段正向均值, B为后段正向均值, Ai为前段第 i词汇正向程度, Bi为前段第 i词
汇正向程度, n1为前段词汇数, n2位后段词汇数, m0为第一预设系数, m2位第二预设系数。
6.权利要求1所述的一种 文章段落分析注释方法, 其特征在于, 所述根据 所述语义转折
段落、 所述自创程度和所述目标关键段落进 行在线的段落标记、 语句标记和词汇标记, 具体
包括:
获取自主 展示模式, 其中, 所述自主 展示模式包括段落模式、 语句模式和词汇模式;权 利 要 求 书 2/4 页
3
CN 114462424 B
3
专利 一种文章段落分析注释方法、系统、可读介质及设备
文档预览
中文文档
24 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:46:40上传分享