(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210298133.6
(22)申请日 2022.03.25
(65)同一申请的已公布的文献号
申请公布号 CN 114398867 A
(43)申请公布日 2022.04.26
(73)专利权人 北京大学
地址 100871 北京市海淀区颐和园路5号
(72)发明人 段思宇 苏祺 王军
(74)专利代理 机构 北京万象新悦知识产权代理
有限公司 1 1360
专利代理师 黄凤茹
(51)Int.Cl.
G06F 40/194(2020.01)
G06F 40/30(2020.01)(56)对比文件
CN 113486645 A,2021.10.08
CN 110196906 A,2019.09.0 3
US 2013054612 A1,2013.02.28
王帅等.TP-AS :一种面向长文本的两阶段自
动摘要方法. 《中文信息学报》 .2018,第32卷(第
06期),第71-79页.
Miguel F eria等.Co nstructi ng a Word
Similarity Graph from Vector based W ord
Representati on for Named Entity
Recognition. 《arXiv》 .2018,第1- 6页.
审查员 孙韬敏
(54)发明名称
一种两阶段的长文本相似度计算方法
(57)摘要
本发明公布了一种两阶段的长文本相似度
计算方法, 在第一阶段相似句子检测阶段, 基于
深度学习模 型构建句向量提取模 型, 将文本转换
为句向量; 检测得到每条长文本之间多种相似类
型的相似句子对; 在第二阶段图结构计算阶段,
计算得到基础相似度; 将长文本相似句子对和基
础相似度表 示成相似句子关系图; 图上的每个节
点表示一条长文本; 通过运算获得融合群体信息
的高层次节点表示; 更新节点特征信息, 节点特
征向量上每个维度的值即对应长文本之间的文
本相似度; 即获得长文本之间的文本相似度。 本
发明方法可使得长文本相似度具有较强的可解
释性, 提升文本处 理的有效性和精度。
权利要求书3页 说明书7页 附图2页
CN 114398867 B
2022.06.28
CN 114398867 B
1.一种两阶段的长文本相似度计算方法, 其特 征是,
在第一阶段相似句子检测阶段, 包括:
11) 基于深度学习模型构建句向量提取模型, 所述句向量提取模型包括语义相似检测
模型和转 述相似检测模型;
12) 通过所述句向量提取模型将文本转换为句向量, 再采用多种检测方法检测得到每
条长文本之间多种相似类型的相似句子对, 包括: 语义相似型句子对、 转述相似 型句子对和
局部相似型句子对;
在第二阶段图结构计算阶段, 包括:
21) 计算得到基础相似度;
22) 根据长文本相似句子对和基础相似度构建相似句子关系图结构; 相似句子关系图
上的每个节点表示一条长文本; 节点之 间的边表 示节点对应的两条长文本之间存在相似句
子;
23) 通过相似句子关系图的运算, 在相似句子关系图上进行两次信息传递和聚合运算,
得到融合群 体信息的高层次节点表示, 由此获得新的节点特 征信息并更新;
节点特征向量上每个维度的值即对应长文本之间的文本相似度; 根据节点特征, 获得
长文本之间的文本相似度。
2.如权利要求1所述两阶段的长文本相似度计算方法, 其特征是, 在相似句子检测阶段
之前, 首先将每条长文本分割为句子; 通过对比学习微调预训练的语言表征模型BERT模型
或RoBERTa模型, 得到句向量提取模 型; 通过所述句向量提取模型包括的语义相似检测模 型
和转述相似检测模型分别提取长文本句子和子句的句向量, 从而将长文本转换为句向量。
3.如权利要求2所述两阶段的长文本相似度计算方法, 其特征是, 进一步地, 通过如下
步骤得到句向量 提取模型:
11) 通过进行句子语义相似性对比学习训练, 微调BERT模型, 得到语义相似检测模型;
包括:
对提取得到的句向量, 采用丢弃法处 理, 构造得到对比学习的正例;
将一个训练批次中其 他句向量作为对比学习的负例;
用于训练的损失函数采用基于句向量和构造的正例及负例计算的损失函数;
将训练好的模型命名为语义相似检测模型;
12) 通过进行句子转述相似性对比学习训练, 微调BERT模型, 得到转述相似检测模型;
包括:
从句子文本中提取 出句向量;
对每个句子内部, 按逗号分割为子句, 在句子文本 中随机选择和打乱子句, 得到新句子
文本; 对从新句 子文本中提取 的句向量采用丢弃法处理构造对比学习的正例; 将一个训练
批次中其 他句子文本所提取的向量作为对比学习的负例;
BERT模型微调的损失函数包含
与
;
与步骤11) 采用的损失函数相同; 计算是
基于句向量和构造的正例及负例计算得到损失函数
;
最终损失函数
为:
; 其中,
是需要被设置的超参数, 用于调节
模型对句子结构重组和语意差异之间的侧重程度;
得到的模型即命名为 转述相似检测模型。权 利 要 求 书 1/3 页
2
CN 114398867 B
24.如权利要求1所述两阶段的长文本相似度计算方法, 其特征是, 进一步地, 第一阶段
所述多种检测方法包括三种相似型句 子对的检测方法, 检测得到语义相似型句 子对、 转述
相似型句子对和 局部相似型句子对。
5.如权利要求 4所述两阶段的长文本相似度计算方法, 其特 征是, 进一步地,
A. 检测语义相似型句子对时, 执 行如下操作:
A1. 将每条长文本
按表示句子分割的标点符号分割为句子;
A2. 使用语义相似检测模型提取 所有句子的特 征向量, 记为
;
A3. 对句子的特征向量
去重复, 得到
; 对每个特征向量, 找到其TOPK个相似的向量;
并将获得的所有向量对记为
;
A4. 计算
中向量距离的第t百分位数, 作为相似性阈值
;
A5. 过滤出
中特征向量距离小于
的句子对, 即为语义相似型句子对;
B. 检测转述相似型的句子对时, 执 行如下操作:
B1. 将每条长文本
按表示句子分割的标点符号分割为句子;
B2. 使用转述相似检测模型提取 所有句子的特 征向量, 记为
;
B3. 对句子的特征向量
去重复, 得到
; 对每个特征向量, 找 到其TOPK个相似的向量;
将获得的所有向量对计为
;
B4. 计算
中向量距离的第t百分位数, 作为相似性阈值
;
B5. 过滤出
中特征向量距离小于
的句子对, 即为 转述相似型句子对;
C. 检测局部相似型的句子对时, 执 行如下操作:
C1. 将每条长文本
按表示句子分割的标点符号分割 为句子后, 在句子内部按逗号分
割为子句;
C2. 使用语义相似检测模型提取 所有子句的特 征向量, 记为
;
C3. 对句子的特征向量
去重复, 得到
; 对每个特征向量, 找到其TOPK个相似的向量;
将获得的所有向量对计为
;
C4. 计算
中向量距离的第t百分位数, 作为相似性阈值
;
C5. 过滤出
中特征向量距离小于
的子句对;
C6. 对成功匹配的子句对, 追溯到对应的句子对, 即为局部相似型句子对。
6.如权利要求5所述两阶段的长文本相似度计算方法, 其特征是, 将三种类型的相似句
子对检测结果进行合并汇总后, 根据文本总长度对数值进行标准化处理, 得到长文本的基
础相似度。
7.如权利要求6所述两阶段的长文本相似度计算方法, 其特征是, 进一步地, 计算基础
相似度是:
设有两条长文本
,
, 检测到
和
中的
个句子相似, 则两条长文本的基础相似度
按如下计算得到:
其中,
和
分别为两条长文本中的句子总数量。
8.如权利要求7所述两阶段的长文本相似度计算方法, 其特征是, 进一步地, 将长文本权 利 要 求 书 2/3 页
3
CN 114398867 B
3
专利 一种两阶段的长文本相似度计算方法
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:44:11上传分享