专利一种两阶段的长文本相似度计算方法 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210298133.6 (22)申请日 2022.03.25 (65)同一申请的已公布的文献号申请公布号 CN 114398867 A (43)申请公布日 2022.04.26 (73)专利权人北京大学地址 100871 北京市海淀区颐和园路5号 (72)发明人段思宇　苏祺　王军　 (74)专利代理机构北京万象新悦知识产权代理有限公司 1 1360 专利代理师黄凤茹 (51)Int.Cl. G06F 40/194(2020.01) G06F 40/30(2020.01)(56)对比文件 CN 113486645 A,2021.10.08 CN 110196906 A,2019.09.0 3 US 2013054612 A1,2013.02.28 王帅等.TP-AS :一种面向长文本的两阶段自动摘要方法. 《中文信息学报》 .2018,第32卷(第 06期),第71-79页. Miguel F eria等.Co nstructi ng a Word Similarity Graph from Vector based W ord Representati on for Named Entity Recognition. 《arXiv》 .2018,第1- 6页. 审查员孙韬敏 (54)发明名称一种两阶段的长文本相似度计算方法 (57)摘要本发明公布了一种两阶段的长文本相似度计算方法，在第一阶段相似句子检测阶段，基于深度学习模型构建句向量提取模型，将文本转换为句向量；检测得到每条长文本之间多种相似类型的相似句子对；在第二阶段图结构计算阶段，计算得到基础相似度；将长文本相似句子对和基础相似度表示成相似句子关系图；图上的每个节点表示一条长文本；通过运算获得融合群体信息的高层次节点表示；更新节点特征信息，节点特征向量上每个维度的值即对应长文本之间的文本相似度；即获得长文本之间的文本相似度。本发明方法可使得长文本相似度具有较强的可解释性，提升文本处理的有效性和精度。权利要求书3页说明书7页附图2页 CN 114398867 B 2022.06.28 CN 114398867 B 1.一种两阶段的长文本相似度计算方法，其特征是，在第一阶段相似句子检测阶段，包括： 11）基于深度学习模型构建句向量提取模型，所述句向量提取模型包括语义相似检测模型和转述相似检测模型； 12）通过所述句向量提取模型将文本转换为句向量，再采用多种检测方法检测得到每条长文本之间多种相似类型的相似句子对，包括：语义相似型句子对、转述相似型句子对和局部相似型句子对；在第二阶段图结构计算阶段，包括： 21）计算得到基础相似度； 22）根据长文本相似句子对和基础相似度构建相似句子关系图结构；相似句子关系图上的每个节点表示一条长文本；节点之间的边表示节点对应的两条长文本之间存在相似句子； 23）通过相似句子关系图的运算，在相似句子关系图上进行两次信息传递和聚合运算，得到融合群体信息的高层次节点表示，由此获得新的节点特征信息并更新；节点特征向量上每个维度的值即对应长文本之间的文本相似度；根据节点特征，获得长文本之间的文本相似度。 2.如权利要求1所述两阶段的长文本相似度计算方法，其特征是，在相似句子检测阶段之前，首先将每条长文本分割为句子；通过对比学习微调预训练的语言表征模型BERT模型或RoBERTa模型，得到句向量提取模型；通过所述句向量提取模型包括的语义相似检测模型和转述相似检测模型分别提取长文本句子和子句的句向量，从而将长文本转换为句向量。 3.如权利要求2所述两阶段的长文本相似度计算方法，其特征是，进一步地，通过如下步骤得到句向量提取模型： 11）通过进行句子语义相似性对比学习训练，微调BERT模型，得到语义相似检测模型；包括：对提取得到的句向量，采用丢弃法处理，构造得到对比学习的正例；将一个训练批次中其他句向量作为对比学习的负例；用于训练的损失函数采用基于句向量和构造的正例及负例计算的损失函数；将训练好的模型命名为语义相似检测模型； 12）通过进行句子转述相似性对比学习训练，微调BERT模型，得到转述相似检测模型；包括：从句子文本中提取出句向量；对每个句子内部，按逗号分割为子句，在句子文本中随机选择和打乱子句，得到新句子文本；对从新句子文本中提取的句向量采用丢弃法处理构造对比学习的正例；将一个训练批次中其他句子文本所提取的向量作为对比学习的负例； BERT模型微调的损失函数包含与；与步骤11）采用的损失函数相同；计算是基于句向量和构造的正例及负例计算得到损失函数；最终损失函数为：；其中，是需要被设置的超参数，用于调节模型对句子结构重组和语意差异之间的侧重程度；得到的模型即命名为转述相似检测模型。权　利　要　求　书 1/3 页 2 CN 114398867 B 24.如权利要求1所述两阶段的长文本相似度计算方法，其特征是，进一步地，第一阶段所述多种检测方法包括三种相似型句子对的检测方法，检测得到语义相似型句子对、转述相似型句子对和局部相似型句子对。 5.如权利要求 4所述两阶段的长文本相似度计算方法，其特征是，进一步地， A. 检测语义相似型句子对时，执行如下操作： A1. 将每条长文本按表示句子分割的标点符号分割为句子； A2. 使用语义相似检测模型提取所有句子的特征向量，记为； A3. 对句子的特征向量去重复，得到；对每个特征向量，找到其TOPK个相似的向量；并将获得的所有向量对记为； A4. 计算中向量距离的第t百分位数，作为相似性阈值； A5. 过滤出中特征向量距离小于的句子对，即为语义相似型句子对； B. 检测转述相似型的句子对时，执行如下操作： B1. 将每条长文本按表示句子分割的标点符号分割为句子； B2. 使用转述相似检测模型提取所有句子的特征向量，记为； B3. 对句子的特征向量去重复，得到；对每个特征向量，找到其TOPK个相似的向量；将获得的所有向量对计为； B4. 计算中向量距离的第t百分位数，作为相似性阈值； B5. 过滤出中特征向量距离小于的句子对，即为转述相似型句子对； C. 检测局部相似型的句子对时，执行如下操作： C1. 将每条长文本按表示句子分割的标点符号分割为句子后，在句子内部按逗号分割为子句； C2. 使用语义相似检测模型提取所有子句的特征向量，记为； C3. 对句子的特征向量去重复，得到；对每个特征向量，找到其TOPK个相似的向量；将获得的所有向量对计为； C4. 计算中向量距离的第t百分位数，作为相似性阈值； C5. 过滤出中特征向量距离小于的子句对； C6. 对成功匹配的子句对，追溯到对应的句子对，即为局部相似型句子对。 6.如权利要求5所述两阶段的长文本相似度计算方法，其特征是，将三种类型的相似句子对检测结果进行合并汇总后，根据文本总长度对数值进行标准化处理，得到长文本的基础相似度。 7.如权利要求6所述两阶段的长文本相似度计算方法，其特征是，进一步地，计算基础相似度是：设有两条长文本，，检测到和中的个句子相似，则两条长文本的基础相似度按如下计算得到：其中，和分别为两条长文本中的句子总数量。 8.如权利要求7所述两阶段的长文本相似度计算方法，其特征是，进一步地，将长文本权　利　要　求　书 2/3 页 3 CN 114398867 B 3

专利 一种两阶段的长文本相似度计算方法

专利一种两阶段的长文本相似度计算方法