专利一种基于对比学习的长文本语义相似度计算方法 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210322393.2 (22)申请日 2022.03.29 (71)申请人北京理工大学地址 100081 北京市海淀区中关村南大街5 号 (72)发明人王彦浩　张华平　商建云　 (74)专利代理机构北京正阳理工知识产权代理事务所(普通合伙) 11639 专利代理师张利萍 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/289(2020.01) G06F 16/35(2019.01) G06K 9/62(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称一种基于对比学习的长文本语义相似度计算方法 (57)摘要本发明公开了一种基于对比学习的长文本语义相似度计算方法，属于人工智能、自然语言处理技术领域。本发明主要解决的技术问题为小样本场景下长文本语义匹配问题。首先通过爬虫、人工采集手段构建通用、领域数据库。其次使用领域数据库和通用数据库中包含的主题、标题、关键短语等篇章结构信息构建模型，通过有监督的文本表示学习方法对比学习进行训练。最后使用该模型对待评价文本进行预测来获得相似度打分，经过人工修正模块对该语义打分进行修正，并决定是否将该文本加入领域数据库进一步扩大训练资源。定期使用领域资源库更新模型，实现小样本下高精度语义相似度计算。权利要求书3页说明书6页附图5页 CN 114707516 A 2022.07.05 CN 114707516 A 1.一种基于对比学习的长文本语义相似度计算方法，其特征在于：包括如下步骤：步骤1、对需要进行文本语义评价的领域，分别建立领域数据库和通用数据库；首先将主题、短语、文章段落标题等类别分别加入到数据库包含的数据表对应的字段中；其次，建立通用数据库，作为领域数据库的对比数据，通用数据要求包含少量的领域信息，同时在语义上又是领域无关的数据；其数据构建方法是通过爬虫技术从知乎、微博、裁判文书网上抓取文章信息，将抓取且清洗后的三种篇章结构信息作为主题字段、短语字段、标题字段加入通用数据库中；步骤2、使用BigBird预训练语言模型，针对长文本信息采用多输入结构进行共享参数训练，包括以下步骤：步骤2‑1、基于通用数据库、领域数据库中的数据构建用于训练的句子对数据。数据包含短语、标题、主题等字段信息，具体包括如下子步骤：步骤2‑1‑1、构建正样本，具体采用公示(1)构建： [CLS]领域数据库ID＝x 对应的y字段[ SEP]领域数据库ID！＝x 对应的y字段[ SEP]； (1) 其中x指领域数据库中的ID字段值， y表示文章x对应ID下的短语、标题、主题等字段信息；同一数据库中的数据构建句子对，作为训练数据的正样本；步骤2‑1‑2、构建负样本，具体采用公示(2)构建： [CLS]领域数据库ID＝x 对应的y字段[ SEP]通用数据库ID＝z对应的y字段[ SEP]； (2) 其中x指领域数据库中的ID字段值， z指通用数据库中的ID字段值， y表示文章x或文章z 对应ID下的短语、标题、主题等字段信息；不同数据库中的数据构建句子对，作为训练数据的负样本；其中， ID＝x在同一条正负样本中应该是相同的；步骤2‑1‑3、构建样本对，按照步骤2 ‑1‑1)中构建正样本的方式，由短语、主题、标题三种篇章结构信息形成了正样本的一条数据，同理、按照步骤2 ‑1‑2) 中构建负样本的方式形成一条负样本数据，按照正样本标签为1，负样本标签为0，构建出一条句子对训练数据；步骤2‑2、将句子对数据按照批次分别输入到Bigbird预训练语言模型中进行训练，整个过程三种篇章结构信息同时输入到模型，并且在训练过程中共享模型参数，模型的损失公式由多部分构成，具体包括以下子步骤：步骤2‑2‑1、采用句子对任务进行训练，首先引入对比学习损失函数，具体采用公式(3) 构建：其中， N表示一次输入到模型的数据量， hi，表示正样本，表示领域数据库中的其他正样本，表示通用数据库中的数据，作为负样本存在；步骤2‑2‑2、句子对任务，不仅引入对比学习损失函数，而且要从多维角度学习正负样本之间的差异，引入hi nge loss作为第二损失，具体采用公式(4)构建： Hinge＝0.1+prob‑‑prob+ (4) 其中prob+指正样本经过模型得到的概率打分，该打分反映出样本在深层网络中得到的权　利　要　求　书 1/3 页 2 CN 114707516 A 2语义表示和领域内容的贴合程度； prob‑指负样本经过模型得到的打分； Hinge是模型需要反向传播的损失，模型需要融合该损失来更新网络参数；步骤2‑2‑3、由于数据分类为领域数据和通用数据，领域数据库的内容标签属性为1，相反通用数据库中的数据标签为0，具体采用公式(5)构建： Y＝targettag‑probtag (5) 其中， tag为+或‑，用来区分正样本和负样本，其中target+＝1， target‑＝1；步骤2‑2‑4、通过步骤2 ‑2‑1)、步骤2 ‑2‑2)、步骤2 ‑2‑3)可以加权得到总损失，总损失是用来传递给模型更新网络参数的关键部分，具体采用公式(6)计算： Total＝F(i)*a+Hi nge+Y* λ (6) 其中， a表示对比学习损失的加权值，经过试验a取30～36之间模型收敛效果最佳， λ表示分类损失，经过试验 λ取值在0.9 ‑0.12之间模型效果最佳；将训练数据输入Bigbird预训练语言模型进行微调训练，并依据多任务损失反向传播更新模型参数，让模型更优的解决目标函数提出的问题；步骤3)使用步骤2)训练好的模型，针对待评价长文本进行预处理，输入模型之后获得和当前领域文本的领域相似度打分，包括以下子步骤：步骤3‑1)预处理待评价文章，首先使用格式解析获取当前文本的标题信息、使用LDA方法获取主题信息、使用TF ‑IDF获取关键词信息；并按照步骤2 ‑1‑2)所示构建负样本的方式构建测试数据，其中待预测数据作为通用数据库中的数据存在，领域数据随机从领域数据库中选择；样本预测的输入格式是单样本形式，与训练输入样本对的结构不同；待评价文章转化为标准输入样本格式之后，进行如下步骤；步骤3‑2、将数据输入步骤2训练后的模型，经过模型对文本信息分词转化，并在高维空间进行向量表示之后，通过模型的门控单元对短语、主题、标题等各个字段的权重信息进行拟合，门控单元采用transformer结构，对于多字段复杂的权重信息拟合效果更佳；输入样本经过门控单元之后获得了与领域文本的相似度打分；步骤3‑3、步骤3)基于领域数据库中不同文章数据打分次数是否大于等于10次，若是，则求出打分的平均值，执行之后步骤；若不是则更换参与匹配的领域数据并转步骤3)继续执行；步骤4、专业领域人员校订和领域相关文章入库为实现长文本在线语义相似度计算，需要对已进行模型预测并获得打分的数据进行人工修正，将打分较高并且人工选中的数据对应的各个字段信息加入到领域数据库中；步骤5、调用上代模型，持续学习，提升模型效果冷启动的高准确率领域数据是有限的，模型拟合效果也因此受限，因此需要根据可用领域数据量定期对模型进行训练。 2.根据权利要求1所述的一种基于对比学习的长文本语义相似度计算方法，其特征在于：所述步骤4具体包括以下子步骤：步骤4‑1、首先对于获得打分的文章判断其打分是否高于0.8，若是，则直接通过人工进行去躁并将其对应的字段数据加入领域数据库，结束步骤4)并进入下一步骤，若小于等于 0.8且大于 0.6则进入如下步骤；权　利　要　求　书 2/3 页 3 CN 114707516 A 3

专利 一种基于对比学习的长文本语义相似度计算方法

专利一种基于对比学习的长文本语义相似度计算方法