(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210322393.2
(22)申请日 2022.03.29
(71)申请人 北京理工大 学
地址 100081 北京市海淀区中关村南大街5
号
(72)发明人 王彦浩 张华平 商建云
(74)专利代理 机构 北京正阳理工知识产权代理
事务所(普通 合伙) 11639
专利代理师 张利萍
(51)Int.Cl.
G06F 40/30(2020.01)
G06F 40/289(2020.01)
G06F 16/35(2019.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
(54)发明名称
一种基于对比学习的长文本语义相似度计
算方法
(57)摘要
本发明公开了一种基于对比学习的长文本
语义相似度计算方法, 属于人工智能、 自然语言
处理技术领域。 本发明主要解决的技术问题为小
样本场景下长文本语义匹配问题。 首先通过爬
虫、 人工采集手段构建通用、 领域数据库。 其次使
用领域数据库和通用数据库中包含的主题、 标
题、 关键短语等篇章结构信息构建模型, 通过有
监督的文本表 示学习方法对比学习进行训练。 最
后使用该模型对待评价文本进行预测来获得相
似度打分, 经过人工修正模块对 该语义打分进行
修正, 并决定是否将该文本加入 领域数据库进一
步扩大训练资源。 定期使用领域资源库更新模
型, 实现小样本下高精度语义相似度计算。
权利要求书3页 说明书6页 附图5页
CN 114707516 A
2022.07.05
CN 114707516 A
1.一种基于对比学习的长文本语义相似度计算方法, 其特 征在于: 包括如下步骤:
步骤1、 对需要 进行文本语义评价的领域, 分别建立领域数据库和通用数据库;
首先将主题、 短语、 文章段落标题等类别分别加入到数据库包含的数据表对应的字段
中;
其次, 建立通用数据库, 作为领域数据库的对比数据, 通用数据要求包含少量的领域信
息, 同时在语义上 又是领域无关的数据;
其数据构建方法是通过爬虫技术从知乎、 微博、 裁判 文书网上抓取文章信息, 将抓取且
清洗后的三种篇 章结构信息作为主题字段、 短语字段、 标题字段加入通用数据库中;
步骤2、 使用BigBird预训练语言模型, 针对长文本信息采用多输入结构进行共享参数
训练, 包括以下步骤:
步骤2‑1、 基于通用数据库、 领域数据库中的数据构建用于训练的句子对数据。 数据包
含短语、 标题、 主题等字段信息, 具体包括如下子步骤:
步骤2‑1‑1、 构建正样本, 具体采用公示(1)构建:
[CLS]领域数据库ID=x 对应的y字段[ SEP]领域数据库ID! =x 对应的y字段[ SEP]; (1)
其中x指领域数据库中的ID字段值, y表示文章x对应ID下的短语、 标题、 主题等字段信
息; 同一数据库中的数据构建句子对, 作为训练数据的正样本;
步骤2‑1‑2、 构建负 样本, 具体采用公示(2)构建:
[CLS]领域数据库ID=x 对应的y字段[ SEP]通用数据库ID=z对应的y字段[ SEP]; (2)
其中x指领域数据库中的ID字段值, z指通用数据库中的ID字段值, y表示文章x或文章z
对应ID下的短语、 标题、 主题等字段信息; 不同数据库中的数据构建句子对, 作为训练数据
的负样本;
其中, ID=x在同一条正负 样本中应该 是相同的;
步骤2‑1‑3、 构建样本对, 按照步骤2 ‑1‑1)中构建正样本的方式, 由短语、 主题、 标题三
种篇章结构信息形成了正样 本的一条数据, 同理、 按照步骤2 ‑1‑2) 中构建负样 本的方式形
成一条负 样本数据, 按照正样本标签为1, 负 样本标签为0, 构建出一条句子对训练数据;
步骤2‑2、 将句子对数据按照批次分别输入到Bigbird预训练语言模型中进行训练, 整
个过程三种篇章结构信息同时输入到模型, 并且在训练过程中共享模型参数, 模型 的损失
公式由多部分构成, 具体包括以下子步骤:
步骤2‑2‑1、 采用句子对任务进行训练, 首先引入对比学习损失函数, 具体采用公式(3)
构建:
其中, N表示一次输入到模型的数据 量, hi, 表示正样本,
表示领域数据库中的其他正
样本,
表示通用数据库中的数据, 作为负 样本存在;
步骤2‑2‑2、 句子对任务, 不仅引入对比学习损失函数, 而且要从多维角度学习正负样
本之间的差异, 引入hi nge loss作为第二损失, 具体采用公式(4)构建:
Hinge=0.1+prob‑‑prob+ (4)
其中prob+指正样本 经过模型得到的概率 打分, 该打分反映出样本在深层网络中得到的权 利 要 求 书 1/3 页
2
CN 114707516 A
2语义表示和领域内容的贴合程度; prob‑指负样本经过模型得到的打分; Hinge是模型需要
反向传播的损失, 模型需要融合该损失来更新网络参数;
步骤2‑2‑3、 由于数据分类为领域数据和通用数据, 领域数据库的内容标签属性为1, 相
反通用数据库中的数据标签为0, 具体采用公式(5)构建:
Y=targettag‑probtag (5)
其中, tag为+或‑, 用来区分正样本和负 样本, 其中target+=1, target‑=1;
步骤2‑2‑4、 通过步骤2 ‑2‑1)、 步骤2 ‑2‑2)、 步骤2 ‑2‑3)可以加权得到总损失, 总损失是
用来传递给模型 更新网络参数的关键 部分, 具体采用公式(6)计算:
Total=F(i)*a+Hi nge+Y* λ (6)
其中, a表示对比学习损失的加权值, 经过试验a取30~36之间模型收敛效果最佳, λ表
示分类损失, 经 过试验 λ取值在0.9 ‑0.12之间模型效果 最佳;
将训练数据输入Bigbird预训练语言模型进行微调训练, 并依据多任务损失反向传播
更新模型参数, 让模型 更优的解决目标函数提出的问题;
步骤3)使用步骤2)训练好的模型, 针对待评价长文本进行预处理, 输入模型之后获得
和当前领域文本的领域相似度打 分, 包括以下子步骤:
步骤3‑1)预处理待评价文章, 首先使用格 式解析获取当前文本的标题信息、 使用LDA方
法获取主题信息、 使用TF ‑IDF获取关键词信息; 并按照步骤2 ‑1‑2)所示构建负样本的方式
构建测试数据, 其中待预测数据作为通用数据库中的数据存在, 领域数据随机从领域数据
库中选择;
样本预测的输入格式是单样本形式, 与训练输入样本对的结构不同; 待评价文章转化
为标准输入样本格式之后, 进行如下步骤;
步骤3‑2、 将数据输入步骤2训练后的模型, 经过模型对文本信息分词转化, 并在高维空
间进行向量表示之后, 通过模型的门控 单元对短语、 主题、 标题等各个字段的权重信息进 行
拟合, 门控单元采用transformer结构, 对于多字段复杂的权重信息拟合效果更佳; 输入样
本经过门控单 元之后获得了与领域文本的相似度打 分;
步骤3‑3、 步骤3)基于领域数据库中不同文章数据打分次数是否大于等于10次, 若是,
则求出打分的平均值, 执行之后步骤; 若不是则更换参与匹配的领域数据并转步骤3)继续
执行;
步骤4、 专业领域人员校订和领域相关文章入库
为实现长文本在线语义相似度计算, 需要对已进行模型预测并获得打分的数据进行人
工修正, 将打分较高并且人工 选中的数据对应的各个字段信息加入到领域数据库中;
步骤5、 调用上代模型, 持续学习, 提升模型效果
冷启动的高准确率领域数据是有限的, 模型拟合效果也因此受限, 因此需要根据可用
领域数据量定期对 模型进行训练。
2.根据权利要求1所述的一种基于对比学习的长文本语义相似度计算方法, 其特征在
于: 所述步骤4具体包括以下子步骤:
步骤4‑1、 首先对于获得打分的文章判断其打分是否高于0.8, 若是, 则直接通过人工进
行去躁并将其对应的字段数据加入领域数据库, 结束步骤4)并进入下一步骤, 若小于等于
0.8且大于 0.6则进入如下步骤;权 利 要 求 书 2/3 页
3
CN 114707516 A
3
专利 一种基于对比学习的长文本语义相似度计算方法
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:45:19上传分享