(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210322393.2 (22)申请日 2022.03.29 (71)申请人 北京理工大 学 地址 100081 北京市海淀区中关村南大街5 号 (72)发明人 王彦浩 张华平 商建云  (74)专利代理 机构 北京正阳理工知识产权代理 事务所(普通 合伙) 11639 专利代理师 张利萍 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/289(2020.01) G06F 16/35(2019.01) G06K 9/62(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 一种基于对比学习的长文本语义相似度计 算方法 (57)摘要 本发明公开了一种基于对比学习的长文本 语义相似度计算方法, 属于人工智能、 自然语言 处理技术领域。 本发明主要解决的技术问题为小 样本场景下长文本语义匹配问题。 首先通过爬 虫、 人工采集手段构建通用、 领域数据库。 其次使 用领域数据库和通用数据库中包含的主题、 标 题、 关键短语等篇章结构信息构建模型, 通过有 监督的文本表 示学习方法对比学习进行训练。 最 后使用该模型对待评价文本进行预测来获得相 似度打分, 经过人工修正模块对 该语义打分进行 修正, 并决定是否将该文本加入 领域数据库进一 步扩大训练资源。 定期使用领域资源库更新模 型, 实现小样本下高精度语义相似度计算。 权利要求书3页 说明书6页 附图5页 CN 114707516 A 2022.07.05 CN 114707516 A 1.一种基于对比学习的长文本语义相似度计算方法, 其特 征在于: 包括如下步骤: 步骤1、 对需要 进行文本语义评价的领域, 分别建立领域数据库和通用数据库; 首先将主题、 短语、 文章段落标题等类别分别加入到数据库包含的数据表对应的字段 中; 其次, 建立通用数据库, 作为领域数据库的对比数据, 通用数据要求包含少量的领域信 息, 同时在语义上 又是领域无关的数据; 其数据构建方法是通过爬虫技术从知乎、 微博、 裁判 文书网上抓取文章信息, 将抓取且 清洗后的三种篇 章结构信息作为主题字段、 短语字段、 标题字段加入通用数据库中; 步骤2、 使用BigBird预训练语言模型, 针对长文本信息采用多输入结构进行共享参数 训练, 包括以下步骤: 步骤2‑1、 基于通用数据库、 领域数据库中的数据构建用于训练的句子对数据。 数据包 含短语、 标题、 主题等字段信息, 具体包括如下子步骤: 步骤2‑1‑1、 构建正样本, 具体采用公示(1)构建: [CLS]领域数据库ID=x 对应的y字段[ SEP]领域数据库ID! =x 对应的y字段[ SEP]; (1) 其中x指领域数据库中的ID字段值, y表示文章x对应ID下的短语、 标题、 主题等字段信 息; 同一数据库中的数据构建句子对, 作为训练数据的正样本; 步骤2‑1‑2、 构建负 样本, 具体采用公示(2)构建: [CLS]领域数据库ID=x 对应的y字段[ SEP]通用数据库ID=z对应的y字段[ SEP]; (2) 其中x指领域数据库中的ID字段值, z指通用数据库中的ID字段值, y表示文章x或文章z 对应ID下的短语、 标题、 主题等字段信息; 不同数据库中的数据构建句子对, 作为训练数据 的负样本; 其中, ID=x在同一条正负 样本中应该 是相同的; 步骤2‑1‑3、 构建样本对, 按照步骤2 ‑1‑1)中构建正样本的方式, 由短语、 主题、 标题三 种篇章结构信息形成了正样 本的一条数据, 同理、 按照步骤2 ‑1‑2) 中构建负样 本的方式形 成一条负 样本数据, 按照正样本标签为1, 负 样本标签为0, 构建出一条句子对训练数据; 步骤2‑2、 将句子对数据按照批次分别输入到Bigbird预训练语言模型中进行训练, 整 个过程三种篇章结构信息同时输入到模型, 并且在训练过程中共享模型参数, 模型 的损失 公式由多部分构成, 具体包括以下子步骤: 步骤2‑2‑1、 采用句子对任务进行训练, 首先引入对比学习损失函数, 具体采用公式(3) 构建: 其中, N表示一次输入到模型的数据 量, hi, 表示正样本, 表示领域数据库中的其他正 样本, 表示通用数据库中的数据, 作为负 样本存在; 步骤2‑2‑2、 句子对任务, 不仅引入对比学习损失函数, 而且要从多维角度学习正负样 本之间的差异, 引入hi nge loss作为第二损失, 具体采用公式(4)构建: Hinge=0.1+prob‑‑prob+     (4) 其中prob+指正样本 经过模型得到的概率 打分, 该打分反映出样本在深层网络中得到的权 利 要 求 书 1/3 页 2 CN 114707516 A 2语义表示和领域内容的贴合程度; prob‑指负样本经过模型得到的打分; Hinge是模型需要 反向传播的损失, 模型需要融合该损失来更新网络参数; 步骤2‑2‑3、 由于数据分类为领域数据和通用数据, 领域数据库的内容标签属性为1, 相 反通用数据库中的数据标签为0, 具体采用公式(5)构建: Y=targettag‑probtag      (5) 其中, tag为+或‑, 用来区分正样本和负 样本, 其中target+=1, target‑=1; 步骤2‑2‑4、 通过步骤2 ‑2‑1)、 步骤2 ‑2‑2)、 步骤2 ‑2‑3)可以加权得到总损失, 总损失是 用来传递给模型 更新网络参数的关键 部分, 具体采用公式(6)计算: Total=F(i)*a+Hi nge+Y* λ   (6) 其中, a表示对比学习损失的加权值, 经过试验a取30~36之间模型收敛效果最佳, λ表 示分类损失, 经 过试验 λ取值在0.9 ‑0.12之间模型效果 最佳; 将训练数据输入Bigbird预训练语言模型进行微调训练, 并依据多任务损失反向传播 更新模型参数, 让模型 更优的解决目标函数提出的问题; 步骤3)使用步骤2)训练好的模型, 针对待评价长文本进行预处理, 输入模型之后获得 和当前领域文本的领域相似度打 分, 包括以下子步骤: 步骤3‑1)预处理待评价文章, 首先使用格 式解析获取当前文本的标题信息、 使用LDA方 法获取主题信息、 使用TF ‑IDF获取关键词信息; 并按照步骤2 ‑1‑2)所示构建负样本的方式 构建测试数据, 其中待预测数据作为通用数据库中的数据存在, 领域数据随机从领域数据 库中选择; 样本预测的输入格式是单样本形式, 与训练输入样本对的结构不同; 待评价文章转化 为标准输入样本格式之后, 进行如下步骤; 步骤3‑2、 将数据输入步骤2训练后的模型, 经过模型对文本信息分词转化, 并在高维空 间进行向量表示之后, 通过模型的门控 单元对短语、 主题、 标题等各个字段的权重信息进 行 拟合, 门控单元采用transformer结构, 对于多字段复杂的权重信息拟合效果更佳; 输入样 本经过门控单 元之后获得了与领域文本的相似度打 分; 步骤3‑3、 步骤3)基于领域数据库中不同文章数据打分次数是否大于等于10次, 若是, 则求出打分的平均值, 执行之后步骤; 若不是则更换参与匹配的领域数据并转步骤3)继续 执行; 步骤4、 专业领域人员校订和领域相关文章入库 为实现长文本在线语义相似度计算, 需要对已进行模型预测并获得打分的数据进行人 工修正, 将打分较高并且人工 选中的数据对应的各个字段信息加入到领域数据库中; 步骤5、 调用上代模型, 持续学习, 提升模型效果 冷启动的高准确率领域数据是有限的, 模型拟合效果也因此受限, 因此需要根据可用 领域数据量定期对 模型进行训练。 2.根据权利要求1所述的一种基于对比学习的长文本语义相似度计算方法, 其特征在 于: 所述步骤4具体包括以下子步骤: 步骤4‑1、 首先对于获得打分的文章判断其打分是否高于0.8, 若是, 则直接通过人工进 行去躁并将其对应的字段数据加入领域数据库, 结束步骤4)并进入下一步骤, 若小于等于 0.8且大于 0.6则进入如下步骤;权 利 要 求 书 2/3 页 3 CN 114707516 A 3

.PDF文档 专利 一种基于对比学习的长文本语义相似度计算方法

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于对比学习的长文本语义相似度计算方法 第 1 页 专利 一种基于对比学习的长文本语义相似度计算方法 第 2 页 专利 一种基于对比学习的长文本语义相似度计算方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:45:19上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。