(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210279342.6
(22)申请日 2022.03.22
(65)同一申请的已公布的文献号
申请公布号 CN 114372470 A
(43)申请公布日 2022.04.19
(73)专利权人 中南大学
地址 410000 湖南省长 沙市岳麓区麓山 南
路932号
(72)发明人 李芳芳 彭亦楠 彭中礼 黎娟
(74)专利代理 机构 长沙轩荣专利代理有限公司
43235
专利代理师 汪金连
(51)Int.Cl.
G06F 40/295(2020.01)
G06F 16/33(2019.01)G06F 16/35(2019.01)
G06F 40/30(2020.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(56)对比文件
CN 112446216 A,2021.0 3.05
CN 113886571 A,202 2.01.04
CN 112215004 A,2021.01.12
CN 112989835 A,2021.0 6.18
CN 113468330 A,2021.10.01
高隽.面向法律庭审记录文 书的发言人指代
消解研究. 《中国优秀硕士学位 论文全文数据库
社会科学Ⅰ辑》 .2021,G120 -139.
审查员 熊沐阳
(54)发明名称
基于边界检测和提示学习的中文法律文本
实体识别方法
(57)摘要
本发明中提供了一种基于边界检测和提示
学习的中文法律文本实体识别方法, 属于数据处
理技术领域, 具体包括: 文本编码模块输出文本
向量; 将文本向量输入实体边界检测模块, 输出
文本中实体的边界检测结果; 基于构建好的法律
文本语料库进行进一步的领域预训练, 得到适用
于法律领域的预训练模型; 在实体类型预测模块
中, 基于提示学习思想, 根据实体边界检测模块
输出的结果构建适用于命名实体识别任务的模
板, 再利用模板和预训练模型进行提示学习, 输
出实体类型的预测结果; 对实体边界检测模块和
实体类型预测模块进行联合训练, 得到适用于中
文法律文本实体识别任务的模型。 通过本发明的
方案, 提高了法律文本命名实体识别时的适应性
和精准度。
权利要求书3页 说明书9页 附图2页
CN 114372470 B
2022.07.29
CN 114372470 B
1.一种基于边界检测 和提示学习的中文法律文本实体识别方法, 其特 征在于, 包括:
步骤1, 将文本 输入文本编码模块, 文本编码模块输出文本向量;
步骤2, 将文本向量输入实体边界检测模块, 捕获实体头部边界特征、 实体尾部边界特
征和文本语义特 征, 输出文本中实体的边界检测结果, 其中, 所述 步骤2具体包括:
步骤2.1, 将文本表示
分别输入到实体边界头部特征捕获模块和实体边界尾部特征捕
获模块中, 捕获实体的头部信息和尾部信息, 其中, 所述 实体边界头部特征捕获模块和所述
实体边界尾部特征捕获模块均使用门控循环神经网络和一个多层感知机来将文本表示
映射到实体头 部和尾部向量表示空间, 具体 计算方式如公式 (1) 、 (2) 、 (3) 和 (4) 所示:
(1)
(2)
(3)
(4)
其中,
为文本表示
经过实体头部边界特征捕获模块中门控循环神经网络之后的
输出,
为文本表示
经过实体尾部边界特征捕获模块中门控 循环神经网络之后的输出,
表示实体头 部边界特 征捕获模块的输出,
表示实体 尾部边界特 征捕获模块的输出;
步骤2.2, 将文本表示
输入到文本语义特征捕获模块中, 对于文本语义特征捕获模块,
使用双向长短期记 忆网络来捕获文本的语义特 征, 具体计算方式如公式 (5) 所示:
(5)
其中
为文本表示
经过实体语义特征捕获模块中双向长短期记忆网络之后的输
出;
步骤2.3, 将实体头部边界特征捕获模块的输出
和实体尾部边界特征捕获模块的输出
输入到双仿射注意力机制模块中, 具体 计算方式如公式 (6) 和 (7) 所示:
(6)
(7)
其中,
,
分别为
和
的第
个元素;
,
和
为可训练的参数;
为双仿射
注意力机制模块的输出;
步骤2.4, 将文本语义特征捕获模块中双向长短期记忆网络的输出
输入到一个多
层感知机中, 再将多层感知机的输出
和双仿射注意力机制模块的输出
相加, 并输入
到Softmax层中进行分类, 从而判断文本中的任意两个字是否为一个实体的边界, 具体计算
方式如公式(8)、 (9)所示:
(8)
(9)权 利 要 求 书 1/3 页
2
CN 114372470 B
2其中
为实体边界检测模块的输出, 其元素为文本中任意两个字是否形成实体边界
的概率, 根据计算出 的概率即可得到实体边界识别的结果, 同时利用交叉熵损失函数计算
得出实体边界检测模块的损失
;
步骤3, 构建法律文本语料库, 基于构建好的法律文本语料库对已开源的中文预训练模
型进行进一 步的领域预训练, 得到适用于法律领域的预训练模型;
步骤4, 在实体类型预测模块中, 基于提示学习思想, 根据实体边界检测模块输出的结
果构建适用于命名实体识别任务的模板, 再利用模板和预训练模型进行提示学习, 输出实
体类型的预测结果, 其中, 所述 步骤4具体包括:
步骤4.1, 根据法律文本实体识别 任务中待识别的实体类别, 利用同义词词典找到每一
个实体类别的同义词, 并将这些同义词作为该实体类别的标签词, 构建出该实体类别的标
签词集合;
步骤4.2, 构建用于提 示学习的模板
, 具体如公式 (10) 所示:
(10)
其中,
为待进行实体识别的法律文本,
为一个分隔符号,
代表文本
的一
个实体片段, 即实体边界检测模块预测出的实体片段,
表示随机初始化的向量表示,
表示需要预训练模型进行 预测的词语;
步骤4.3, 对构建好的模板进行训练, 在实体类型预测模块, 利用构建好的模板和进行
了领域预训练的预训练模型来预测文本中实体片段 的类别, 在训练过程中, 利用预训练模
型来预测
部分出现的词语, 同时在训练过程中冻结预训练模型的参数, 只对模板
中的
部分进行调整和优化, 假设实体类型集合为
, 输入文本为
, 其包
含的实体片段为
, 对于一个实体类型
, 其标签词集合为
, 则
中的一个实体片段
类型被预测为
的概率为:
(11)
则实体类型预测模块的损失函数
为:
; (12)
步骤5, 对实体边界检测模块和实体类型预测模块进行联合训练, 最终得到适用于 中文
法律文本实体识别任务的模型。
2.根据权利要求1所述的方法, 其特 征在于,所述 步骤1具体包括:
步骤1.1, 将文本输入文本编码模块, 使用已公开的基于大规模中文新闻语料训练得到
的字向量对输入的文本进行编码, 得到文本的向量化表示
, 其中,
表示文本的向量表示,
表示文本的长度,
表示编码维度。
3.根据权利要求1所述的方法, 其特 征在于,所述 步骤3具体包括:
步骤3.1, 通过整理和筛选, 选择出了多条法律文本, 并在不破坏文本语义的基础上, 将权 利 要 求 书 2/3 页
3
CN 114372470 B
3
专利 基于边界检测和提示学习的中文法律文本实体识别方法
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:49:59上传分享