专利基于边界检测和提示学习的中文法律文本实体识别方法 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210279342.6 (22)申请日 2022.03.22 (65)同一申请的已公布的文献号申请公布号 CN 114372470 A (43)申请公布日 2022.04.19 (73)专利权人中南大学地址 410000 湖南省长沙市岳麓区麓山南路932号 (72)发明人李芳芳　彭亦楠　彭中礼　黎娟　 (74)专利代理机构长沙轩荣专利代理有限公司 43235 专利代理师汪金连 (51)Int.Cl. G06F 40/295(2020.01) G06F 16/33(2019.01)G06F 16/35(2019.01) G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (56)对比文件 CN 112446216 A,2021.0 3.05 CN 113886571 A,202 2.01.04 CN 112215004 A,2021.01.12 CN 112989835 A,2021.0 6.18 CN 113468330 A,2021.10.01 高隽.面向法律庭审记录文书的发言人指代消解研究. 《中国优秀硕士学位论文全文数据库社会科学Ⅰ辑》 .2021,G120 -139. 审查员熊沐阳 (54)发明名称基于边界检测和提示学习的中文法律文本实体识别方法 (57)摘要本发明中提供了一种基于边界检测和提示学习的中文法律文本实体识别方法，属于数据处理技术领域，具体包括：文本编码模块输出文本向量；将文本向量输入实体边界检测模块，输出文本中实体的边界检测结果；基于构建好的法律文本语料库进行进一步的领域预训练，得到适用于法律领域的预训练模型；在实体类型预测模块中，基于提示学习思想，根据实体边界检测模块输出的结果构建适用于命名实体识别任务的模板，再利用模板和预训练模型进行提示学习，输出实体类型的预测结果；对实体边界检测模块和实体类型预测模块进行联合训练，得到适用于中文法律文本实体识别任务的模型。通过本发明的方案，提高了法律文本命名实体识别时的适应性和精准度。权利要求书3页说明书9页附图2页 CN 114372470 B 2022.07.29 CN 114372470 B 1.一种基于边界检测和提示学习的中文法律文本实体识别方法，其特征在于，包括：步骤1，将文本输入文本编码模块，文本编码模块输出文本向量；步骤2，将文本向量输入实体边界检测模块，捕获实体头部边界特征、实体尾部边界特征和文本语义特征，输出文本中实体的边界检测结果，其中，所述步骤2具体包括：步骤2.1，将文本表示分别输入到实体边界头部特征捕获模块和实体边界尾部特征捕获模块中，捕获实体的头部信息和尾部信息，其中，所述实体边界头部特征捕获模块和所述实体边界尾部特征捕获模块均使用门控循环神经网络和一个多层感知机来将文本表示映射到实体头部和尾部向量表示空间，具体计算方式如公式（1）、（2）、（3）和（4）所示：（1）（2）（3）（4）其中，为文本表示经过实体头部边界特征捕获模块中门控循环神经网络之后的输出，为文本表示经过实体尾部边界特征捕获模块中门控循环神经网络之后的输出，表示实体头部边界特征捕获模块的输出，表示实体尾部边界特征捕获模块的输出；步骤2.2，将文本表示输入到文本语义特征捕获模块中，对于文本语义特征捕获模块，使用双向长短期记忆网络来捕获文本的语义特征，具体计算方式如公式（5）所示：（5）其中为文本表示经过实体语义特征捕获模块中双向长短期记忆网络之后的输出；步骤2.3，将实体头部边界特征捕获模块的输出和实体尾部边界特征捕获模块的输出输入到双仿射注意力机制模块中，具体计算方式如公式（6）和（7）所示：（6）（7）其中，，分别为和的第个元素；，和为可训练的参数；为双仿射注意力机制模块的输出；步骤2.4，将文本语义特征捕获模块中双向长短期记忆网络的输出输入到一个多层感知机中，再将多层感知机的输出和双仿射注意力机制模块的输出相加，并输入到Softmax层中进行分类，从而判断文本中的任意两个字是否为一个实体的边界，具体计算方式如公式(8)、 (9)所示：（8）（9）权　利　要　求　书 1/3 页 2 CN 114372470 B 2其中为实体边界检测模块的输出，其元素为文本中任意两个字是否形成实体边界的概率，根据计算出的概率即可得到实体边界识别的结果，同时利用交叉熵损失函数计算得出实体边界检测模块的损失；步骤3，构建法律文本语料库，基于构建好的法律文本语料库对已开源的中文预训练模型进行进一步的领域预训练，得到适用于法律领域的预训练模型；步骤4，在实体类型预测模块中，基于提示学习思想，根据实体边界检测模块输出的结果构建适用于命名实体识别任务的模板，再利用模板和预训练模型进行提示学习，输出实体类型的预测结果，其中，所述步骤4具体包括：步骤4.1，根据法律文本实体识别任务中待识别的实体类别，利用同义词词典找到每一个实体类别的同义词，并将这些同义词作为该实体类别的标签词，构建出该实体类别的标签词集合；步骤4.2，构建用于提示学习的模板，具体如公式（10）所示：（10）其中，为待进行实体识别的法律文本，为一个分隔符号，代表文本的一个实体片段，即实体边界检测模块预测出的实体片段，表示随机初始化的向量表示，表示需要预训练模型进行预测的词语；步骤4.3，对构建好的模板进行训练，在实体类型预测模块，利用构建好的模板和进行了领域预训练的预训练模型来预测文本中实体片段的类别，在训练过程中，利用预训练模型来预测部分出现的词语，同时在训练过程中冻结预训练模型的参数，只对模板中的部分进行调整和优化，假设实体类型集合为，输入文本为，其包含的实体片段为，对于一个实体类型，其标签词集合为，则中的一个实体片段类型被预测为的概率为：（11）则实体类型预测模块的损失函数为：；（12）步骤5，对实体边界检测模块和实体类型预测模块进行联合训练，最终得到适用于中文法律文本实体识别任务的模型。 2.根据权利要求1所述的方法，其特征在于,所述步骤1具体包括：步骤1.1，将文本输入文本编码模块，使用已公开的基于大规模中文新闻语料训练得到的字向量对输入的文本进行编码，得到文本的向量化表示，其中，表示文本的向量表示，表示文本的长度，表示编码维度。 3.根据权利要求1所述的方法，其特征在于,所述步骤3具体包括：步骤3.1，通过整理和筛选，选择出了多条法律文本，并在不破坏文本语义的基础上，将权　利　要　求　书 2/3 页 3 CN 114372470 B 3

专利 基于边界检测和提示学习的中文法律文本实体识别方法

专利基于边界检测和提示学习的中文法律文本实体识别方法