(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210472515.6
(22)申请日 2022.04.29
(71)申请人 北京北大软件工程股份有限公司
地址 100089 北京市海淀区北四环西路67
号中关村国际创新大厦11层1101-
1103、 1106-1108室
(72)发明人 温立强 翁璐嵩 熊冠铭 杨建波
杨跃
(74)专利代理 机构 北京超凡宏宇专利代理事务
所(特殊普通 合伙) 11463
专利代理师 周春霞
(51)Int.Cl.
G06F 16/33(2019.01)
G06F 16/332(2019.01)
G06F 16/31(2019.01)G06F 40/126(2020.01)
G06F 40/194(2020.01)
G06F 40/279(2020.01)
G06F 40/30(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06N 5/04(2006.01)
(54)发明名称
一种获取法律条文的方法和模型
(57)摘要
本申请实施例提供了一种获取法律条文的
方法和模型, 该方法包括: 将法律条文数据库中
的N条法律条文进行编码, 得到N个法律条文语义
向量, 并且存储所述N条法律条文语义向量; 获取
问题所对应的问题语义向量; 将所述N条法律条
文语义向量和所述问题语义向量输入到目标推
理器中, 通过所述目标推理器获得与所述问题对
应的候选法律条文集合, 其中, 所述候选法律条
文集合包括N1个候选法律条文, N为大于1的整
数, N1为大于或等于1并且小于N的整数。 通过本
申请的一些实施例能够实现从多个法律条文中
抽取出与问题相关的候选法律条文集 合。
权利要求书3页 说明书18页 附图8页
CN 114756657 A
2022.07.15
CN 114756657 A
1.一种获取法律条文的方法, 其特 征在于, 所述方法包括:
将法律条文数据库中的N条法律条文进行编码, 得到N个法律条文语义向量, 并且存储
所述N条法律条文语义向量;
获取问题所对应的问题语义向量;
将所述N条法律条文语义向量和所述问题语义向量输入到目标推理器中, 通过所述目
标推理器获得与所述问题对应 的候选法律条文集合, 其中, 所述候选法律条文集合包括N1
个候选法律条文, N 为大于1的整数, N1为大于或等于1并且小于N的整数。
2.根据权利要求1所述的方法, 其特征在于, 在所述将所述N条法律条文语义向量和所
述问题语义向量输入到目标推理器中之前, 所述方法还 包括:
将问题样本数据、 与所述问题样本数据相对应的标签法律条文和第K负样本法律条文
输入到训练器中, 获得权 重K, 其中, K为大于或等于1的整数;
将所述权重K输入到推理器 中, 通过所述推理器对所述N条法律条文语义向量进行重构
并更新所述 N条法律条文语义向量的索引, 获得第k+1负 样本;
重复上述 步骤, 直至所述第k+1负 样本满足预设要求, 获得目标推理器。
3.根据权利要求2所述的方法, 其特征在于, 所述将所述问题样本数据、 与所述问题样
本数据相对应的标签法律条文和第K负 样本法律条文输入到训练器中, 获得权 重K, 包括:
通过所述训练器计算所述问题样本数据和所述标签法律条文之间的第 一相似值, 以及
所述问题样本数据与所述第K负 样本法律条文之间的第二相似值;
根据所述第一相似值和所述第二相似值输入到目标函数中, 获得 所述权重K。
4.根据权利要求1 ‑3任一项所述的方法, 其特征在于, 在所述通过所述目标推理器获得
与所述问题对应的候选法律条文集 合之后, 所述方法还 包括:
将所述候选法律条文集合和所述问题语义向量输入到目标重排序模块中, 通过所述目
标重排序模块从所述 候选法律条文集 合中抽取 得到N2个候选法律条文。
5.根据权利要求4所述的方法, 其特征在于, 所述目标重排序模块包括目标问题编码器
和目标法条编码器;
所述将所述候选法律条文集合和所述问题语义向量输入到目标重排序模块中, 通过所
述目标重排序模块从所述 候选法律条文集 合中抽取 得到N2个候选法律条文, 包括:
将所述问题语义向量输入到所述目标问题编码器中, 通过所述目标问题编码器对所述
问题语义向量进行编码, 获得问题编码;
对所述问题编码进行正则化处 理, 获得正则化问题编码;
将所述候选法律条文集合输入到目标法条编码器中, 通过所述目标法条编码器对所述
候选法律条文集 合进行编码后进行正则化处 理, 获得候选法律条文集 合编码;
对所述候选法律条文集 合编码进行 过滤处理, 获得过滤候选法律条文集 合编码;
计算所述正则化问题编码与所述过滤候选法律条文集合编码中的各条文编码的第三
相似度, 并且依据所述第三相似度获得 所述N2个候选法律条文;
其中, 所述目标问题编码器是通过卷积神经网络对问题编码器的隐藏层进行压缩获得
的, 并且所述目标法条编 码器是通过所述卷积神经网络对问题编 码器的隐藏层进 行压缩获
得的。
6.根据权利要求5所述的方法, 其特征在于, 在所述通过所述目标重排序模块从所述候权 利 要 求 书 1/3 页
2
CN 114756657 A
2选法律条文集 合中抽取 得到N2个候选法律条文之后, 所述方法还 包括:
将所述N2个候选法律条文输入到 目标阅读器中, 通过所述目标阅读器从所述N2个候选
法律条文中抽取起始字符和终止字符, 得到目标答案, 其中, 所述目标答案由所述起始字符
开始至所述终止 字符结束。
7.根据权利要求6所述的方法, 其特征在于, 在所述将所述N2个候选法律条文输入到目
标阅读器中之前, 所述方法还 包括:
将所述问题样本数据和所述N1个候选法律条文输入到重排序模块中, 获得第i相似度、
正则化问题编 码和过滤候选法律条文集合编 码, 其中, 所述第i相似度为所述正则化问题编
码与过滤候选法律条文集 合编码中的各编码之间的相似度;
根据所述第i相似度计算重排序损 失函数值, 并且基于所述重排序损 失函数值调整所
述重排序模块的参数;
将所述正则化问题编码和过滤候选法律条文集合编码输入到阅读器中, 获得阅读器损
失函数值, 并且基于所述阅读器损失函数值调整所述阅读器的参数;
重复上述过程, 直至所述重排序损 失函数值和所述阅读器损 失函数值满足预设要求,
获得目标重排序模块和目标阅读器。
8.根据权利要求1所述的方法, 其特征在于, 在所述将法律条文数据库中的N条法律条
文进行编码之前, 所述方法还 包括:
获取多源法律条文数据;
通过正则表达式, 将所述多源法律条文数据划分为M个类型的数据, 其中, M为大于或等
于1的整数;
根据预设规则将所述M个类型的数据中的至少一个类型的数据进行拆分, 获得所述法
律条文数据库。
9.根据权利要求8所述的方法, 其特征在于, 所述根据预设规则将所述M个类型的数据
中的至少一个 类型的数据进行拆分, 获得 所述法律条文数据库, 包括:
遍历所述至少一个类型的数据, 确认存在预设触发词的情况下, 抽取与所述预设触发
词相对应的内容;
将所述内容进行存 储, 获得所述法律条文数据库。
10.根据权利要求9所述的方法, 其特 征在于, 所述获得 所述法律条文数据库, 包括:
在所述获取多源法律条文数据需要增量的情况 下, 确认增量 位置;
将待更新的多源文本数据按照所述增量 位置进行 添加, 获得法律条文数据库。
11.一种获取法律条文的模型, 其特征在于, 所述模型包括目标初排序模块, 所述目标
初排序模块被 配置为:
将法律条文数据库中的N条法律条文进行编码, 得到N个法律条文语义向量, 并且存储
所述N条法律条文语义向量;
获取问题所对应的问题语义向量;
将所述N条法律条文语义向量和所述问题语义向量输入到目标推理器中, 通过所述目
标推理器获得与所述问题对应 的候选法律条文集合, 其中, 所述候选法律条文集合包括N1
个候选法律条文, N 为大于1的整数, N1为大于或等于1并且小于N的整数。
12.根据权利要求11所述的模型, 其特征在于, 所述模型还包括目标重排序模块, 所述权 利 要 求 书 2/3 页
3
CN 114756657 A
3
专利 一种获取法律条文的方法和模型
文档预览
中文文档
30 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共30页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:47:17上传分享