专利一种获取法律条文的方法和模型 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210472515.6 (22)申请日 2022.04.29 (71)申请人北京北大软件工程股份有限公司地址 100089 北京市海淀区北四环西路67 号中关村国际创新大厦11层1101- 1103、 1106-1108室 (72)发明人温立强　翁璐嵩　熊冠铭　杨建波　杨跃　 (74)专利代理机构北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 专利代理师周春霞 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/332(2019.01) G06F 16/31(2019.01)G06F 40/126(2020.01) G06F 40/194(2020.01) G06F 40/279(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 5/04(2006.01) (54)发明名称一种获取法律条文的方法和模型 (57)摘要本申请实施例提供了一种获取法律条文的方法和模型，该方法包括：将法律条文数据库中的N条法律条文进行编码，得到N个法律条文语义向量，并且存储所述N条法律条文语义向量；获取问题所对应的问题语义向量；将所述N条法律条文语义向量和所述问题语义向量输入到目标推理器中，通过所述目标推理器获得与所述问题对应的候选法律条文集合，其中，所述候选法律条文集合包括N1个候选法律条文， N为大于1的整数， N1为大于或等于1并且小于N的整数。通过本申请的一些实施例能够实现从多个法律条文中抽取出与问题相关的候选法律条文集合。权利要求书3页说明书18页附图8页 CN 114756657 A 2022.07.15 CN 114756657 A 1.一种获取法律条文的方法，其特征在于，所述方法包括：将法律条文数据库中的N条法律条文进行编码，得到N个法律条文语义向量，并且存储所述N条法律条文语义向量；获取问题所对应的问题语义向量；将所述N条法律条文语义向量和所述问题语义向量输入到目标推理器中，通过所述目标推理器获得与所述问题对应的候选法律条文集合，其中，所述候选法律条文集合包括N1 个候选法律条文， N 为大于1的整数， N1为大于或等于1并且小于N的整数。 2.根据权利要求1所述的方法，其特征在于，在所述将所述N条法律条文语义向量和所述问题语义向量输入到目标推理器中之前，所述方法还包括：将问题样本数据、与所述问题样本数据相对应的标签法律条文和第K负样本法律条文输入到训练器中，获得权重K，其中， K为大于或等于1的整数；将所述权重K输入到推理器中，通过所述推理器对所述N条法律条文语义向量进行重构并更新所述 N条法律条文语义向量的索引，获得第k+1负样本；重复上述步骤，直至所述第k+1负样本满足预设要求，获得目标推理器。 3.根据权利要求2所述的方法，其特征在于，所述将所述问题样本数据、与所述问题样本数据相对应的标签法律条文和第K负样本法律条文输入到训练器中，获得权重K，包括：通过所述训练器计算所述问题样本数据和所述标签法律条文之间的第一相似值，以及所述问题样本数据与所述第K负样本法律条文之间的第二相似值；根据所述第一相似值和所述第二相似值输入到目标函数中，获得所述权重K。 4.根据权利要求1 ‑3任一项所述的方法，其特征在于，在所述通过所述目标推理器获得与所述问题对应的候选法律条文集合之后，所述方法还包括：将所述候选法律条文集合和所述问题语义向量输入到目标重排序模块中，通过所述目标重排序模块从所述候选法律条文集合中抽取得到N2个候选法律条文。 5.根据权利要求4所述的方法，其特征在于，所述目标重排序模块包括目标问题编码器和目标法条编码器；所述将所述候选法律条文集合和所述问题语义向量输入到目标重排序模块中，通过所述目标重排序模块从所述候选法律条文集合中抽取得到N2个候选法律条文，包括：将所述问题语义向量输入到所述目标问题编码器中，通过所述目标问题编码器对所述问题语义向量进行编码，获得问题编码；对所述问题编码进行正则化处理，获得正则化问题编码；将所述候选法律条文集合输入到目标法条编码器中，通过所述目标法条编码器对所述候选法律条文集合进行编码后进行正则化处理，获得候选法律条文集合编码；对所述候选法律条文集合编码进行过滤处理，获得过滤候选法律条文集合编码；计算所述正则化问题编码与所述过滤候选法律条文集合编码中的各条文编码的第三相似度，并且依据所述第三相似度获得所述N2个候选法律条文；其中，所述目标问题编码器是通过卷积神经网络对问题编码器的隐藏层进行压缩获得的，并且所述目标法条编码器是通过所述卷积神经网络对问题编码器的隐藏层进行压缩获得的。 6.根据权利要求5所述的方法，其特征在于，在所述通过所述目标重排序模块从所述候权　利　要　求　书 1/3 页 2 CN 114756657 A 2选法律条文集合中抽取得到N2个候选法律条文之后，所述方法还包括：将所述N2个候选法律条文输入到目标阅读器中，通过所述目标阅读器从所述N2个候选法律条文中抽取起始字符和终止字符，得到目标答案，其中，所述目标答案由所述起始字符开始至所述终止字符结束。 7.根据权利要求6所述的方法，其特征在于，在所述将所述N2个候选法律条文输入到目标阅读器中之前，所述方法还包括：将所述问题样本数据和所述N1个候选法律条文输入到重排序模块中，获得第i相似度、正则化问题编码和过滤候选法律条文集合编码，其中，所述第i相似度为所述正则化问题编码与过滤候选法律条文集合编码中的各编码之间的相似度；根据所述第i相似度计算重排序损失函数值，并且基于所述重排序损失函数值调整所述重排序模块的参数；将所述正则化问题编码和过滤候选法律条文集合编码输入到阅读器中，获得阅读器损失函数值，并且基于所述阅读器损失函数值调整所述阅读器的参数；重复上述过程，直至所述重排序损失函数值和所述阅读器损失函数值满足预设要求，获得目标重排序模块和目标阅读器。 8.根据权利要求1所述的方法，其特征在于，在所述将法律条文数据库中的N条法律条文进行编码之前，所述方法还包括：获取多源法律条文数据；通过正则表达式，将所述多源法律条文数据划分为M个类型的数据，其中， M为大于或等于1的整数；根据预设规则将所述M个类型的数据中的至少一个类型的数据进行拆分，获得所述法律条文数据库。 9.根据权利要求8所述的方法，其特征在于，所述根据预设规则将所述M个类型的数据中的至少一个类型的数据进行拆分，获得所述法律条文数据库，包括：遍历所述至少一个类型的数据，确认存在预设触发词的情况下，抽取与所述预设触发词相对应的内容；将所述内容进行存储，获得所述法律条文数据库。 10.根据权利要求9所述的方法，其特征在于，所述获得所述法律条文数据库，包括：在所述获取多源法律条文数据需要增量的情况下，确认增量位置；将待更新的多源文本数据按照所述增量位置进行添加，获得法律条文数据库。 11.一种获取法律条文的模型，其特征在于，所述模型包括目标初排序模块，所述目标初排序模块被配置为：将法律条文数据库中的N条法律条文进行编码，得到N个法律条文语义向量，并且存储所述N条法律条文语义向量；获取问题所对应的问题语义向量；将所述N条法律条文语义向量和所述问题语义向量输入到目标推理器中，通过所述目标推理器获得与所述问题对应的候选法律条文集合，其中，所述候选法律条文集合包括N1 个候选法律条文， N 为大于1的整数， N1为大于或等于1并且小于N的整数。 12.根据权利要求11所述的模型，其特征在于，所述模型还包括目标重排序模块，所述权　利　要　求　书 2/3 页 3 CN 114756657 A 3

专利 一种获取法律条文的方法和模型

专利一种获取法律条文的方法和模型