专利一种法律文书的分段方法及装置 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210421671.X (22)申请日 2022.04.21 (71)申请人陆静地址 750021 宁夏回族自治区银川市西夏区贺兰山西路宁夏司法警官职业学院集体户1号 (72)发明人陆静　王秀萍　陈文琦　 (74)专利代理机构成都鱼爪智云知识产权代理有限公司 513 08 专利代理师杨洪婷 (51)Int.Cl. G06F 40/166(2020.01) G06F 40/30(2020.01) G06F 40/216(2020.01) G06F 40/237(2020.01)G06Q 50/18(2012.01) (54)发明名称一种法律文书的分段方法及装置 (57)摘要本发明提出了一种法律文书的分段方法及装置，涉及文本处理技术领域。该方法包括：将待分段法律文书的任一文本行和与该文本行邻近的文本行输入至法律文书常见词词库，得到该文本行的所有特征词条集合。将任一文本行的所有特征词条集合输入至预置语义匹配模型中，基于该文本行的语义特征，得到适配度最高的特征词组。基于所有特征词组，计算相邻文本行之间特征词组的关联度。根据关联度，对待分段法律文书进行分段，得到分段结果。实现了对待分段法律文书的每个文本行进行针对性分析的目的，从而有效考虑了法律文书中字词之间的关联度和语义，较为准确地划分语义段。当用户利用法律文书进行信息查找时，则可以有效提高信息查阅的效率。权利要求书2页说明书9页附图5页 CN 114742021 A 2022.07.12 CN 114742021 A 1.一种法律文书的分段方法，其特征在于，包括如下步骤： S110：获取待分段法律文书； S120：将所述待分段法律文书的任一文本行和与该文本行邻近的文本行输入至法律文书常见词词库，得到该文本行的所有特征词条集合； S130：提取该文本行的语义特征； S140：将任一文本行的所有特征词条集合输入至预置语义匹配模型中，基于该文本行的语义特征，得到适配度最高的特征词组； S150：重复执行步骤S120至步骤S140，直至遍历所述待分段法律文书中的所有文本行，得到各文本行对应的特征词组； S160：基于所有特征词组，计算相邻文本行之间特征词组的关联度； S170：根据所述关联度，对所述待分段法律文书进行分段，得到分段结果。 2.根据权利要求1所述的法律文书的分段方法，其特征在于，将所述待分段法律文书的任一文本行和与该文本行邻近的文本行输入至法律文书常见词词库，得到该文本行的所有特征词条集合的步骤包括： S121：按照从左到右的顺序，以任一文本行的第一个字作为起始字，将所述起始字与该起始字后面的相邻字组成词汇，并将该词汇输入至法律文书常见词词库进行比对，以判断该词汇是否为特征词条，并将该词汇作为最新起始字； S122：重复执行步骤S121，直至得到该文本行中包含所述第一个字的所有第一特征词条； S123：将该文本行中的任一字作为起始字； S124：重复执行步骤S121至步骤S123，直至得到该文本行的所有第一特征词条。 3.根据权利要求2所述的法律文书的分段方法，其特征在于，所述S121的步骤包括：按照从左到右的顺序，将任一文本行的第一个字作为起始字，若该起始字位于一个自然段的开头位置，则将所述起始字与该起始字后面的相邻字组成词汇；若该起始字未位于一个自然段的开头位置，则将该起始字输入至法律文书常见词词库中，得到包含该起始字的所有第二特征词条；基于包含该起始字的所有第二特征词条，确定包含该起始字的最长字词数；根据所述最长字词数，将该起始字和与该文本行邻近的两个文本行的字依序组成词汇。 4.根据权利要求1所述的法律文书的分段方法，其特征在于，所述基于所有特征词组，计算相邻文本行之间特征词组的关联度的步骤包括：若任一文本行的特征词组中所有第三特征词条包括特征词条A和特征词条B，则基于所述待分段法律文书的相邻文本行，获取包含特征词条A的文本行数为X，获取包含特征词条B 的文本行数为Y，获取同时包含特征词条A和特征词条B的文本行数为Z；比较X/Z和Y /Z数值的大小，取其中较大者作为相邻文本行之间特征词组的关联度。 5.根据权利要求1所述的法律文书的分段方法，其特征在于，根据所述关联度，对所述待分段法律文书进行分段，得到分段结果的步骤包括：若相邻两个文本行的关联度达到预设关联度且所述相邻两个文本行不属于同一自然段，则将两个文本行对应的自然段划分在一个语义段中。权　利　要　求　书 1/2 页 2 CN 114742021 A 26.根据权利要求1所述的法律文书的分段方法，其特征在于，将所述待分段法律文书的任一文本行和与该文本行邻近的文本行输入至法律文书常见词词库的步骤之前，还包括：获取多个规范性法律文书；基于所述多个规范性法律文书，确定法律常见词汇；根据所述法律常见词汇，建立法律文书常见词词库。 7.根据权利要求1所述的法律文书的分段方法，其特征在于，所述将任一文本行的所有特征词条集合输入至预置语义匹配模型中的步骤之前，还包括：建立语义匹配初始模型；获取多个训练样本，所述多个训练样本包括多个规范性法律文本行；利用所述训练样本训练所述语义匹配初始模型，得到预置语义匹配模型。 8.一种法律文书的分段装置，其特征在于，包括：待分段法律文书获取模块，用于获取待分段法律文书；特征词条集合得到模块，用于将所述待分段法律文书的任一文本行和与该文本行邻近的文本行输入至法律文书常见词词库，得到该文本行的所有特征词条集合；语义特征提取模块，用于提取该文本行的语义特征；特征词组得到模块，用于将任一文本行的所有特征词条集合输入至预置语义匹配模型中，基于该文本行的语义特征，得到适配度最高的特征词组；文本行遍历模块，用于重复执行特征词条集合得到模块至特征词组得到模块，直至遍历所述待分段法律文书中的所有文本行，得到各文本行对应的特征词组；关联度计算模块，用于基于所有特征词组，计算相邻文本行之间特征词组的关联度；分段模块，用于根据所述关联度，对所述待分段法律文书进行分段，得到分段结果。 9.一种电子设备，其特征在于，包括：存储器，用于存储一个或多个程序；处理器；当所述一个或多个程序被所述处理器执行时，实现如权利要求1 ‑7中任一项所述的方法。 10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1 ‑7中任一项所述的方法。权　利　要　求　书 2/2 页 3 CN 114742021 A 3

专利 一种法律文书的分段方法及装置

专利一种法律文书的分段方法及装置