(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210276333.1 (22)申请日 2022.03.25 (71)申请人 上海欧冶金融信息服 务股份有限公 司 地址 201900 上海市宝山区双城路80 3弄9 号3005室 (72)发明人 陆宇峰 许楠 蒋琦洪 汪志成  叶超 杨程旺  (74)专利代理 机构 北京卫智易创专利代理事务 所(普通合伙) 16015 专利代理师 朱春野 (51)Int.Cl. G06F 40/205(2020.01) G06F 40/242(2020.01) G06F 40/289(2020.01)G06F 40/30(2020.01) (54)发明名称 一种基于最小熵类 字典的制度校验方法 (57)摘要 本发明提供一种基于最小熵类字典的制度 校验方法, 首先获取目标文本, 并对目标文本进 行解析, 获取对应的解析文本; 然后基于最小熵 原理对解析文本进行要素词库构建, 生成类字 典; 再根据类字典信息, 在解析文本数据的尾部 增加类字典特征, 并将类字典特征加入至基于语 义理解的深度双向预训练编码器中进行编码; 同 时利用条件随机场从编码后的文本中抽取目标 文本中的要素信息; 最后基于要素信息对目标文 本进行高亮, 并将高亮后的目标文本作为待 校验 文本。 本发明首先解析合规文件, 得到段落文本 信息, 然后通过模型抽取合规文件中的要素信 息, 然后将抽取结果在原文件中高亮, 生成高亮 要素信息文件后再由人工进行二次审核, 从而提 高了人工审核的针对性。 权利要求书1页 说明书4页 附图2页 CN 114742031 A 2022.07.12 CN 114742031 A 1.一种基于最小熵类字典的制度校验方法, 其特 征在于, 所述方法包括以下步骤: 获取目标文本, 并对所述目标文本进行解析, 获取对应的解析文本; 基于最小熵 原理对所述 解析文本进行要素词库构建, 生成类字典; 根据类字典信息, 在所述解析文本数据的尾部增加类字典特征, 并将所述类字典特征 加入至基于语义理解的深度双向预训练编码器中进行编码; 利用条件随机场从编码后的文本中抽取 所述目标文本中的要素信息; 基于所述要素信息对所述目标文本进行高亮, 并将高亮后的目标文本作为待校验文 本。 2.根据权利要求1所述的基于最小熵类字典的制度校验方法, 其特征在于, 所述类字典 特征至少包括词汇特 征和坐标位置特 征。 3.根据权利要求2所述的基于最小熵类字典的制度校验方法, 其特征在于, 根据类字典 信息, 在所述 解析文本数据的尾部增 加类字典特 征的过程包括: 获取所述解析文本数据中每 个段落文本的词起 点和词终点; 根据所述词起 点和词终点从所述 解析文本数据中截取对应的词; 获取截取词的词汇特征和坐标位置特征, 并在所述解析文本数据的尾部增加截取词的 词汇特征和坐标位置特 征。 4.根据权利要求1所述的基于最小熵类字典的制度校验方法, 其特征在于, 对所述目标 文本进行解析后, 还 包括: 对所述目标文本按段落拆分, 并将拆分后的每 个段落作为训练数据中的一条 数据; 对每条数据中的每 个字符进行语料 标注, 并将语料 标注后的数据转换为训练语料; 将所述训练语料输入至要素抽取模型中进行训练。 5.根据权利要求1所述的基于最小熵类字典的制度校验方法, 其特征在于, 基于最小熵 原理对所述 解析文本进行要素词库构建的过程包括: 获取所述解析文本中每 个词的信息量 ‑logpw; 根据每个词的信息量计算每句话的总信息量 Σ‑logpiw, 其中, i 为每句话的第i个词; 对每句话的总信 息量进行最小化, 并按照最小化 时的分词方案对所述解析文本进行分 词, 并基于对应的分词结果进行要素词库构建。 6.根据权利要求1所述的基于最小熵类字典的制度校验方法, 其特征在于, 获取所述目 标文本的过程包括: 获取需要 进行制度校验的文本文件; 对所述文本文件进行字符识别, 将识别后的文本 字符作为所述目标文本 。权 利 要 求 书 1/1 页 2 CN 114742031 A 2一种基于最小熵类字典的制度校验方 法 技术领域 [0001]本发明涉及自然语言技术领域, 特别是涉及一种基于最小熵类字典的制度校验方 法。 背景技术 [0002]目前, 由于部分公司存在多个子 公司, 各个子公司内部合规文件种类繁多, 同时合 规文件里涉及的部门、 办公室、 中心以及上引文件十 分广泛, 为了检验这些合规文件中中是 否出现了错误的部门、 办公室、 中心、 上引文件信息, 需要对这些合规文件进 行校验。 目前校 验的方式是 人工审核, 不仅需要大量人员, 而且速度慢、 准确率低, 耗费时间多。 [0003]随着深度学习的不断发展, 人工校验审核都会通过模型辅助进行, 目前都是基于 大规模预训练语言模型辅助进行抽取要素, 然后进行人工校验。 而现有的要素抽取模型中 抽取长要素信息(长要素信息一般指: 字符数量大于10个字 符)存在以下问题: (1)要素信息 语义较为复杂, 文本内容中存在干扰信息; (2)连续出现多个要素信息, 导致抽取的要素字 段出现不完整的情况。 发明内容 [0004]鉴于以上所述现有技术的缺点, 本发明的目的在于提供一种基于最小熵类字典的 制度校验方法, 用于解决现有技 术中在进行文本要素抽取时抽取存在缺漏的问题。 [0005]为实现上述目的及 其他相关目的, 本发明提供一种基于最小熵类字典的制度校验 方法, 所述方法包括以下步骤: [0006]获取目标文本, 并对所述目标文本进行解析, 获取对应的解析文本; [0007]基于最小熵 原理对所述 解析文本进行要素词库构建, 生成类字典; [0008]根据类字典信息, 在所述解析文本数据的尾部增加类字典特征, 并将所述类字典 特征加入至基于语义理解的深度双向预训练编码器中进行编码; [0009]利用条件随机场从编码后的文本中抽取 所述目标文本中的要素信息; [0010]基于所述要素信息对所述目标文本进行高亮, 并将高亮后的目标文本作为待校验 文本。 [0011]可选地, 所述类字典特 征至少包括词汇特 征和坐标位置特 征。 [0012]可选地, 根据类字典信息, 在所述解析文本数据的尾部增加类字典特征的过程包 括: [0013]获取所述解析文本数据中每 个段落文本的词起 点和词终点; [0014]根据所述词起 点和词终点从所述 解析文本数据中截取对应的词; [0015]获取截取词的词汇特征和坐标位置特征, 并在所述解析文本数据的尾部增加截取 词的词汇特 征和坐标位置特 征。 [0016]可选地, 对所述目标文本进行解析后, 还 包括: [0017]对所述目标文本按段落拆分, 并将拆分后的每个段落作为训练数据中的一条数说 明 书 1/4 页 3 CN 114742031 A 3

.PDF文档 专利 一种基于最小熵类字典的制度校验方法

文档预览
中文文档 8 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于最小熵类字典的制度校验方法 第 1 页 专利 一种基于最小熵类字典的制度校验方法 第 2 页 专利 一种基于最小熵类字典的制度校验方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:45:33上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。