(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210381687.2 (22)申请日 2022.04.12 (71)申请人 北京睿企信息科技有限公司 地址 100013 北京市东城区和平里 北街6号 6号楼一层101室 申请人 日照睿安信息科技有限公司 (72)发明人 于伟 靳雯 赵洲洋 石江枫  王全修 王明超  (74)专利代理 机构 北京纽乐康知识产权代理事 务所(普通 合伙) 11210 专利代理师 张朝元 (51)Int.Cl. G06F 40/289(2020.01) G06F 40/30(2020.01) (54)发明名称 一种多类型时间实体消岐归一化处理系统 及方法 (57)摘要 本发明公开了一种多类型时间实体消岐归 一化处理系统, 包括时间实体标准化组件, 用于 去除自然语言中的噪音, 完成自然语 言文本的结 构化, 并识别实体中的年月日信息; 事件情报消 岐组件具体包括事件指向日期、 事件开始时间、 情报创建时间, 为三类时间实体完成年月日结构 化信息后, 通过推断模块计算事件的指向日期, 进而定义事件指向日期输出格式并完成事件指 向日期输 出; 标准时间的归一化组件为将标准的 时间归一化为重大节日、 敏感节点, 并完成标准 化输出; 本发 明通过时间预处理解决警务文本的 数据录入错误的问题,采用正则和规则作为主要 实现方式,更节省CPU、 内存、 显卡方面的机器资 源。 权利要求书1页 说明书5页 附图4页 CN 114722814 A 2022.07.08 CN 114722814 A 1.一种多类型时间实体消岐归一化处理系统, 其特征在于, 包括时间实体标准化组件 模块、 事件情报消歧组件 模块、 标准时间的归一 化组件模块, 其中, 所述时间实体标准化组件模块, 用于去 除自然语言中的噪音, 完成自然语言文本的结 构化, 及识别实体中的年月日信息, 其包含时间预处理子模块、 标准时间正则化子模块、 时 间结构化子模块; 所述时间情报消岐组件模块, 具体包括事件指向日期、 事件开始时间及情报创建时间, 为通过计算时间偏移, 推断事 件指向日期, 其包 含时间偏移计算子模块、 时间组合子模块; 所述标准时间的归一化组件模块, 为将标准的时间归一化为重大节日、 敏感节点完成 并标准化输出。 2.根据权利要求1所述的多类型时间实体消岐归一化处理系统, 其特征在于, 所述 时间 预处理子模块, 包括以下步骤: S21: 输入时间实体, 对所有字符完成全角转半角的转换; S22: 再清除字符串中的空白符、 非法字符以及预期助词; S23: 再将大写数字转化为阿拉伯数字, 对字符串中出现的各种数字的表述都转化为 阿拉伯数字; S34: 对字符串中出现容 易与数字混淆的字母完成数字转换。 3.根据权利要求1所述的多类型时间实体消岐归一化处理系统, 其特征在于, 所述标准 时间正则化子模块, 通过利用正则表达式, 设计特征, 提取输入的标准化时间中的年月日信 息, 完成结构化输出。 4.根据权利要求1所述的多类型时间实体消岐归一化处理系统, 其特征在于, 所述 时间 结构化子模块, 判断非结构化的时间实体是否为节假日、 标准时间格式, 提取出不标准的格 式时间字符串。 5.根据权利要求1所述的多类型时间实体消岐归一化处理系统, 其特征在于, 所述 时间 偏移计算子模块, 进行提取计划日期plan_date中完整的年月日日期, 并判断分别是否被提 取出, 若没有被提取 过则计算并提取 该偏移量, 若被提取 过, 最终返回年月日。 6.一种多类型时间实体消岐归一 化处理方法, 其特 征在于, 包括以下步骤: S1: 首先输入三类时间实体, 为时间实体为事件指向日期、 事件开始时间及情报创建 时间, 对三类时间实体结构化信息; S2: 所述情报创建时间为标准化的时间格式, 通过标准时间正则化子模块, 完成情报 创建时间实体的正则化, 输出情 报创建时间的年月日信息; S3: 所述事件指向日期与事件开始时间实体, 通过时间预处理子模块去除自然语言中 的噪音, 再通过基于规则的时间结构化子模块, 完成自然语言文本的结构化, 并识别实体中 的年月日信息; S4: 三类时间实体完成年月日结构化信息后, 经 过推断计算出事 件的指向日期; S5: 进行定义事 件指向日期输出格式和完成事 件指向日期输出。 7.根据权利要求6所述的多类型时间实体消岐归一化处理方法, 其特征在于, 所述定义 事件指向日期输出格式, 按照业务要求的格式重新定义事件指向日期, 按照年月日顺序排 序后输出。权 利 要 求 书 1/1 页 2 CN 114722814 A 2一种多类型时间实体 消岐归一化处理系统及方 法 技术领域 [0001]本发明涉及处理时间实体数据技术领域, 具体来说, 涉及一种多类型时间实体消 岐归一化处理系统及方法。 背景技术 [0002]多类型的时间实体包括事件指向日期, 事件开始时间, 情报创建时间。 由于 实体为 从自然语言文本中抽取出来, 所以对于时间的表述有无穷种 可能, 单单从已抽取 的事件指 向日期实体通常无法得到完整 “年”、“月”、“日”的结构化日期信息, 或者无法获得正确的事 件指向日期, 所以需要另外两类时间实体: 事件开始时间与情报创建时间, 提供辅助信息与 完成联合验证, 最终完成时间实体 推断与计算。 发明内容 [0003]针对相关技术中的上述技术问题, 本发明提出一种多类型时间实体消岐归一化处 理系统, 能够克服现有技 术方法的上述 不足。 [0004]为实现上述 技术目的, 本发明的技 术方案是这样实现的: [0005]一种多类型时间实体消岐归一化处理系统, 包括时间实体标准化组件模块、 事件 情报消歧组件 模块、 标准时间的归一 化组件模块, 其中, [0006]所述时间实体标准化组件模块, 用于去除自然语言中的噪音, 完成自然语言文本 的结构化, 及识别实体中的年月日信息, 其包含时间预处理子模块、 标准时间正则化子模 块、 时间结构化子模块; [0007]所述时间情报消岐组件模块, 具体包括事件指向日期、 事件开始时间及情报创建 时间, 为通过计算时间偏移, 推断事件指向日期, 其包含时间偏移计算子模块、 时间组合子 模块; [0008]所述标准时间的归一化组件模块, 为将标准的时间归一化为重大节日、 敏感节点 完成并标准 化输出。 [0009]进一步地, 所述时间预处 理子模块, 包括以下步骤: [0010]S21: 输入时间实体, 对所有字符完成全角转半角的转换; [0011]S22: 再清除字符串中的空白符、 非法字符以及预期助词; [0012]S23: 再将大写数字转化为阿拉伯数字, 对字符串中出现的各种数字的表述都转化 为阿拉伯数字; [0013]S34: 对字符串中出现容 易与数字混淆的字母完成数字转换。 [0014]进一步地, 所述标准时间正则化子模块, 通过利用正则表达式, 设计特征, 提取输 入的标准 化时间中的年月日信息, 完成结构化输出。 [0015]进一步地, 所述时间结构 化子模块, 判断非结构化的时间实体是否为节假日、 标准 时间格式, 提取 出不标准的格式时间字符串。 [0016]进一步地, 所述时间偏移计算子模块, 进行提取计划日期plan_dat e中完整的年月说 明 书 1/5 页 3 CN 114722814 A 3

.PDF文档 专利 一种多类型时间实体消岐归一化处理系统及方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种多类型时间实体消岐归一化处理系统及方法 第 1 页 专利 一种多类型时间实体消岐归一化处理系统及方法 第 2 页 专利 一种多类型时间实体消岐归一化处理系统及方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:46:08上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。