(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210283924.1 (22)申请日 2022.03.21 (71)申请人 浙江大华 技术股份有限公司 地址 310051 浙江省杭州市滨江区滨安路 1187号 (72)发明人 易璟雯 刘伟棠 陈立力 龙毅  周明伟  (74)专利代理 机构 深圳市威世博知识产权代理 事务所(普通 合伙) 44280 专利代理师 何倚雯 (51)Int.Cl. G06F 40/279(2020.01) G06F 40/30(2020.01) G06F 16/242(2019.01) (54)发明名称 识别文本中实体的方法、 电子 设备和计算机 可读存储介质 (57)摘要 本申请公开了一种识别文本中实体的方法、 电子设备和计算机可读存储介质, 该方法包括: 获得待识别文本; 其中, 待识别文本中包括多种 实体类型的实体, 且待识别文本对应有至少一个 实体聚合类型; 将待识别文本转换为待识别文本 向量, 在待识别文本向量中确定各个实体聚合类 型中的实体在待识别文本中对应的字段; 其中, 至少部分实体对应的字段之间存在重合; 基于正 则化方法对各个实体聚合类型中的实体对应的 字段进行解析, 确定各个实体聚合类型中的实体 对应的实体类型。 上述方案, 能够提高识别文本 中实体的准确率。 权利要求书2页 说明书8页 附图3页 CN 114861642 A 2022.08.05 CN 114861642 A 1.一种识别文本中实体的方法, 其特 征在于, 所述方法包括: 获得待识别文本; 其中, 所述待识别文本 中包括多种实体类型的实体, 且所述待识别文 本对应有至少一个实体聚合类型; 将所述待识别文本转换为待识别文本向量, 在所述待识别文本向量中确定各个所述实 体聚合类型中的实体在所述待识别文本中对应的字段; 其中, 至少 部分所述实体对应的字 段之间存在重合; 基于正则化方法对各个所述实体聚合类型中的实体对应的字段进行解析, 确定各个所 述实体聚合类型中的实体对应的实体 类型。 2.根据权利要求1所述的识别文本 中实体的方法, 其特征在于, 所述将所述待识别文本 转换为待识别文本向量, 在所述待识别文本向量中确定各个所述 实体聚合类型中的实体在 所述待识别文本中对应的字段的步骤, 包括: 利用语言表征模型对所述待识别文本 中的字符进行编码, 获得所述待识别文本对应的 待识别文本向量; 利用指针网络模型中的网络层在所述待识别文本向量中确定每个所述字符是否对应 头指针和/或尾指针; 其中, 所述指针网络模型中的每个所述网络层 对应一个所述 实体聚合 类型; 利用二分类模型确定所述头指针和所述尾指针是否匹配, 将匹配成功的所述头指针和 所述尾指针之 间的字符, 作为各个所述网络层 对应的所述实体聚合类型中的实体在所述待 识别文本中对应的字段; 其中, 所述语言表征模型、 所述指针网络模型和所述二分类模型基于训练文本预先训 练后获得, 所述训练文本中包括至少一个所述实体聚合类型。 3.根据权利要求2所述的识别文本 中实体的方法, 其特征在于, 所述训练文本的获取过 程包括: 获得初始文本, 标注所述初始文本 中的实体对应的实体标签; 其中, 所述实体标签包括 所述实体的实体 类型和所述实体在所述初始文本中的起始位和终止位; 将至少部分所述实体 类型归为同一所述实体聚合类型, 生成训练文本 。 4.根据权利要求3所述的识别文本中实体的方法, 其特征在于, 所述语言表征模型、 所 述指针网络模型和所述 二分类模型的训练过程包括: 将所述训练文本输入所述语言表征模型, 以使所述语言表征模型对所述训练文本 中的 字符进行编码, 获得 所述训练文本对应的训练文本向量; 将所述训练文本向量输入所述指针网络模型, 以使所述指针网络模型中的各个网络 层, 基于所述实体标签在所述训练文本 向量中预测每个所述字符是否对应头指针和/或尾 指针; 将所述头指针和所述尾指针输入所述二分类模型, 以使所述二分类模型基于所述实体 标签预测所述头指 针和所述尾指 针是否匹配, 将匹配成功的所述头指 针和所述尾指 针之间 的字符, 作为各个所述网络层 对应的所述实体聚合类型中的实体在所述训练文本中对应的 字段预测结果; 基于所述实体标签和所述字段预测结果对所述语言表征模型、 所述指针网络模型和所 述二分类模型进行调整;权 利 要 求 书 1/2 页 2 CN 114861642 A 2响应于满足收敛条件, 获得训练后的所述语言表征模型、 所述指针网络模型和所述二 分类模型。 5.根据权利要求4所述的识别文本 中实体的方法, 其特征在于, 所述基于所述实体标签 在所述训练文本向量中预测每 个所述字符是否对应头指针和/或尾指针的步骤, 包括: 基于所述实体标签中的所述实体类型, 预测与 所述网络层相对应的实体聚合类型的实 体; 基于所述实体在所述初始文本中的起始位, 预测所述字符是否对应所述头指针, 基于 所述实体在所述初始文本中的终止位, 预测所述字符是否对应所述尾指针。 6.根据权利要求4所述的识别文本 中实体的方法, 其特征在于, 所述将所述头指针和所 述尾指针输入所述二分类模型, 以使 所述二分类模型基于所述实体标签预测所述头指 针和 所述尾指针是否匹配的步骤, 包括: 将所述头指针和所述尾指针两两匹配输入所述二分类模型, 以使所述二分类模型基于 所述实体在所述初始文本中的起始 位和终止位, 确定所述头指 针和所述尾指 针匹配的概率 值; 基于所述概率值和所述概率值对应的概率阈值, 确定所述头指针和所述尾指针是否匹 配。 7.根据权利要求3所述的识别文本中实体的方法, 其特征在于, 所述获得初始文本, 标 注所述初始文本中的实体对应的实体标签的步骤, 包括: 获得所述初始文本, 将所述初始文本分解成对应的语句并在所述语句中标注所述实体 的起始位和终止位; 为所述语句中的实体标注实体类型; 其中, 所述实体类型的末位标识对应所述实体聚 合类型。 8.根据权利要求7所述的识别文本 中实体的方法, 其特征在于, 所述将至少部分所述实 体类型归为同一所述实体聚合类型的步骤, 包括: 响应于所述末位标识的数量超过数量阈值, 将同一末位标识对应的所述实体类型归为 同一所述实体聚合类型。 9.一种电子设备, 其特征在于, 包括: 相互耦接的存储器和处理器, 其中, 所述存储器存 储有程序数据, 所述处 理器调用所述 程序数据以执 行如权利要求1 ‑8中任一项所述的方法。 10.一种计算机可读存储介质, 其上存储有程序数据, 其特征在于, 所述程序数据被处 理器执行时实现如权利要求1 ‑8中任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 114861642 A 3

.PDF文档 专利 识别文本中实体的方法、电子设备和计算机可读存储介质

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 识别文本中实体的方法、电子设备和计算机可读存储介质 第 1 页 专利 识别文本中实体的方法、电子设备和计算机可读存储介质 第 2 页 专利 识别文本中实体的方法、电子设备和计算机可读存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:52:22上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。