(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210248912.5 (22)申请日 2022.03.14 (71)申请人 浙江大华 技术股份有限公司 地址 310053 浙江省杭州市滨江区滨安路 1187号 (72)发明人 徐耀彬 刘伟棠 陈立力 周明伟  (74)专利代理 机构 北京同达信恒知识产权代理 有限公司 1 1291 专利代理师 赵凯莉 (51)Int.Cl. G06K 9/62(2022.01) G06F 40/30(2020.01) G06F 40/295(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种命名实体提取方法、 装置、 电子设备和 存储介质 (57)摘要 本申请涉及计算机技术领域, 尤其涉及人工 智能技术领域, 提供一种命名实体提取方法、 装 置、 电子设备和存储介质, 用以提高命名实体提 取准确率。 其中, 方法包括: 对待提取文本进行字 符划分, 获得待提取文本包含的各个字符; 基于 各个字符进行文本片段构建, 获得待提取文本包 含的多个文本片段; 对待提取文本包含的各个文 本片段进行多标签 分类, 获得各个文本片段各自 对应的文本标签; 将目标类别的文本标签对应的 文本片段, 作为待提取文本包含的命名实体。 由 于本申请通过将待提取文本划分构建多个文本 片段, 将命名实体提取任务转化为文本片段分类 任务, 有效解决了命名实体重叠的问题, 提高了 命名实体提取准确率。 权利要求书3页 说明书15页 附图5页 CN 114638297 A 2022.06.17 CN 114638297 A 1.一种命名实体提取 方法, 其特 征在于, 该 方法包括: 对待提取文本进行字符划分, 获得 所述待提取文本包 含的各个字符; 基于所述各个字符进行文本片段构建, 获得 所述待提取文本包 含的多个文本片段; 对所述待提取文本包含的各个文本片段进行多标签分类, 获得所述各个文本片段各自 对应的文本标签; 将目标类别的文本标签对应的文本片段, 作为所述待提取文本包含的命名实体, 所述 命名实体为具有特定语义的实体名称。 2.如权利要求1所述的方法, 其特征在于, 所述基于所述各个字符进行文本片段构建, 获得所述待提取文本包 含的多个文本片段, 包括: 分别以所述各个字符的位置作为起始位置, 对所述待提取文本进行不同文本长度的片 段截取, 获得 所述多个文本片段。 3.如权利要求2所述的方法, 其特征在于, 所述不同文本长度包括: 最短文本长度, 以及 将所述最短文本 长度按照指定步长逐渐递增所获得的多个文本 长度。 4.如权利要求1~3任一项所述的方法, 其特征在于, 所述对所述待提取文本包含的各 个文本片段进行多标签分类, 获得 所述各个文本片段 各自对应的文本片段, 包括: 分别将所述各个文本片段的编码表示信 息输入分类模型, 获得所述各个文本片段针对 每种文本标签的预测概 率; 针对每个文本片段, 分别执 行以下操作: 将一个文本片段对应的各个预测概率中, 最大预测概率对应的文本标签, 作为所述一 个文本片段的文本标签。 5.如权利要求4所述的方法, 其特征在于, 通过下列 方式获得所述各个文本片段的编码 表示信息: 将所述各个字符分别输入预训练语言模型, 获得 所述各个字符各自的隐层编码向量; 基于所述各个字符的隐层编码向量, 获得 所述各个文本片段的编码表示信息 。 6.如权利要求5所述的方法, 其特征在于, 所述将所述各个字符分别输入预训练语言模 型, 获得所述各个字符各自的隐层编码向量, 包括: 将所述各个字符分别 输入所述预训练语言模型的词向量嵌入层, 获得所述各个字符各 自对应的嵌入向量; 根据所述各个字符各自在所述待提取文本中的位置, 获得所述各个字符各自对应的位 置编码向量; 将所述各个字符对应的嵌入向量、 位置编码向量和标识向量进行加和, 获得所述待提 取文本对应的向量序列, 所述标识向量用于区分不同的待提取文本; 对所述向量序列进行上下文特征提取, 获得所述预训练语言模型输出的所述各个字符 各自的隐层编码向量。 7.如权利要求5所述的方法, 其特征在于, 所述基于所述各个字符的隐层编码向量, 获 得所述各个文本片段的编码表示信息, 包括: 针对每个文本片段, 分别执 行以下操作: 基于一个文本片段中起始字符在所述待提取文本中的位置, 从各个隐层编码向量中, 选取对应位置的隐层编码向量作为所述文本片段的起始编码向量;权 利 要 求 书 1/3 页 2 CN 114638297 A 2基于所述文本片段中终止字符在所述待提取文本中的位置, 从各个隐层编码向量中, 选取对应位置的隐层编码向量作为所述文本片段的结束编码向量; 基于所述 一个文本片段对应的文本 长度, 获得 所述文本片段的长度编码向量; 将所述起始编码向量、 所述结束编码向量和所述长度编码向量进行加和, 获得所述文 本片段的编码表示信息 。 8.一种命名实体提取装置, 其特 征在于, 该装置包括: 划分单元, 用于对待提取文本进行字符划分, 获得 所述待提取文本包 含的各个字符; 构建单元, 用于基于所述各个字符进行文本片段构建, 获得所述待提取文本包含的多 个文本片段; 识别单元, 用于对所述待提取文本包含的各个文本片段进行多标签分类, 获得所述各 个文本片段 各自对应的文本标签; 提取单元, 用于将目标类别的文本标签对应的文本片段, 作为所述待提取文本包含的 命名实体, 所述命名实体为具有特定语义的实体名称。 9.如权利要求8所述的装置, 其特 征在于, 所述构建单 元具体用于: 分别以所述各个字符的位置作为起始位置, 对所述待提取文本进行不同文本长度的片 段截取, 获得 所述多个文本片段。 10.如权利要求9所述的装置, 其特征在于, 所述不同文本长度包括: 最短文本长度, 以 及将所述 最短文本 长度按照指定步长逐渐递增所获得的多个文本 长度。 11.如权利要求8~10任一项所述的装置, 其特 征在于, 所述识别单 元具体用于: 分别将所述各个文本片段的编码表示信 息输入分类模型, 获得所述各个文本片段针对 每种文本标签的预测概 率; 针对每个文本片段, 分别执 行以下操作: 将一个文本片段对应的各个预测概率中, 最大预测概率对应的文本标签, 作为所述一 个文本片段的文本标签。 12.如权利要求11所述的装置, 其特征在于, 通过下列 方式获得所述各个文本片段的编 码表示信息: 将所述各个字符分别输入预训练语言模型, 获得 所述各个字符各自的隐层编码向量; 基于所述各个字符的隐层编码向量, 获得 所述各个文本片段的编码表示信息 。 13.如权利要求12所述的装置, 其特 征在于, 所述识别单 元具体用于: 将所述各个字符分别 输入所述预训练语言模型的词向量嵌入层, 获得所述各个字符各 自对应的嵌入向量; 根据所述各个字符各自在所述待提取文本中的位置, 获得所述各个字符各自对应的位 置编码向量; 将所述各个字符对应的嵌入向量、 位置编码向量和标识向量进行加和, 获得所述待提 取文本对应的向量序列, 所述标识向量用于区分不同的待提取文本; 对所述向量序列进行上下文特征提取, 获得所述预训练语言模型输出的所述各个字符 各自的隐层编码向量。 14.如权利要求12所述的装置, 其特 征在于, 所述识别单 元具体用于: 针对每个文本片段, 分别执 行以下操作:权 利 要 求 书 2/3 页 3 CN 114638297 A 3

.PDF文档 专利 一种命名实体提取方法、装置、电子设备和存储介质

文档预览
中文文档 24 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种命名实体提取方法、装置、电子设备和存储介质 第 1 页 专利 一种命名实体提取方法、装置、电子设备和存储介质 第 2 页 专利 一种命名实体提取方法、装置、电子设备和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:44:34上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。