(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 20221047383 0.0
(22)申请日 2022.04.29
(71)申请人 腾讯科技 (深圳) 有限公司
地址 518000 广东省深圳市南 山区高新区
科技中一路腾讯大厦3 5层
(72)发明人 张子恒 李文琪 郑冶枫
(74)专利代理 机构 北京派特恩知识产权代理有
限公司 1 1270
专利代理师 刘晖铭 胡春光
(51)Int.Cl.
G16H 70/20(2018.01)
G16H 50/70(2018.01)
G06F 40/154(2020.01)
G06F 40/30(2020.01)
G06K 9/62(2022.01)
(54)发明名称
术语处理方法、 装置、 电子设备、 存储介质及
程序产品
(57)摘要
本申请提供了一种术语处理方法、 装置、 电
子设备、 存储介质及程序产品; 可 以应用于人工
智能领域的医疗技术; 其中, 方法包括: 获取特定
领域的待匹配文本以及多个第一术语运算树; 其
中, 每个第一术语运算树是基于特定领域的一个
标准文本 预先构建的; 构建与待匹配文本对应的
第二术语运算树; 确定第一术语运算树中的第一
节点、 以及第二术语运算树中与第一节点相同类
型的第二节 点; 确定第一节点对应的词和第二节
点对应的词的相似度; 其中, 第一节点是第一术
语运算树中的任意一个节点; 在相似度的取值满
足取值条件的情况下, 将第一节 点对应的词确定
为第二节 点对应的词的标准词。 通过本申请能够
准确确定出待匹配文本对应的标准词。
权利要求书5页 说明书29页 附图13页
CN 115132372 A
2022.09.30
CN 115132372 A
1.一种术语处 理方法, 其特 征在于, 所述方法包括:
获取特定领域的待匹配文本以及多个第一术语运算树; 其中, 每个所述第一术语运算
树是基于所述特定领域的一个标准文本预先构建的, 每个所述标准文本对应所述特定领域
的术语标准表中的一个标准词;
构建与所述待匹配文本对应的第二 术语运算树;
针对每个所述第一 术语运算树执行以下处 理:
确定所述第 一术语运算树中的第 一节点、 以及所述第 二术语运算树中与所述第 一节点
相同类型的第二节点;
确定所述第一节点对应的词和所述第二节点对应的词的相似度; 其中, 所述第一节点
是所述第一 术语运算树中的任意 一个节点;
在所述相似度的取值满足取值条件的情况下, 将所述第 一节点对应的词确定为所述第
二节点对应的词的标准词。
2.根据权利要求1所述的方法, 其特 征在于,
所述构建与所述待匹配文本对应的第二 术语运算树, 包括:
对所述待匹配文本进行拆分编码处 理, 得到所述待匹配文本的成分;
基于所述待匹配文本的成分, 构建与所述待匹配文本对应的第二 术语运算树。
3.根据权利要求2所述的方法, 其特 征在于,
所述成分包括修饰成分、 部位成分、 词根成分和逻辑成分; 所述基于所述待匹配文本的
成分, 构建与所述待匹配文本对应的第二 术语运算树, 包括:
将所述逻辑成分确定为所述第二 术语运算树的根节点;
将所述词根成分确定为所述第二术语运算树的中间节点; 其中, 所述中间节点是所述
根节点的子节点;
将所述部位成分和所述修饰成分确定为所述第二术语运算树的叶子节点; 其中, 所述
叶子节点是 所述中间节点的子节点;
将所述根节点、 所述中间节点和所述叶子节点根据所属的层级进行连接, 得到与所述
待匹配文本对应的第二 术语运算树。
4.根据权利要求3所述的方法, 其特 征在于,
在所述第二术语运算树包括第 一中间节点和第 二中间节点的情况下, 在所述得到与 所
述待匹配文本对应的第二 术语运算树之后, 所述方法还 包括:
在所述第一中间节点存在多个第 一叶子节点的情况下, 将所述多个第 一叶子节点分别
与所述第二中间节点相连, 得到更新后第二 术语运算树;
其中, 所述第一叶子节点对应的所述修饰成分或所述部位成分, 是所述第二中间节点
对应的所述词根成分所不具有的。
5.根据权利要求1所述的方法, 其特 征在于,
所述确定所述第一节点对应的词和所述第二节点对应的词的相似度, 包括:
分别将所述第一节点和所述第二节点作为目标节点, 并执 行以下处 理:
基于所述目标节点对应的词调用编码网络进行编码处理, 得到所述目标节点对应的词
的目标特征表示;
基于所述目标特征表示调用自注意力网络进行计算处理, 得到所述目标特征表示对应权 利 要 求 书 1/5 页
2
CN 115132372 A
2的目标自注意力权 重;
基于所述目标自注意力 权重调用第 一残差网络进行计算处理, 得到所述目标特征表示
对应的第一目标残差网络计算结果;
基于所述目标特征表示对应的第 一目标残差网络计算结果, 调用前馈神经网络进行计
算处理, 得到所述目标 特征表示对应的目标 前馈神经网络计算结果;
基于所述目标特征表示对应的目标前馈神经网络计算结果, 调用第 二残差网络进行计
算处理, 得到所述目标 特征表示对应的第二目标残差网络计算结果;
对所述目标特征表示对应的第 二目标残差网络计算结果进行拼接处理, 并基于拼接结
果调用分类器进 行分类处理, 得到所述第一节点对应的词和所述第二节点对应的词的相似
度。
6.根据权利要求5所述的方法, 其特 征在于,
所述基于所述目标特征表示调用自注意力网络进行计算处理, 得到所述目标特征表示
对应的目标自注意力权 重, 包括:
基于所述目标特征表示、 以及所述目标特征表示对应的目标栅格相对位置矩阵, 调用
所述自注意力网络进 行计算处理, 得到所述目标特征表示对应的第一自注意力权重; 其中,
所述目标栅格相对位置矩阵是基于所述目标节点对应的术语运 算树确定出的;
基于所述第 一自注意力 权重以及初始跨运算树矩阵, 调用所述自注意力网络进行计算
处理, 得到所述目标 特征表示对应的目标自注意力权 重;
其中, 所述跨运算树矩阵包括与多个节点对一一对应的多个矩阵元素, 所述矩阵元素
表征所述节点对中的两个节点所对应的词的相似度, 所述两个节点的类型相同, 且其中一
个所述节点 来自所述第一 术语运算树, 另一个所述节点 来自所述第二 术语运算树。
7.根据权利要求6所述的方法, 其特 征在于,
所述自注意力网络为多头自注意力网络;
所述基于所述目标特征表示、 以及所述目标特征表示对应的目标栅格相对位置矩阵,
调用所述自注意力网络进行计算处理, 得到所述 目标特征表示对应的第一自注意力权重,
包括:
基于所述目标特征表示、 以及所述目标特征表示对应的目标栅格相对位置矩阵, 调用
所述多头自注意力网络进行自注意力计算处 理, 得到每 个头对应的自注意力权 重;
将所述每个头对应的自注意力 权重进行拼接处理, 并对得到的拼接处理结果进行线性
变换处理, 将线性变换处 理结果确定为所述目标 特征表示对应的第一自注意力权 重。
8.根据权利要求6所述的方法, 其特 征在于,
在所述基于所述目标特征表示、 以及所述目标特征表示对应的目标栅格相对位置矩
阵, 调用所述自注意力网络进行计算处 理之前, 所述方法还 包括:
通过以下 方式构建所述目标栅格相对位置矩阵:
基于目标术语运算树中的节点i和节点j的层级以及路径关系, 确定所述节点i与所述
节点j的路径 距离;
将所述路径距离确定为所述目标栅格相对位置矩阵的矩阵元素(i, j)的取值; 其中, 当
所述目标节点为所述第一节点时, 所述 目标术语运算树为所述第一术语运算树, 当所述 目
标节点为所述第二节点时, 所述目标术语运算树为所述第二术语运算树; 1≤i≤N, 1≤j≤权 利 要 求 书 2/5 页
3
CN 115132372 A
3
专利 术语处理方法、装置、电子设备、存储介质及程序产品
文档预览
中文文档
48 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共48页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:51:25上传分享