(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210478341.4
(22)申请日 2022.05.05
(65)同一申请的已公布的文献号
申请公布号 CN 114580354 A
(43)申请公布日 2022.06.03
(73)专利权人 阿里巴巴达摩院 (杭州) 科技有限
公司
地址 310023 浙江省杭州市余杭区五常街
道文一西路969号3幢5层516室
(72)发明人 袁正 谭传奇 黄松芳
(74)专利代理 机构 北京太合九思知识产权代理
有限公司 1 1610
专利代理师 孙明子
(51)Int.Cl.
G06F 40/126(2020.01)G06F 40/247(2020.01)
G06F 40/30(2020.01)
G16H 10/60(2018.01)
(56)对比文件
US 2020301953 A1,2020.09.24
CN 113239166 A,2021.08.10
审查员 赵亮
(54)发明名称
基于同义词的信息编码方法、 装置、 设备和
存储介质
(57)摘要
本申请提供一种基于同义词的信息编码方
法、 装置、 设备和存储介质, 该方法包括: 对病历
文本中的词语进行编码, 以得到病历文本对应的
第一语义表 示; 获取预设的疾病编码标识所对应
的多种描述, 多种描述中包括与疾病编码标识对
应的标准描述以及同义词描述。 根据所述多种描
述确定疾病编码标识对应的第二语义表示, 根据
所述多种描述和第一语义表示, 确定病历文本对
应于疾病编码标识的第三语义表 示。 根据第三语
义表示与第二语义表示的相似度, 确定病历文本
是否标记上所述疾病编码标识。 在上述病历文本
的自动编码过程中, 充分利用了疾病名称的同义
词描述, 从而可以实现病历文本的自动、 准确编
码处理。
权利要求书3页 说明书12页 附图4页
CN 114580354 B
2022.10.28
CN 114580354 B
1.一种基于同义词的信息编码方法, 其特 征在于, 包括:
对病历文本中的词语进行编码, 以得到所述病历文本对应的第一语义表示;
获取预设的疾病编码标识所对应的多种 描述, 所述多种 描述中包括与 所述疾病编码标
识对应的标准描述以及同义词描述;
根据所述多种描述, 确定所述疾病编码标识对应的第二语义表示;
根据所述多种 描述和所述第 一语义表示, 确定所述病历文本对应于所述疾病编码标识
的第三语义表示;
根据所述第 三语义表示与 所述第二语义表示的相似度, 确定所述病历文本是否标记上
所述疾病编码标识;
其中, 所述第三语义表示的确定, 包括:
分别对所述多种描述进行编码, 以得到所述多种描述对应的多个第四语义表示;
根据所述多个第四语义表示和所述第 一语义表示, 确定所述病历文本中的词语对应于
每个第四语义表示的注意力系数向量;
以确定出的对应于所述多个第四语义表示的多个注意力系数向量, 分别对所述第 一语
义表示中包含的多个语义向量进行加权求和, 得到多个加权后的语义表示; 对所述多个加
权后的语义表示进行最大池化处理, 以得到所述病历文本对应于所述疾病编码标识的第三
语义表示。
2.根据权利要求1所述的方法, 其特征在于, 所述根据所述多种描述, 确定所述疾病编
码标识对应的第二语义表示, 包括:
根据所述多个第四语义表示, 确定所述疾病编码标识对应的所述第二语义表示。
3.根据权利要求2所述的方法, 其特征在于, 所述分别对所述多种描述进行编码, 以得
到所述多种描述对应的多个第四语义表示, 包括:
针对任一种描述, 对所述任一种描述中的各词语进行编码, 得到所述各词语对应的语
义表示;
对所述各词语对应的语义表示进行最大池化处理, 以得到所述任一种 描述对应的第四
语义表示。
4.根据权利要求2所述的方法, 其特征在于, 所述根据所述多个第 四语义表示, 确定所
述疾病编码标识对应的所述第二语义表示, 包括:
对所述多个第四语义表示进行最大池化处理, 以得到所述疾病编码标识对应的所述第
二语义表示。
5.根据权利要求1所述的方法, 其特征在于, 所述病历文本中包括多个词语, 所述第一
语义表示由所述多个词语对应的多个 语义向量构成;
所述根据 所述多个第四语义表示和所述第 一语义表示, 确定所述病历文本 中的词语对
应于每个第四语义表示的注意力系数向量, 包括:
将所述第一语义表示切分为多个语义块, 其中, 每个语义块中包括所述多个词语对应
的多个子语义向量, 每个子语义向量由对应语义向量中的部分维度构成, 所述语义块的数
量与所述多种描述的数量相等;
确定目标语义块中多个子语义向量对应于目标第四语义表示的注意力系数向量, 其
中, 所述目标第四语义表示与所述 目标语义块的序号相同, 所述 目标第四语义表示是所述权 利 要 求 书 1/3 页
2
CN 114580354 B
2多个第四语义表示中的任一个。
6.根据权利要求1所述的方法, 其特 征在于, 所述方法还 包括:
根据所述第三语义表示、 所述第二语义表示以及训练出的双仿射变换矩阵, 确定所述
第三语义表示与所述第二语义表示的相似度。
7.一种基于同义词的信息编码装置, 其特 征在于, 包括:
病历编码模块, 用于对病历文本中的词语进行编码, 以得到所述病历文本对应的第一
语义表示;
描述获取模块, 用于获取预设的疾病编码标识所对应的多种描述, 所述多种描述中包
括与所述疾病编码标识对应的标准描述以及同义词描述;
语义处理模块, 用于根据 所述多种 描述, 确定所述疾病编码标识对应的第 二语义表示;
根据所述多种描述和所述第一语义表示, 确定所述病历文本对应于所述疾病编 码标识的第
三语义表示; 根据所述第三语义表示与所述第二语义表示的相似度, 确定所述病历文本是
否标记上 所述疾病编码标识;
其中, 在确定所述第三语义表示的过程中, 所述语义处理模块具体用于: 分别对所述多
种描述进行编码, 以得到所述多种描述对应的多个第四语义表示; 根据所述多个第四语义
表示和所述第一语义表示, 确定所述病历文本中的词语对应于每个第四语义表示的注意力
系数向量; 以确定出 的对应于所述多个第四语义表示的多个注意力系 数向量, 分别对所述
第一语义表示中包含的多个语义向量进行加权求和, 得到多个加权后的语义表示; 对所述
多个加权后的语义表 示进行最大池化处理, 以得到所述病历文本对应于所述疾病编 码标识
的第三语义表示。
8.一种电子设备, 其特征在于, 包括: 存储器、 处理器、 通信接口; 其中, 所述存储器上存
储有可执行代码, 当所述可执行代码 被所述处理器执行时, 使 所述处理器执行如权利要求 1
至6中任一项所述的基于同义词的信息编码方法。
9.一种非暂时性机器可读存储介质, 其特征在于, 所述非暂时性机器可读存储介质上
存储有可执行代码, 当所述可执行代码被电子设备 的处理器执行时, 使所述处理器执行如
权利要求1至 6中任一项所述的基于同义词的信息编码方法。
10.一种基于同义词的信息编码方法, 其特 征在于, 包括:
对目标文本中的词语进行编码, 以得到所述目标文本对应的第一语义表示;
获取预设的类别标识所对应的多种类别描述, 所述多种类别描述中包括与 所述类别标
识对应的标准描述以及同义词描述;
根据所述多种类别描述, 确定所述类别标识对应的第二语义表示;
根据所述多种类别描述和所述第 一语义表示, 确定所述目标文本对应于所述类别标识
的第三语义表示;
根据所述第 三语义表示与 所述第二语义表示的相似度, 确定所述目标文本 中是否标记
上所述类别标识;
其中, 所述第三语义表示的确定, 包括:
分别对所述多种类别描述进行编码, 以得到所述多种类别描述对应的多个第四语义表
示;
根据所述多个第四语义表示和所述第 一语义表示, 确定所述目标文本中的词语对应于权 利 要 求 书 2/3 页
3
CN 114580354 B
3
专利 基于同义词的信息编码方法、装置、设备和存储介质
文档预览
中文文档
20 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:49:04上传分享