(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210220870.4
(22)申请日 2022.03.08
(71)申请人 安徽理工大 学
地址 232001 安徽省淮南市山 南新区泰丰
大街168号
(72)发明人 李晓庆 朱广丽 张顺香 吴厚月
许鑫 苏明星 李健 黄菊
魏苏波 孙争艳 张镇江 赵彤
(51)Int.Cl.
G06F 40/279(2020.01)
G06F 40/216(2020.01)
G06F 40/30(2020.01)
G06F 40/58(2020.01)
G06F 40/242(2020.01)
G06F 16/31(2019.01)
G06N 3/04(2006.01)G16H 50/70(2018.01)
(54)发明名称
一种融合部首信息的医疗领域因果关系抽
取方法
(57)摘要
本发明公开了一种融合部首信息的医疗领
域因果关系抽取方法, 涉及数据挖掘技术领域,
包括: 通过网络爬虫获取中文医疗 领域文本数据
集, 再对获取到的数据进行预处理, 采用谷歌翻
译技术将文本中的英文专业名词转化为中文, 利
用在线新华字典获取所有字符的部首, 再利用
Word2Vec架构对部 首进行增量训练, 得到部 首特
征表示, 然后将部首特征向量与字符特征向量拼
接, 得到融合部首信息的字符特 征。
权利要求书1页 说明书4页 附图2页
CN 114580389 A
2022.06.03
CN 114580389 A
1.一种融合部首信息的医疗领域因果关系抽取 方法, 其特 征在于包括如下步骤:
步骤1: 数据获取。 获取医疗领域文本数据集合D={D1,D2...Dn},Di表示第i个文本, 1≤i
≤n,n为集合D中的文本总数;
步骤2: 对获取的文本数据进行 预处理, 其基本步骤如下:
步骤2.1: 去除文本中的停用词、 网页标签等, 进行分词;
步骤2.2: 将文本提取成结构化数据, 装 入数据库;
步骤3: 将文本数据中的英文专业 术语转化为中文, 其基本步骤如下:
步骤3.1: 利用ASCI I码值定位数据集中的英文专业 术语;
步骤3.2: 利用谷歌翻译接口将英文专业术语转化为中文, 得到仅含中文字符的数据
集;
步骤4: 部首 特征获取, 其基本步骤如下:
步骤4.1: 通过查询在线新华字典, 获取数据集中所有字符的部首, 对于没有部首的汉
字, 将字符本身看作词;
步骤4.2: 将部首看作词, 作为Word2Vec架构的输入, 对部首进行增量训练, 得到部首特
征向量表示;
步骤5: 融合部首信息的医疗领域因果关系抽取, 其基本步骤如下:
步骤5.1: 输入层, 对于医疗领域原始文本数据, 将句子输入到BERT模型中获取字符级
特征, 同时将部首输入到W ord2Vec中进行增量训练, 得到 部首特征表示;
步骤5.2: 接收字符特征与部首特征, 并通过查找嵌入字典输出两个嵌入矩阵, 将字符
与部首的向量 维数设为相同大小, 这样, 一个中文字符可以由两个向量序列来表示, 即字符
序列和部首序列;
步骤5.3: 表示层将字符信息与部首信息结合起来, 生成输入文本的全面表示, 利用双
向长短期记忆网络可以捕获前后上下文信息, 捕获双向的语义依赖, 考虑将部首特征作为
行向量拼接在字符特征之后, 将部首信息编码到字符特征向量中, 将文本分别通过BERT模
型和Word2Vec架构, 得到字 符特征与部首特征, 再将这两种独立的特征向量进行拼接, 得到
融合部首信息的文本特 征向量表示;
步骤5.4: 将表示层中Bi ‑LSTM的最终隐层状态作为输出, 并将其连接形成一个综合表
示。 然后将其输入到条件随机场模型中, 采用Softmax函数作为激活函数, 对每个词进行映
射得到条件概 率; 最后, 利用BIO序列标注方法对输出文本进行 标记, 得到最终抽取 结果;
步骤6: 序列标注, 用序列标注 的方式进行因果关系抽取, 需要对句子中的每个单词标
记相应的标签, B ‑cause表示原因事件的开始, B ‑effect表示结果事件的开始, I ‑cause表示
原因事件的中间词或结尾词, I ‑effect表 示结果事件的中间词或结尾词, O标签表 示这个词
既不属于原因事件也不属于结果事件, 对预测层的语句进行概率计算, 得到每个字符对应
的因果标签, 得到因果实体。权 利 要 求 书 1/1 页
2
CN 114580389 A
2一种融合部首信息的医疗领域因果关系抽取方 法
技术领域
[0001]本发明涉及医疗领域因果关系抽取, 尤其涉及一种融合部首信息的医疗领域因果
关系抽取 方法。
背景技术
[0002]目前, 医疗领域的信息化建设稳步开展, 现代化的医疗信息系统已经积累了海量
医疗数据。 随着数据的不断积累, 利用自然语言处理技术和深度学习的方法挖掘医疗领域
文本数据中蕴含的丰富信息, 已经成为医学领域和人工智能领域交叉研究的热点。 医疗领
域文本数据中蕴含着大量医疗活动的记录, 包含所患疾病、 药物、 检查和治疗结果等。 这些
信息是重要的临床数据, 对其进 行精确高效地分析和挖掘, 能给建立医学知识库、 构建临床
诊疗系统等提供理论和技术支持。 但是, 医疗领域文本数据与传统的文本有许多不同的特
征, 如包含大量英文实体名、 语义与部首高度相关等特性, 这些特性给 因果关系抽取来了新
的挑战。 此时, 就需要一个能融合部首信息、 丰富文本语义信息的因果关系抽取 方法。
[0003]目前, 人们对部首信息 的研究主要集中在命名实体识别领域。 汉字具有单字可成
词的特点, 且汉字的偏旁部首往往蕴含着重要的信息。 对部首信息的研究主要是通过条件
随机场模型、 双向长短期记忆网络模型等, 获取部首特征, 将部首特征融入到字符特征中,
实现文本语义信息的丰富, 得到融合部首信息的字符特 征向量表示。
[0004]对于得到的融合部首信息的字符特征表示, 还需将其作为因果关系抽取模型的输
入, 得到因果关系实体。 对于因果关系抽取的研究, 常用的方法为基于机器学习的方法和基
于深度学习的方法。 机器学习的方法首先建模成一个多分类问题, 提取特征向量后再使用
有监督的分类器进行事件抽取。 随着神经网络的火热研究, 将神经网络模型应用于因果关
系抽取中, 可以提高因果关系抽取准确效率。 但现有的方法很少考虑到字 符的部首特征, 导
致语义信息获取不够完善, 给因果关系抽取模型应用在医疗领域带来风险。 本文通过融合
部首信息, 对医疗领域文本数据进行因果关系抽取, 提高因果关系抽取准确率。
发明内容
[0005]为了解决上述问题, 本发明的目的在于提供一种融合部首信息的医疗领域因果关
系抽取方法。
[0006]为了达到上述目的, 本发明提供的一种融合部首信息的医疗领域因果关系抽取方
法是按以下步骤进行的:
[0007]步骤1: 数据获取。 获取医疗领域文本数据集合D={D1,D2...Dn},Di表示第i个文
本, 1≤i≤n,n 为集合D中的文本总数;
[0008]步骤2: 对获取的文本数据进行 预处理, 其基本步骤如下:
[0009]步骤2.1: 去除文本中的停用词、 网页标签等, 进行分词;
[0010]步骤2.2: 将文本提取成结构化数据, 装 入数据库;
[0011]步骤3: 将文本数据中的英文专业 术语转化为中文, 其基本步骤如下:说 明 书 1/4 页
3
CN 114580389 A
3
专利 一种融合部首信息的医疗领域因果关系抽取方法
文档预览
中文文档
8 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:47:25上传分享