(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210220870.4 (22)申请日 2022.03.08 (71)申请人 安徽理工大 学 地址 232001 安徽省淮南市山 南新区泰丰 大街168号 (72)发明人 李晓庆 朱广丽 张顺香 吴厚月  许鑫 苏明星 李健 黄菊  魏苏波 孙争艳 张镇江 赵彤  (51)Int.Cl. G06F 40/279(2020.01) G06F 40/216(2020.01) G06F 40/30(2020.01) G06F 40/58(2020.01) G06F 40/242(2020.01) G06F 16/31(2019.01) G06N 3/04(2006.01)G16H 50/70(2018.01) (54)发明名称 一种融合部首信息的医疗领域因果关系抽 取方法 (57)摘要 本发明公开了一种融合部首信息的医疗领 域因果关系抽取方法, 涉及数据挖掘技术领域, 包括: 通过网络爬虫获取中文医疗 领域文本数据 集, 再对获取到的数据进行预处理, 采用谷歌翻 译技术将文本中的英文专业名词转化为中文, 利 用在线新华字典获取所有字符的部首, 再利用 Word2Vec架构对部 首进行增量训练, 得到部 首特 征表示, 然后将部首特征向量与字符特征向量拼 接, 得到融合部首信息的字符特 征。 权利要求书1页 说明书4页 附图2页 CN 114580389 A 2022.06.03 CN 114580389 A 1.一种融合部首信息的医疗领域因果关系抽取 方法, 其特 征在于包括如下步骤: 步骤1: 数据获取。 获取医疗领域文本数据集合D={D1,D2...Dn},Di表示第i个文本, 1≤i ≤n,n为集合D中的文本总数; 步骤2: 对获取的文本数据进行 预处理, 其基本步骤如下: 步骤2.1: 去除文本中的停用词、 网页标签等, 进行分词; 步骤2.2: 将文本提取成结构化数据, 装 入数据库; 步骤3: 将文本数据中的英文专业 术语转化为中文, 其基本步骤如下: 步骤3.1: 利用ASCI I码值定位数据集中的英文专业 术语; 步骤3.2: 利用谷歌翻译接口将英文专业术语转化为中文, 得到仅含中文字符的数据 集; 步骤4: 部首 特征获取, 其基本步骤如下: 步骤4.1: 通过查询在线新华字典, 获取数据集中所有字符的部首, 对于没有部首的汉 字, 将字符本身看作词; 步骤4.2: 将部首看作词, 作为Word2Vec架构的输入, 对部首进行增量训练, 得到部首特 征向量表示; 步骤5: 融合部首信息的医疗领域因果关系抽取, 其基本步骤如下: 步骤5.1: 输入层, 对于医疗领域原始文本数据, 将句子输入到BERT模型中获取字符级 特征, 同时将部首输入到W ord2Vec中进行增量训练, 得到 部首特征表示; 步骤5.2: 接收字符特征与部首特征, 并通过查找嵌入字典输出两个嵌入矩阵, 将字符 与部首的向量 维数设为相同大小, 这样, 一个中文字符可以由两个向量序列来表示, 即字符 序列和部首序列; 步骤5.3: 表示层将字符信息与部首信息结合起来, 生成输入文本的全面表示, 利用双 向长短期记忆网络可以捕获前后上下文信息, 捕获双向的语义依赖, 考虑将部首特征作为 行向量拼接在字符特征之后, 将部首信息编码到字符特征向量中, 将文本分别通过BERT模 型和Word2Vec架构, 得到字 符特征与部首特征, 再将这两种独立的特征向量进行拼接, 得到 融合部首信息的文本特 征向量表示; 步骤5.4: 将表示层中Bi ‑LSTM的最终隐层状态作为输出, 并将其连接形成一个综合表 示。 然后将其输入到条件随机场模型中, 采用Softmax函数作为激活函数, 对每个词进行映 射得到条件概 率; 最后, 利用BIO序列标注方法对输出文本进行 标记, 得到最终抽取 结果; 步骤6: 序列标注, 用序列标注 的方式进行因果关系抽取, 需要对句子中的每个单词标 记相应的标签, B ‑cause表示原因事件的开始, B ‑effect表示结果事件的开始, I ‑cause表示 原因事件的中间词或结尾词, I ‑effect表 示结果事件的中间词或结尾词, O标签表 示这个词 既不属于原因事件也不属于结果事件, 对预测层的语句进行概率计算, 得到每个字符对应 的因果标签, 得到因果实体。权 利 要 求 书 1/1 页 2 CN 114580389 A 2一种融合部首信息的医疗领域因果关系抽取方 法 技术领域 [0001]本发明涉及医疗领域因果关系抽取, 尤其涉及一种融合部首信息的医疗领域因果 关系抽取 方法。 背景技术 [0002]目前, 医疗领域的信息化建设稳步开展, 现代化的医疗信息系统已经积累了海量 医疗数据。 随着数据的不断积累, 利用自然语言处理技术和深度学习的方法挖掘医疗领域 文本数据中蕴含的丰富信息, 已经成为医学领域和人工智能领域交叉研究的热点。 医疗领 域文本数据中蕴含着大量医疗活动的记录, 包含所患疾病、 药物、 检查和治疗结果等。 这些 信息是重要的临床数据, 对其进 行精确高效地分析和挖掘, 能给建立医学知识库、 构建临床 诊疗系统等提供理论和技术支持。 但是, 医疗领域文本数据与传统的文本有许多不同的特 征, 如包含大量英文实体名、 语义与部首高度相关等特性, 这些特性给 因果关系抽取来了新 的挑战。 此时, 就需要一个能融合部首信息、 丰富文本语义信息的因果关系抽取 方法。 [0003]目前, 人们对部首信息 的研究主要集中在命名实体识别领域。 汉字具有单字可成 词的特点, 且汉字的偏旁部首往往蕴含着重要的信息。 对部首信息的研究主要是通过条件 随机场模型、 双向长短期记忆网络模型等, 获取部首特征, 将部首特征融入到字符特征中, 实现文本语义信息的丰富, 得到融合部首信息的字符特 征向量表示。 [0004]对于得到的融合部首信息的字符特征表示, 还需将其作为因果关系抽取模型的输 入, 得到因果关系实体。 对于因果关系抽取的研究, 常用的方法为基于机器学习的方法和基 于深度学习的方法。 机器学习的方法首先建模成一个多分类问题, 提取特征向量后再使用 有监督的分类器进行事件抽取。 随着神经网络的火热研究, 将神经网络模型应用于因果关 系抽取中, 可以提高因果关系抽取准确效率。 但现有的方法很少考虑到字 符的部首特征, 导 致语义信息获取不够完善, 给因果关系抽取模型应用在医疗领域带来风险。 本文通过融合 部首信息, 对医疗领域文本数据进行因果关系抽取, 提高因果关系抽取准确率。 发明内容 [0005]为了解决上述问题, 本发明的目的在于提供一种融合部首信息的医疗领域因果关 系抽取方法。 [0006]为了达到上述目的, 本发明提供的一种融合部首信息的医疗领域因果关系抽取方 法是按以下步骤进行的: [0007]步骤1: 数据获取。 获取医疗领域文本数据集合D={D1,D2...Dn},Di表示第i个文 本, 1≤i≤n,n 为集合D中的文本总数; [0008]步骤2: 对获取的文本数据进行 预处理, 其基本步骤如下: [0009]步骤2.1: 去除文本中的停用词、 网页标签等, 进行分词; [0010]步骤2.2: 将文本提取成结构化数据, 装 入数据库; [0011]步骤3: 将文本数据中的英文专业 术语转化为中文, 其基本步骤如下:说 明 书 1/4 页 3 CN 114580389 A 3

.PDF文档 专利 一种融合部首信息的医疗领域因果关系抽取方法

文档预览
中文文档 8 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种融合部首信息的医疗领域因果关系抽取方法 第 1 页 专利 一种融合部首信息的医疗领域因果关系抽取方法 第 2 页 专利 一种融合部首信息的医疗领域因果关系抽取方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:47:25上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。