专利一种融合部首信息的医疗领域因果关系抽取方法 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210220870.4 (22)申请日 2022.03.08 (71)申请人安徽理工大学地址 232001 安徽省淮南市山南新区泰丰大街168号 (72)发明人李晓庆　朱广丽　张顺香　吴厚月　许鑫　苏明星　李健　黄菊　魏苏波　孙争艳　张镇江　赵彤　 (51)Int.Cl. G06F 40/279(2020.01) G06F 40/216(2020.01) G06F 40/30(2020.01) G06F 40/58(2020.01) G06F 40/242(2020.01) G06F 16/31(2019.01) G06N 3/04(2006.01)G16H 50/70(2018.01) (54)发明名称一种融合部首信息的医疗领域因果关系抽取方法 (57)摘要本发明公开了一种融合部首信息的医疗领域因果关系抽取方法，涉及数据挖掘技术领域，包括：通过网络爬虫获取中文医疗领域文本数据集，再对获取到的数据进行预处理，采用谷歌翻译技术将文本中的英文专业名词转化为中文，利用在线新华字典获取所有字符的部首，再利用 Word2Vec架构对部首进行增量训练，得到部首特征表示，然后将部首特征向量与字符特征向量拼接，得到融合部首信息的字符特征。权利要求书1页说明书4页附图2页 CN 114580389 A 2022.06.03 CN 114580389 A 1.一种融合部首信息的医疗领域因果关系抽取方法，其特征在于包括如下步骤：步骤1：数据获取。获取医疗领域文本数据集合D＝{D1,D2...Dn},Di表示第i个文本， 1≤i ≤n,n为集合D中的文本总数；步骤2：对获取的文本数据进行预处理，其基本步骤如下：步骤2.1：去除文本中的停用词、网页标签等，进行分词；步骤2.2：将文本提取成结构化数据，装入数据库；步骤3：将文本数据中的英文专业术语转化为中文，其基本步骤如下：步骤3.1：利用ASCI I码值定位数据集中的英文专业术语；步骤3.2：利用谷歌翻译接口将英文专业术语转化为中文，得到仅含中文字符的数据集；步骤4：部首特征获取，其基本步骤如下：步骤4.1：通过查询在线新华字典，获取数据集中所有字符的部首，对于没有部首的汉字，将字符本身看作词；步骤4.2：将部首看作词，作为Word2Vec架构的输入，对部首进行增量训练，得到部首特征向量表示；步骤5：融合部首信息的医疗领域因果关系抽取，其基本步骤如下：步骤5.1：输入层，对于医疗领域原始文本数据，将句子输入到BERT模型中获取字符级特征，同时将部首输入到W ord2Vec中进行增量训练，得到部首特征表示；步骤5.2：接收字符特征与部首特征，并通过查找嵌入字典输出两个嵌入矩阵，将字符与部首的向量维数设为相同大小，这样，一个中文字符可以由两个向量序列来表示，即字符序列和部首序列；步骤5.3：表示层将字符信息与部首信息结合起来，生成输入文本的全面表示，利用双向长短期记忆网络可以捕获前后上下文信息，捕获双向的语义依赖，考虑将部首特征作为行向量拼接在字符特征之后，将部首信息编码到字符特征向量中，将文本分别通过BERT模型和Word2Vec架构，得到字符特征与部首特征，再将这两种独立的特征向量进行拼接，得到融合部首信息的文本特征向量表示；步骤5.4：将表示层中Bi ‑LSTM的最终隐层状态作为输出，并将其连接形成一个综合表示。然后将其输入到条件随机场模型中，采用Softmax函数作为激活函数，对每个词进行映射得到条件概率；最后，利用BIO序列标注方法对输出文本进行标记，得到最终抽取结果；步骤6：序列标注，用序列标注的方式进行因果关系抽取，需要对句子中的每个单词标记相应的标签， B ‑cause表示原因事件的开始， B ‑effect表示结果事件的开始， I ‑cause表示原因事件的中间词或结尾词， I ‑effect表示结果事件的中间词或结尾词， O标签表示这个词既不属于原因事件也不属于结果事件，对预测层的语句进行概率计算，得到每个字符对应的因果标签，得到因果实体。权　利　要　求　书 1/1 页 2 CN 114580389 A 2一种融合部首信息的医疗领域因果关系抽取方法技术领域 [0001]本发明涉及医疗领域因果关系抽取，尤其涉及一种融合部首信息的医疗领域因果关系抽取方法。背景技术 [0002]目前，医疗领域的信息化建设稳步开展，现代化的医疗信息系统已经积累了海量医疗数据。随着数据的不断积累，利用自然语言处理技术和深度学习的方法挖掘医疗领域文本数据中蕴含的丰富信息，已经成为医学领域和人工智能领域交叉研究的热点。医疗领域文本数据中蕴含着大量医疗活动的记录，包含所患疾病、药物、检查和治疗结果等。这些信息是重要的临床数据，对其进行精确高效地分析和挖掘，能给建立医学知识库、构建临床诊疗系统等提供理论和技术支持。但是，医疗领域文本数据与传统的文本有许多不同的特征，如包含大量英文实体名、语义与部首高度相关等特性，这些特性给因果关系抽取来了新的挑战。此时，就需要一个能融合部首信息、丰富文本语义信息的因果关系抽取方法。 [0003]目前，人们对部首信息的研究主要集中在命名实体识别领域。汉字具有单字可成词的特点，且汉字的偏旁部首往往蕴含着重要的信息。对部首信息的研究主要是通过条件随机场模型、双向长短期记忆网络模型等，获取部首特征，将部首特征融入到字符特征中，实现文本语义信息的丰富，得到融合部首信息的字符特征向量表示。 [0004]对于得到的融合部首信息的字符特征表示，还需将其作为因果关系抽取模型的输入，得到因果关系实体。对于因果关系抽取的研究，常用的方法为基于机器学习的方法和基于深度学习的方法。机器学习的方法首先建模成一个多分类问题，提取特征向量后再使用有监督的分类器进行事件抽取。随着神经网络的火热研究，将神经网络模型应用于因果关系抽取中，可以提高因果关系抽取准确效率。但现有的方法很少考虑到字符的部首特征，导致语义信息获取不够完善，给因果关系抽取模型应用在医疗领域带来风险。本文通过融合部首信息，对医疗领域文本数据进行因果关系抽取，提高因果关系抽取准确率。发明内容 [0005]为了解决上述问题，本发明的目的在于提供一种融合部首信息的医疗领域因果关系抽取方法。 [0006]为了达到上述目的，本发明提供的一种融合部首信息的医疗领域因果关系抽取方法是按以下步骤进行的： [0007]步骤1：数据获取。获取医疗领域文本数据集合D＝{D1,D2...Dn},Di表示第i个文本， 1≤i≤n,n 为集合D中的文本总数； [0008]步骤2：对获取的文本数据进行预处理，其基本步骤如下： [0009]步骤2.1：去除文本中的停用词、网页标签等，进行分词； [0010]步骤2.2：将文本提取成结构化数据，装入数据库； [0011]步骤3：将文本数据中的英文专业术语转化为中文，其基本步骤如下：说　明　书 1/4 页 3 CN 114580389 A 3

专利 一种融合部首信息的医疗领域因果关系抽取方法

专利一种融合部首信息的医疗领域因果关系抽取方法