专利融合事实文本的问句分解式语义解析方法 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210288047.7 (22)申请日 2022.03.23 (71)申请人昆明理工大学地址 650500 云南省昆明市呈贡区景明南路727号 (72)发明人高盛祥　杨玉倩　余正涛　宋燃　 (74)专利代理机构昆明隆合知识产权代理事务所(普通合伙) 53220 专利代理师何娇 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/295(2020.01) G06F 16/2452(2019.01) (54)发明名称融合事实文本的问句分解式语义解析方法 (57)摘要本发明涉及融合事实文本的问句分解式语义解析方法，属于自然语言处理技术领域。本发明包括步骤：分为分解 ‑抽取‑解析三个阶段，首先把复杂问题分解成简单子问题序列，然后抽取原始问题和子问题中的关键信息，最后通过整合以上信息生成结构化查询语句。同时，为了避免在分解过程中实体判断错误或主题实体缺失的情况，又将知识库中的三元组转化成用自然语言描述的事实文本信息，构造事实文本库，采用注意力机制获取更丰富的知识，旨在增强实体的表示信息，减少错误传播。本发明融合了事实文本信息，采用问句分解的方式对复杂问题进行语义解析，提升了问答模型对复杂问题的理解能力，从而解决了知识库问答技术对复杂问题的处理效果不佳的问题。权利要求书2页说明书10页附图2页 CN 114841170 A 2022.08.02 CN 114841170 A 1.融合事实文本的问句分解式语义解析方法，其特征在于：首先，将知识库中的三元组转化成用自然语言描述的事实文本信息，构建了一个事实文本库，采用注意力机制获取更丰富的知识表示作为辅助信息；其次，将复杂问题的语义解析过程分为三个阶段，在第一个问句分解阶段，将复杂问题分解成一系列简单的子问题序列；在第二个信息抽取阶段，对原问题和子问题序列进行信息抽取和整合，获取关键信息；在第三个语义解析阶段，生成相应的结构化查询语句。 2.根据权利要求1所述的融合事实文本的问句分解式语义解析方法，其特征在于：具体步骤如下： Step1、构建了一个事实文本库作为知识来源；在知识库中，信息以三元组的形式存在，包括头实体、关系和尾实体，通过<头实体,关系,尾实体>这样的结构构建了一张图网络；将三元组通过人工设计模版转化成用自然语言描述的句子； Step2、基于Transformer的编码器 ‑解码器框架，在Transformer的基础上利用文本库感知注意力机制融入事实文本信息； Step3、在编码端和解码端都利用了文本库感知注意力机制动态地关注输入序列中的局部信息，让模型在面对当前输入序列时更专注于与事实文本相关联的实体信息或关系信息。 3.根据权利要求2所述的融合事实文本的问句分解式语义解析方法，其特征在于：所述 Step1的具体步骤为： Step1.1、在数据预处理时，首先用斯坦福的命名实体识别工具识别出问句中的实体，得到一个实体集合，以实体集合中的实体作为头实体或尾实体抽取知识库中的三元组； Step1.2、然后根据人工设计模板将三元组表示为事实文本； Step1.3、最后利用BERT将问句和事实文本编码成向量，计算问句和事实文本之间的余弦相似度，选取top ‑n的事实文本句子构建事实文本库。 4.根据权利要求3所述的融合事实文本的问句分解式语义解析方法，其特征在于：所述 Step1.2中：基于Freebase知识库，根据Freebase的数据格式，三元组包含头实体，谓词关系和尾实体，其中谓词关系为三段式，通过分析，只保留谓词关系的第三段，设计了通用模版为 “头实体+谓词关系+is+尾实体 ”生成一句事实文本。 5.根据权利要求2所述的融合事实文本的问句分解式语义解析方法，其特征在于：所述 Step2的具体步骤： Step2.1、在统一的编码器 ‑解码器框架中，其输入是由输入序列i＝{i1,…,i|i|}和附加信息e＝{e1,…,e|e|}两部分组成，输出是目标序列o＝{o1,…,oo}，事实文本集合是F＝ (ft1,…,ftn)。 6.根据权利要求2所述的融合事实文本的问句分解式语义解析方法，其特征在于：所述 Step3的具体步骤为： Step3.1、在编码端，首先使用Transformer的编码器对输入序列i＝{i1,…,i|i|}进行编码得到向量表示hi，对事实文本集合F＝(ft1,…,ftn)中每个事实文本序列进行编码得到向量集合并将其进行拼接，拼接后的向量为hF，然后经过文本库感知注意力机制，权　利　要　求　书 1/2 页 2 CN 114841170 A 2计算输入序列对事实文本序列的注意力向量为h； Step3.2、在解码端， Transformer解码器由Masked Multi‑Head Attention和Encoder ‑ Decoder Attention两大机制组成；在解码端主要做了两处改进： (1)在Encoder ‑Decoder Attention处，用注意力向量h取代原来的输入序列向量hi作为编码器传递到解码器的隐向量，即K＝V＝h， Q＝hV； (2)在解码器中新增了文本库感知注意力机制，输入是事实文本序列的特征向量hF和Encoder ‑Decoder Attention输出的向量henc‑dec，输出是注意力向量 ht‑aware；解码过程遇到 “[BOS]”标签代表解码开始，遇到 “[EOS]”标签代表解码结束；使用了基于文本库感知注意力机制的编解码框架，后续用fenc(·)表示模型的编码过程， fdec(·) 表示模型的解码过程；整个过程表示为： Step3.3、在问句分解模块的学习目标是把复杂问题分解成简单子问题序列：输入为复杂问题q，事实文本集合为F，输出为分解后的子问题序列dq；首先在编码端，对输入q进行编码得到问题嵌入 hi＝fenc1(q)，对事实文本F进行编码后拼接得到事实文本嵌入hF＝fenc1(F)，经过文本库感知注意力机制得到一个注意力向量h＝Att ention(hi,hF)；然后在解码端，接收注意力向量h，并通过文本库感知注意力机制预测分解的表示dq＝fdec1 (h)；在每个时间步，先前的输出右移并送入解码器； Step3.4、在信息抽取模块的学习目标是从原始复杂问题和简单子问题序列中提取语义信息：输入为子问题序列dq，附加信息为分解阶段的隐层嵌入e＝h，事实文本信息为F，输出为语义信息序列ei；首先在编码端，同理得分解嵌入事实文本嵌入注意力向量然后将附加信息和隐向量进行拼接[h, hdq]；最后在解码端，解码语义信息ei ＝fdec2([h,hdq])； Step3.5、在语义解析模块的学习目标是整合信息生成结构化查询语句：输入为语义信息ei，附加信息为前两阶段的隐层嵌入e＝[h,hdq]，事实文本信息为F，输出为结构化查询语句lf；同理得语义表示嵌入事实文本嵌入注意力向量拼接向量[h,hdq,hei]，解码结构化查询语句lf＝fdec3([h, hdq,hei])。权　利　要　求　书 2/2 页 3 CN 114841170 A 3

专利 融合事实文本的问句分解式语义解析方法

专利融合事实文本的问句分解式语义解析方法