(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210252076.8 (22)申请日 2022.03.15 (71)申请人 西南交通大 学 地址 610031 四川省成 都市金牛区二环路 北一段 (72)发明人 张海柱 黎荣 丁国富 王淑营  马自立 江磊  (74)专利代理 机构 成都海成知识产权代理事务 所(普通合伙) 51357 专利代理师 庞启成 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/332(2019.01) G06F 16/35(2019.01) G06F 40/211(2020.01)G06F 40/289(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) (54)发明名称 一种高速列车问题查询模板生成方法 (57)摘要 本发明涉及一种高速列车问题查询模板生 成方法。 该方法首先对用户输入的用户问句进行 分词以及停词, 将用户问句转换为相关词的词序 列, 对词序列分别进行句型特征、 用户特征以及 词向量特征的提取以及融合, 并将三个特征融合 而成的向量作为用户问句的特征总向量输入到 分类模型进行问题方向的预测, 输出语义方向标 签。 将输出的语义方向标签与模板库进行匹配, 当匹配到相应的模板库后提取出模板库内的问 句模板; 然后将用户问句作句法分析和词性标 注, 得到用户问句的词性句法分析树, 将其与提 取出来的问句模板进行相似度匹配, 并将相似度 最大的问句模板所对应的查询模板作为原问句 的查询模板, 实现查询映射。 权利要求书3页 说明书11页 附图2页 CN 114579710 A 2022.06.03 CN 114579710 A 1.一种高速列车问题查询模板生成方法, 其特征在于, 包括问题浅度判定和问题深度 判定; 所述问题浅度判定包括如下步骤: 步骤S11: 分词及停词; 将用户问句输入jieba分词器进行分词处理; 其中, 将预先构建 好的词典输入分词器中完成领域专有名词的识别; 将分词后的分词序列输入到停词表中, 如果某一词在停词表内, 则将其视为非核心词去除, 保留用户问句的主要成分形成用于特 征提取的词序列; 所述预先构建好的词典包括: 从高速列车领域知识图谱中导出所有实体 形成的实体词典; 手工构建实体的相关 同义词形成的同义词词典; 从高速列车领域知识图 谱中导出 所有本体标签形成的本体标签词典; 步骤S12: 特征提取及融合; 将步骤S11中获得的词序列 转化为词向量特征、 句型特征以 及用户特征三方面的特征词向量形式并将其融合为特征总向量; 其中, 词向量特征表示问 句词语级的特征, 由预训练词向量得来; 句型特征表示问句句子结构的特征, 由词 序列的词 性序列得来; 用户特 征表示用户级的特 征, 由用户信息、 用户日志得来; 步骤S13: 将用户问句转换为特征总向量的形式后, 将特征总向量输入到分类模型里进 行问题类别预测, 最终输出用户问句的语义方向标签; 其中, 分类模型选用svm支持向量机; 所述问题深度判定包括如下步骤: 步骤S21: 构建问句模板以及查询模板以形成与语义方向标签对应的模板库; 其中, 问 句模板用于匹配用户问句深层语义, 查询模板用于实现查询映射; 步骤S22: 匹配模板库; 将步骤S13中输出的语义方向标签用作模板库匹配的依据, 当匹 配到储存有相同语义方向标签的模板库后, 输出模板库中所有的问句模板用于用户问句匹 配; 步骤S23: 句法分析及词性标注; 对用户问句做句法分析得到句法分析结果, 然后再对 用户问句做词性标注得到词性序列, 替换句法分析结果中非实体节点为对应词性标签, 替 换实体节点 为对应本体, 得到用户问句的词性句法分析树; 步骤S24: 问句模板 匹配; 将步骤S23中得到的用户问句的词性句法分析树与 步骤S22中 提取的问句模板依次进行相似度匹配, 将相似度最大的问句模板作为用户问句所匹配上的 对象; 步骤S25: 查询映射; 将步骤S24中匹配到的相似度最大的问句模板对应的查询模板提 取出来, 将其作为用户问句的查询模板, 实现查询的转换。 2.如权利要求1所述的一种高速列车问题查询模板生成方法, 其特征在于, 所述步骤 S12具体包括如下步骤: 步骤S121: 将预训练词向量导入分词、 停词后形成的词序列中, 并将词序列中每个词的 预训练词向量加权平均后得 出用户问句的词向量特 征w_vector(A), 其计算公式如下: 式中: A为分词、 停词后的词序列; w_vector(A)为A的词向量特征; i为A的序列长度; n表 示词向量的维度; Asn表示A中第s个词的词向量第n个位置的数值; 步骤S122: 采用ltp词性标注工具对用户问句做词性标注后由词性替换用户问句中的权 利 要 求 书 1/3 页 2 CN 114579710 A 2词语得到 问句的词性序列, 将词性序列代入句型词典中进行匹配, 根据匹配到的索引确定 问句的句型向量, 如果在句型词典中无匹配项, 则在句型向量最后一位之后补位并置1, 得 到用户问句的句型 特征s_vector(A), 其计算公式如下: 式中: A为分词、 停词后的词序列; s_vector(A)为A的句型特征; pos(A)代表A词性标注 的结果; dict代表句型词典; n代表句型词典的长度; dict(n)代表词典中最后一个句型; 代表已成功匹配并舍弃 该补位; 步骤S123: 根据用户信息、 用户日志获取用户特征u_vector(A); 其中, 用户信息来源于 用户身份, 以用户身份的个数作为特征向量 维度; 用户日志由问题类别数作为向量 维度, 以 用户是否 搜索过某类问题作为数值; 步骤S124: 特征融合; 采用直接拼接的方式将词向量特征、 句型特征以及用户特征融合 成特征总向量, 其计算公式如下: vector(A)=(w_vector(A),s_vector(A),u_vector(A) ) 式中: A代表 分词、 停词后的词序列; w_vector(A)为A的词向量特征; s_vector(A)为A的 句型特征; u_vector(A)为A的用户特 征; vector(A)为A的特 征总向量。 3.如权利要求2所述的一种高速列车问题查询模板生成方法, 其特征在于, 所述步骤 S21包括: 步骤S211: 句 法分析; 利用哈工大ltp句 法分析工具对训练问句进行句 法分析操作, 将 训练问句输入到ltp句法分析工具当中, 并输出 该训练问句中各词语间的句法关系; 步骤S212: 词性标注; 利用哈工大ltp词性标注工具对训练问句进行词性标注操作, 将 训练问句 输入到ltp词性标注工具当中, 并输出训练问句每个词对应的词性标签组成的词 性序列; 步骤S213: 实体去除; 将训练问句的句法分析结果中属于实体的词语替换成其在知识 图谱中对应的本体, 将非实体词替换成其词性标注结果中对应的词性标签, 形成词性句法 分析树, 得到问句模板; 步骤S214: 实体抽取; 为训练问句补充上相对应的知识图谱中的答案, 并且依据实体抽 取识别出训练问句以及其对应答案中的实体; 步骤S215: 构建查询图; 将步骤S214中问句实体以及答案实体用作知识图谱检索的条 件, 检索出在知识图谱中包含两个实体的最小连通图, 将该最小连通图作为该条训练语句 的查询图; 步骤S216: 实体去除; 将步骤S215中查询图中的问句实体节点依据其实体类型变为可 替换的变量节点, 实体类型包括结构实体、 故障实体、 原因实体、 维修方法实体以及本体标 签; 将答案实体节点 替换成其在 知识图谱中对应本体, 得到训练问句对应的查询模板 。 4.如权利要求3所述的一种高速列车问题查询模板生成方法, 其特征在于, 所述步骤 S23具体包括: 步骤S231: 用户问句的句法分析; 利用哈工大ltp句法分析工具对用户问句进行句法分 析操作, 将用户问句输入到ltp句法分析工具当中, 并输出该用户问句中各词语间的句法关 系;权 利 要 求 书 2/3 页 3 CN 114579710 A 3

.PDF文档 专利 一种高速列车问题查询模板生成方法

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种高速列车问题查询模板生成方法 第 1 页 专利 一种高速列车问题查询模板生成方法 第 2 页 专利 一种高速列车问题查询模板生成方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:47:52上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。