专利一种数学文本的语义分类方法 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 20221046976 0.1 (22)申请日 2022.04.28 (71)申请人华中师范大学地址 430079 湖北省武汉市洪山区珞瑜路 152号 (72)发明人董石　唐家玉　陶雪云　田元　夏丹　闵秋莎　左明章　 (74)专利代理机构武汉科皓知识产权代理事务所(特殊普通合伙) 42222 专利代理师罗飞 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种数学文本的语义分类方法 (57)摘要本发明提供了一种数学文本的语义分类方法。首先根据高等数学教材的层级结构，从中提取出数学文本数据集，然后利用BERT预训练模型得到数据集的词嵌入表达，分别对具有线性序列特征的自然语言文本词向量和具有树形结构特征的数学语言文本词向量采用平均聚合方法和 Tree‑LSTM聚合方法，再对两个聚合向量进行拼接处理，最后将拼接向量送入多层前馈神经网络，采用Hierachical Softmax回归模型输出分类结果。本发明的方法可以大大提高数学文本的分类精度。权利要求书2页说明书6页附图2页 CN 114756682 A 2022.07.15 CN 114756682 A 1.一种数学文本的语义分类方法，其特征在于，包括： S1：对获取的数学资源进行标注，得到数学文本数据集，并划分出训练数据集； S2：通过BERT预训练模型得到数学文本数据集中的数学文本的词嵌入向量，其中，数学文本的词嵌入向量包括具有线性结构特征的自然语言文本词嵌入向量以及具有树形结构特征的数学表达式的词嵌入向量； S3：构建数学文本的语义分类模型，语义分类模型包括聚合模块、拼接模块、多层前馈神经网络和分层Softmax回归模型，其中，聚合模块用于对自然语言文本词嵌入向量采用直接平均聚合的方法得到文本聚合向量、对数学表达式的词嵌入向量采用树型长短期记忆网络的方法进行聚合得到数学表达式聚合向量，拼接模块用于对文本聚合向量和数学表达式聚合向量进行拼接，得到数学文本的嵌入矢量，多层前馈神经网络和分层Softmax回归模型用于根据数学文本的嵌入矢量进行语义分类； S4：利用训练数据集对数学文本的语义分类模型进行训练，得到训练好的语义分类模型； S5：利用训练好的语义分类模型进行数学文本的语义分类。 2.如权利要求1所述的数学文本的语义分类方法，其特征在于，步骤S1包括：选取高等数学教材及其习题解析，历年研究生入学考试数学试题及其解析作为数学资源，并采用人工标注的方式进行标注，数学资源为Z，抽取n个知识属性作为标签，得到标签集合L＝{l1,…,ln}， l1,…,ln分别表示第1个和第n个标签。 3.如权利要求2所述的数学文本的语义分类方法，其特征在于，在对获取的数学资源进行标注之后，所述方法还包括：对标注好的数学资源进行预处理，具体包括：定义数学资源中第i个数学表达式为Mi，去除字符串长度小于阈值的数学表达式；定义数学表达式Mi的上下文为Ci＝{tk|tk∈Z,|k‑pi|≤R}，其中tk表示第k个自然语言单词， pi为数学表达式Mi作为一个整体在序列中的位置， R最大为64；当Mi由多个连等式或者多个不等式共同构成时，则以等号和不等号为标志，将Mi进一步切分为子表达式使数学表达式最多包含一个等号或不等号，得到数据集其中i表示数学表达式序号， w代表子表达式编号， j为标签编号。 4.如权利要求1所述的数学文本的语义分类方法，其特征在于，聚合模块对自然语言文本词嵌入向量采用直接平均聚合的方法得到文本聚合向量的方式为：其中，代表第n’个词tn通过BERT预训练模型得到的词嵌入向量，代表自然语言文本Ci的聚合向量， Ci＝{t1,…,tn'}表示具有线性序列特征的自然语言文本，即表达式的上下文， t1表示自然语言文本中的第一个词， tn'表示自然语言文本中的第n ’个词。 5.如权利要求1所述的数学文本的语义分类方法，其特征在于，对于具有树形结构特征的表达式首先将转换为表达式树，其中，表达树中的每一个节点表示一个操作符或操作数，聚合模块对数学表达式的词嵌入向量采用子树和树型长短期记忆网络进行聚合得到数学表达式聚合向量，包括：对于表达式树的任意节点mp， S(mp)表示其子节点集合，根据下式得到节点mp的聚合向权　利　要　求　书 1/2 页 2 CN 114756682 A 2量：其中tree_lst m代表子树和树型长短期记忆网络Child ‑SUM Tree‑LSTMs的一个运算模块，代表节点mp通过BERT预训练模型得到的词嵌入向量， p和q表示节点编号，代表mp 的子节点mq的聚合向量，代表节点mp的聚合向量；根据节点mp的聚合向量得到数学表达式树的根节点聚合向量，作为整个数学表达式的聚合向量，记为权　利　要　求　书 2/2 页 3 CN 114756682 A 3

专利 一种数学文本的语义分类方法

专利一种数学文本的语义分类方法