(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 20221046976 0.1
(22)申请日 2022.04.28
(71)申请人 华中师范大学
地址 430079 湖北省武汉市洪山区珞 瑜路
152号
(72)发明人 董石 唐家玉 陶雪云 田元
夏丹 闵秋莎 左明章
(74)专利代理 机构 武汉科皓知识产权代理事务
所(特殊普通 合伙) 42222
专利代理师 罗飞
(51)Int.Cl.
G06F 16/35(2019.01)
G06F 40/30(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种数学文本的语义分类方法
(57)摘要
本发明提供了一种数学文本的语义分类方
法。 首先根据高等数学教材的层级结构, 从中提
取出数学文本数据集, 然后利用BERT预训练模型
得到数据集的词嵌入表达, 分别对 具有线性序列
特征的自然语言文本词向量和具有树形结构特
征的数学语言文本词向量采用平均聚合方法和
Tree‑LSTM聚合方法, 再对两个聚合向量进行拼
接处理, 最后将拼接向量送入多层前馈神经网
络, 采用Hierachical Softmax回归模型输出分
类结果。 本发 明的方法可以大大提高数学文本的
分类精度。
权利要求书2页 说明书6页 附图2页
CN 114756682 A
2022.07.15
CN 114756682 A
1.一种数 学文本的语义分类方法, 其特 征在于, 包括:
S1: 对获取的数 学资源进行 标注, 得到数 学文本数据集, 并划分出训练数据集;
S2: 通过BERT预训练模型得到数学文本数据集中的数学文本的词嵌入向量, 其 中, 数学
文本的词嵌入向量包括具有线性结构特征的自然语言文本词嵌入向量以及具有树形结构
特征的数学表达式的词嵌入向量;
S3: 构建数学文本的语义分类模型, 语义分类模型包括聚合模块、 拼接模块、 多层前馈
神经网络和分层Softmax回归模型, 其中, 聚合模块用于对自然语 言文本词嵌入向量采用直
接平均聚合的方法得到文本聚合向量、 对数学表达式的词嵌入向量采用树型长 短期记忆网
络的方法进行聚合得到数学表达式聚合向量, 拼接模块用于对文本聚合向量和数学表达式
聚合向量进行拼接, 得到数学文本的嵌入矢量, 多层前馈神经网络和分层Softmax回归模 型
用于根据数 学文本的嵌入矢量进行语义分类;
S4: 利用训练数据集对数学文本的语义分类模型进行训练, 得到训练好的语义分类模
型;
S5: 利用训练好的语义分类模型进行 数学文本的语义分类。
2.如权利要求1所述的数 学文本的语义分类方法, 其特 征在于, 步骤S1包括:
选取高等数学教材及其习题解析, 历年研究生入学考试数学试题及其解析作为数学资
源, 并采用人工标注的方式进行标注, 数学资源为Z, 抽取n个知识属性作为标签, 得到标签
集合L={l1,…,ln}, l1,…,ln分别表示第1个和第n个标签。
3.如权利要求2所述的数学文本的语义分类方法, 其特征在于, 在对获取的数学资源进
行标注之后, 所述方法还 包括: 对标注好的数 学资源进行 预处理, 具体包括:
定义数学资源中第i个数 学表达式为Mi, 去除字符串长度小于阈值的数 学表达式;
定义数学表达式Mi的上下文为Ci={tk|tk∈Z,|k‑pi|≤R}, 其中tk表示第k个自然语言
单词, pi为数学表达式Mi作为一个整体在序列中的位置, R最大为64; 当Mi由多个连等式或者
多个不等式共同构成时, 则以等号和不等号为标志, 将Mi进一步切分为子表达式
使数
学表达式
最多包含一个等号或不等号, 得到数据集
其中i表示数学表达
式序号, w代 表子表达式编号, j为标签编号。
4.如权利要求1所述的数学文本的语义分类方法, 其特征在于, 聚合模块对自然语言文
本词嵌入向量采用直接平均聚合的方法得到文本聚合向量的方式为:
其中,
代表第n’个词tn通过BERT预训练模型得到的词嵌入向量,
代表自然语言文
本Ci的聚合向量, Ci={t1,…,tn'}表示具有线性序列特征的自然语言文本, 即表达式的上下
文, t1表示自然语言文本中的第一个词, tn'表示自然语言文本中的第n ’个词。
5.如权利要求1所述的数学文本的语义分类方法, 其特征在于, 对于具有树形结构特征
的表达式
首先将
转换为表达式树, 其中, 表 达树中的每一个节点表示一个操作符或
操作数, 聚合模块对数学表达式的词嵌入向量采用子树和树型长短期记忆网络进 行聚合得
到数学表达式聚合向量, 包括:
对于表达式树的任意节点mp, S(mp)表示其子节点集合, 根据下式得到节点mp的聚合向权 利 要 求 书 1/2 页
2
CN 114756682 A
2量:
其中tree_lst m代表子树和树型长短期记忆网络Child ‑SUM Tree‑LSTMs的一个运算模
块,
代表节点mp通过BERT预训练模型得到的词嵌入向量, p和q表示节点编号,
代表mp
的子节点mq的聚合向量,
代表节点mp的聚合向量;
根据节点mp的聚合向量得到数学表达式树的根节点聚合向量, 作为整 个数学表达式
的聚合向量, 记为
权 利 要 求 书 2/2 页
3
CN 114756682 A
3
专利 一种数学文本的语义分类方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:46:23上传分享