(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210469691.4
(22)申请日 2022.04.28
(71)申请人 华中师范大学
地址 430079 湖北省武汉市洪山区珞 瑜路
152号
(72)发明人 董石 唐家玉 陶雪云 王志锋
田元 陈加 陈迪 左明章
(74)专利代理 机构 武汉科皓知识产权代理事务
所(特殊普通 合伙) 42222
专利代理师 罗飞
(51)Int.Cl.
G06F 40/289(2020.01)
G06F 40/30(2020.01)
G06F 16/35(2019.01)
G06N 3/08(2006.01)
(54)发明名称
一种自然语言文本和数学语言文本的混合
词嵌入方法
(57)摘要
本发明提供了一种自然语言文本和数学语
言文本的混合词嵌入方法, 包括: 对混合文本进
行识别和预处理, 得到由文本和数学表达式组成
的数学资源 数据集; 对具有树形结构的数学表达
式进行位置编码, 保持树形结构的相对位置平移
不变; 对具有线性结构特征的文本和具有树形结
构特征的数学表达式进行统一位置编码; 将相对
位置编码送入 预训练模型的注 意力模块, 采用掩
蔽语言模型和下句预测两个标准预训练任务对
数学资源进行预训练, 预训练完成后, 每个符号
均可得到富含上 下文信息的嵌入向量表示。
权利要求书3页 说明书9页 附图3页
CN 114818698 A
2022.07.29
CN 114818698 A
1.一种自然语言文本和数 学语言文本的混合词嵌入方法, 其特 征在于, 包括:
S1: 对包含自然语言文本和数学语言文本的学习资源进行预处理, 得到数学资源数据
集, 其中, 数学语言文本为具有树形结构的数学表达式, 自然语 言文本为具有线性序列特征
的上下文;
S2: 对具有树形结构的数学表达式采用基于分支的位置编码方式进行绝对位置编码,
并根据绝对位置编码结果计算 树形结构中两个节点的相对位置编码;
S3: 对具有线性序列特征的上下文采用负整数位置编码, 并使用补码表示, 然后将树形
结构的根节点作为线性序列的首节点, 实现数学表达式和上下文的统一位置编码, 再根据
统一位置编码计算 树形结构和线性序列中任意两个节点的相对位置编码;
S4: 将步骤S1得到的数学资源数据 集输入BERT预训练模型, 其中, BERT预训练模型具有
位置编码模块和注意力模块, 将步骤S3中得到的统一位置编码输入位置编码模块、 将步骤
S3计算出的树形结构和线性序列中任意两个节点的相 对位置编码送入BERT预训练模型的
注意力模块进 行训练, 采用掩蔽语言模型和下句预测两个标准预训任务对 数学资源进 行预
训练, 得到训练好的词嵌入 模型;
S5: 利用训练好的词嵌入模型对自然语言文本和数学语言文本进行处理, 得到最终混
合词嵌入表达 。
2.如权利要求1所述的自然语言文本和数学语言文本的混合词嵌入方法, 其特征在于,
步骤S1对 包含自然语言文本和数 学语言文本的学习资源进行 预处理包括:
对将包含自然语言文本和数学语言文本的学习资源处理为符号序列, 其中, 数学表达
式为LaTeX格式, 数学资源数据集为数学资源集合, 表示为L={L1, L2,…, Li,…,LN’}, Li表示
第i个数学资源。
3.如权利要求2所述的自然语言文本和数学语言文本的混合词嵌入方法, 其特征在于,
对将包含自然语言文本和数 学语言文本的学习资源处 理为符号序列, 包括:
利用im2markup分词工具L aTeX格式的数学表达式进行分词, 得到数学表达式分词结果
的符号序列, 利用TangenS工具, 将LaTeX格式的数学表达式转化为运算符OPT树, 对OPT树进
行深度优先遍历, 得到数学表达式树形结构遍历结果的符号序列, 其中, 第i个数学资源的
第j个数学表达式, 表示为
表示第j个数学表达式经
LaTeX格式分词后的第n ’个符号,
表示第j个数学表达式的OPT树经深度优先遍历得到的
第k个符号, 每个数学资源由自然语言文本和数学表达式组成, 其中自然语言文本为数学表
达式的上下文, 数学表达式Mi,j的上下文 为Ci,j={tz|tz∈Li,|z‑pij|≤R}, 其中tz表示第z个
自然语言单词, pij是数学表达式Mi,j作为一个整体在序列中的位置, R最大为64;
根据自然语言和数学表达式的符号表达形式得到每个数学资源的表达, 其中第i个数
学资源, 表示 为:
NT是自然语言文本总长度;
当数学表达式Mi,j由多个连等式或不等式构成时, 以等号和不等号为标志切分为
根据每个数学资源的表达得到数学 资源数据集, 作为预训练模型数据集
其中权 利 要 求 书 1/3 页
2
CN 114818698 A
2i为学习资源序号, j为数 学表达式编号, w 为子表达式编号。
4.如权利要求1所述的自然语言文本和数学语言文本的混合词嵌入方法, 其特征在于,
S2在进行绝对位置编码时, 引入位移操作, 数 学表达式为N叉树, 定义根节点 为
对后
续任意一个子节点, 编码方式如下:
S2.1: 对所有分支的子节点用one hot编码表示, one hot编码共有N个比特位, 对于第r
个分支的子节点, 则one hot编码从右往左的第r个比特位为1, 其余比特位为0; S2.2: 将父
节点的位置编码左移 N位后加上该分支子节点的one hot编码, 则为该分支节 点的最终绝对
位置编码, 最终表达式树中任意节点表示为
其中, n为节点
的绝对位置编码, Dn
为绝对位置编码的十进制表示,
为Dn的二进制编码长度, 在计算树中节点的相对位置
时, 采用如下 方法:
其中, PE表示相对位置计算函数, T表 示tree,
表示数学表达式树中节 点
和
节点
的相对位置计算函数, Dm为节点
的绝对编码值,
为Dm的二进制编码长
度, <<表示左移运 算符。
5.如权利要求1所述的自然语言文本和数学语言文本的混合词嵌入方法, 其特征在于,
步骤S3包括:
对于具有线性序列特征的自然语言文本, 进行相对位置编码, 其中, 单词之间的相对位
置定义为绝对位置的差值, 表示为
a和b表示绝对位置,
表示第两个单词
的相对位置计算函数, 其中, 采用的相对位置编码方式为用负整 数编码线性序列的位置, 且
线性序列位置编码的长度为LS=nT×lT, nT表示树形结构的最大分叉树, lT表示树形结构的
最大层数, 并用补码表示负整数;
将树形结构的根节点作为线性序列的首节点, 实现两种结构的统一位置编码, 其中, 统
一位置编码中相对位置的计算如下 所示:
其中,
表示任意两节点
和
之间的相对位置计算函数,
表示线性
序列中的节点
和节点
之间的相对位置计算函数, S表示sequence,
表示树
形结构中的节点
和节点
之间的相对位置计算函数,
表示线性序列中的节点
和根节点 之间的相对 位置计算函数,
表示根节点和树形结构中的节点
之间
的相对位置计算函数,
表示树形结构中的节点
和根节点之间的相对位置计算函
数,
表示根节点和线性序列中的节点
之间的相对位置计算 函数。权 利 要 求 书 2/3 页
3
CN 114818698 A
3
专利 一种自然语言文本和数学语言文本的混合词嵌入方法
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:47:15上传分享