(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210469626.1 (22)申请日 2022.04.28 (71)申请人 华中师范大学 地址 430079 湖北省武汉市洪山区珞喻路 152号 (72)发明人 刘智 孔维政 彭晛 杨宗凯  刘三女牙   (74)专利代理 机构 武汉天力专利事务所 42 208 专利代理师 吴晓颖 (51)Int.Cl. G06N 20/00(2019.01) G06N 5/04(2006.01) G06F 40/216(2020.01) G06F 40/289(2020.01) G06F 40/30(2020.01)G06F 40/58(2020.01) (54)发明名称 一种基于双重特征和半监督学习的认知投 入追踪方法 (57)摘要 本发明涉及自然语 言处理、 教育数据挖掘领 域, 提供一种基于双重特征和半监督学习的认知 投入追踪方法, 包括采集、 清洗在线学习平台中 学习者的讨论文本数据, 并标记其中10% ‑40% 的讨论文本数据; 对未标记的讨论数据做文本增 强操作, 获得增强的无标记文本数据; 提取所有 讨论文本 数据的BERT语义和LIWC认知双重 特征; 将每一条讨论文本的双重特征进行融合, 获得融 合后的新特征; 使用带有双重特征的文本数据训 练认知投入追踪模型。 本发明方法从认知和语义 两个方面捕获讨论文本特征, 同时使用少量的标 注文本数据和大量的无标注文本数据训练认知 投入追踪模 型, 有效地帮助教师掌握学习者的认 知投入水平。 权利要求书2页 说明书4页 附图1页 CN 114936647 A 2022.08.23 CN 114936647 A 1.一种基于双重特 征和半监 督学习的认知投入 追踪方法, 其特 征在于, 包括以下步骤: (1)采集并清洗在线学习 平台中学习者的讨论文本数据, 标记其中10% ‑40%的讨论文 本数据作为带 标签的文本数据; (2)对未标记的讨论数据做文本增强操作, 获得增强的无标记文本数据, 完成标记数据 集、 无标记数据集以及增强的无 标记数据集的构建; (3)提取标记数据集、 无标记数据集以及增强的无标记数据集中所有讨论文本数据的 BERT语义和L IWC认知双重特征; (4)将每一条讨论文本的双重特 征进行融合, 获得融合后的新特 征; (5)使用带有双重特征的标记数据集、 无标记数据集以及增强的无标记数据集训练认 知投入追踪模型。 2.按照权利要求1所述的基于双重特征和半监督学习的认知投入追踪方法, 其特征在 于步骤(1)中采集、 清洗和标记数据的具体包括: (1‑1)通过爬虫、 或在线学习平台后台数据获取 方式获取初始的讨论文本数据; (1‑2)通过正则匹配的方式清洗初始讨论文本数据中的HTML标签、 无关字符, 同时进行 繁体字简化、 剔除停用词操作; (1‑3)通过人工标注的方式标注所有数据中的10% ‑40%的数据。 3.按照权利要求1所述的基于双重特征和半监督学习的认知投入追踪方法, 其特征在 于步骤(2)中所述的 “文本增强操作 ”具体包括: (2‑1)以英语作为中间语言, 对每条未标记的讨 论文本进行 “中—英—中 ”的反向翻 译, 获得与未 标记文本相同语义的文本数据; (2‑2)对反向翻译后的每条文本数据先进行分词, 得到分好词的文本表示X={x1, x2,…,xN}, 其中xi表示文本中第i个位置的单词, N表 示文本中单词的个数; 然后计算出文本 中每个词被替换的概率 其中p为超参数, TFIDF (xi)为第i个词的TFIDF值, maxiTFIDF(xi)为句子X中最大的TFIDF值; 在每条文本数据中, 对 文本中的每个词按照其对应的替换概率T进行抽样, 以确 定该词是否进行TF ‑IDF非核心词 替换; (2‑3)把所有经过反向翻译的文本进行分词, 以分词结果构建一个替换字典, 字典中每 个词被抽取的频率为 对句子中需要进行TF ‑IDF非核心词 替换的词, 从字典中按照概率p(w)抽取一个词进行替换, 最 终得到增强的无标记文本数据, 其中, 每条 无标记文本对应一条增强的无 标记文本数据。 4.按照权利要求1所述的基于双重特征和半监督学习的认知投入追踪方法, 其特征在 于步骤(3)中提取讨论文本双重特 征的方法具体包括: (3‑1)提取BERT语义特征: 将所有数据集中的每条讨论文本输入到基于中文预料预训 练的BERT模 型中, 选取最后一层输出序列中第一个向量作为讨论文本的语义特征表 示, 即: Ebert={e1,e2,…,en}, 其中, n 为BERT模型中隐藏层的维度; (3‑2)提取LIWC认知 特征: 将所有数据 集中的每条讨 论文本输入到LIWC认知词典中, 根 据如下公式计算每条讨论文本的L IWC认知特 征ELIWC={e1,e2,…,em}权 利 要 求 书 1/2 页 2 CN 114936647 A 2其中, s为第s种L IWC认知特 征, Dics为其对应的字典。 5.按照权利要求1所述的基于双重特征和半监督学习的认知投入追踪方法, 其特征在 于步骤(4)中 融合讨论文本双重特 征的方法具体包括: 将BERT语义特征Ebert和LIWC认知特征ELIWC线性拼接, 生成长度为m+n的中间融合特征EBL ={e1,…,en,…,em+n}, 然后将该中间融合特征按照如下公式输入到线性连接层, 再经过 Tanh激活函数, 输出最终融合特 征Econ={e1,e2,…,ek} Econ=Tanh(W1·EBL+b1) 其中, W1为线性连接层的权重矩阵, b1表示线性连接层的偏置, k是经过特征融合的输出 特征Econ的维度。 6.按照权利要求1所述的基于双重特征和半监督学习的认知投入追踪方法, 其特征在 于步骤(5)中讨论文本的认知投入 追踪模型的训练过程包括: (5‑1)将所有讨论文本的融合特征分别放入到全连接层中, 在全连接层的输出后接 softmax激活函数, 得到每条讨论文本对应的认知投入分布; (5‑2)依据不同的数据集做不同的计算 对于标记数据集, 按照如下公式计算标记数据和对应标签之间的损失函数: LossSupervised=‑∑ylogpl 其中, y为标记数据的标签, pl是标记数据的认知投入分布; 对于无标记数据集和增强的无标记数据集, 需要先将增强的无标记数据的认知投入分 布进行锐化, 之后按照如下公式计算无 标记数据和对应的增强的无 标记数据的损失函数: 其中, pu是无标记数据的认知投入分布, 是增强的无标记数据经过锐化的认知 投入分布; 最终将两个损失函数按照如下公式计算出目标函数: LossFinal=LossSupervised+λLossConsistency 其中, λ是超参数, 用于控制无 标记数据对 模型参数的影响; (5‑3)通过最小化目标函数来更新认知投入追踪模型的参数, 以完成认知投入追踪模 型的训练。权 利 要 求 书 2/2 页 3 CN 114936647 A 3

.PDF文档 专利 一种基于双重特征和半监督学习的认知投入追踪方法

文档预览
中文文档 8 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于双重特征和半监督学习的认知投入追踪方法 第 1 页 专利 一种基于双重特征和半监督学习的认知投入追踪方法 第 2 页 专利 一种基于双重特征和半监督学习的认知投入追踪方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:45:00上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。