(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210215738.4 (22)申请日 2022.03.07 (71)申请人 度小满科技 (北京) 有限公司 地址 100085 北京市海淀区西北旺路10号 院西区4号楼6层6 06 (72)发明人 姜卫卫 杨青  (74)专利代理 机构 北京知帆远景知识产权代理 有限公司 1 1890 专利代理师 刘岩磊 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/30(2020.01) G06F 40/284(2020.01) G06F 40/242(2020.01) G06K 9/62(2022.01) (54)发明名称 一种文本分类方法、 装置、 设备及可读存储 介质 (57)摘要 本发明公开了一种文本 分类方法, 该方法调 用包括掩码语 言模型解码器、 所述语义表征器以 及所述分类器的训练模型, 对其中的语义表征器 以及掩码语言模型解码器分类器进行参数优化 训练, 通过掩码语 言模型解码器训练语义表征能 力, 可以为 分类器部分提供更有效的语义表征向 量, 从而提升了模型的语义表征能力, 这样使得 模型在实际应用中的语义分类数据集上的收敛 速度更快, 保证了训练得到的语义表征器以及掩 码语言模型解码器分类器在具有更强的分类能 力的同时, 又保证了其泛化性, 从而提升了对于 待分类文本的分类效果。 本发明还公开了一种文 本分类装置、 设备及可读存储介质, 具有相应的 技术效果。 权利要求书2页 说明书10页 附图5页 CN 114741503 A 2022.07.12 CN 114741503 A 1.一种文本分类方法, 其特 征在于, 包括: 获取待分类文本的数字序列; 调用语义表征器对所述数字序列进行向量 转化, 生成语义向量; 调用分类 器根据所述语义向量进行语义分类 计算, 得到文本类别; 其中, 所述语义表征器以及所述分类器为根据训练模型进行识别训练得到; 所述训练 模型包括: 掩码 语言模型解码 器、 所述语义表征器以及所述分类器; 所述掩码 语言模型解码 器与所述分类 器并列连接 于所述语义表征器的输出端。 2.根据权利要求1所述的文本分类方法, 其特征在于, 所述语义表征器以及所述分类器 的训练方法, 包括: 对第一样本数据中部分字符进行符号替换后进行数字化转换得到变量样本, 根据 所述 变量样本对所述分类器和所述掩码语言模型解码 器进行联合训练, 得到第一分类器和 第一 掩码语言模型解码 器; 其中, 所述联合训练包括: 对所述分类器的类别预测训练以及 对所述 掩码语言模型解码器的字符预测训练; 根据所述第 一样本数据对所述第 一分类器和所述语义表征器进行参数优化训练, 得到 第二分类 器和第二语义表征器; 根据第二样本数据对所述第二分类 器进行重训练, 得到第三分类 器; 输出所述第三分类 器以及所述第二语义表征器。 3.根据权利要求2所述的文本分类方法, 其特征在于, 所述根据 所述变量样本对所述分 类器和所述掩码语言模型解码器进行 联合训练, 包括: 将所述变量样本 输入至所述训练模型; 获取所述分类 器输出的预测分类, 以及所述掩码语言模型解码器输出的预测序列; 计算所述预测分类与对应的分类标签间的损失, 作为分类损失; 计算所述预测序列 与所述第一样本数据中对应的实际序列间的损失, 作为序列损失; 根据所述分类损失以及所述序列损失对所述分类器和所述掩码语言模型解码器的模 型参数进行优化调整。 4.根据权利要求3所述的文本分类方法, 其特征在于, 所述计算所述预测序列与所述第 一样本数据中对应的实际序列间的损失, 包括: 计算所述预测序列中被替换的字符与所述第一样本数据中对应的实际字符间的损失。 5.根据权利要求2所述的文本分类方法, 其特征在于, 所述根据第 二样本数据对所述第 二分类器进行重训练, 包括: 将所述第二分类 器的模型参数进行随机初始化设置, 得到初始化分类 器; 从样本数据中按比例均衡提取 出各类别对应的数据, 作为所述第二样本数据; 对所述第二样本数据进行 数字化预处 理后输入至所述训练模型; 根据所述分类器输出的预测分类与对应的实际分类间的损失对所述分类器的模型参 数进行优化调整。 6.一种文本分类装置, 其特 征在于, 包括: 序列获取 单元, 用于获取待分类文本的数字序列; 向量转化单元, 用于调用语义表征器对所述数字序列进行向量 转化, 生成语义向量; 语义分类单 元, 用于调用分类 器根据所述语义向量进行语义分类 计算, 得到文本类别;权 利 要 求 书 1/2 页 2 CN 114741503 A 2其中, 所述向量转化单元中调用的所述语义表征器以及所述语义分类单元中调用的所 述分类器为训练单元根据训练模型进 行识别训练得到; 所述训练单元调用的所述训练模型 包括: 掩码 语言模型解码 器、 所述语义表征器以及所述分类器; 所述掩码 语言模型解码器与 所述分类 器并列连接 于所述语义表征器的输出端。 7.根据权利要求6所述的文本分类装置, 其特 征在于, 所述训练单 元包括: 第一训练子单元, 用于对第 一样本数据中部分字符进行符号替换后进行数字化转换得 到变量样本, 根据所述变量样本对所述分类器和所述掩码语言模型解码器进行联合训练, 得到第一分类器和 第一掩码 语言模型解码 器; 其中, 所述联合训练包括: 对所述分类器的类 别预测训练以及对所述掩码语言模型解码器的字符预测训练; 第二训练子单元, 用于根据 所述第一样本数据对所述第 一分类器和所述语义表征器进 行参数优化训练, 得到第二分类 器和第二语义表征器; 第三训练子单元, 用于根据第二样本数据对所述第二分类器进行重训练, 得到第三分 类器; 模型输出子单 元, 用于输出所述第三分类 器以及所述第二语义表征器。 8.根据权利要求7 所述的文本分类装置, 其特 征在于, 所述第一训练子单 元具体包括: 变量输入子单 元, 用于将所述变量样本 输入至所述训练模型; 结果获取子单元, 用于获取所述分类器输出的预测分类, 以及所述掩码语言模型解码 器输出的预测序列; 分类损失计算子单元, 用于计算所述预测分类与对应的分类标签间的损 失, 作为分类 损失; 序列损失计算子单元, 用于计算所述预测序列与 所述第一样本数据中对应的实际序列 间的损失, 作为序列损失; 参数调整子单元, 用于根据 所述分类损失以及所述序列损失对所述分类器和所述掩码 语言模型解码器的模型参数进行优化调整。 9.一种计算机设备, 其特 征在于, 包括: 存储器, 用于存 储计算机程序; 处理器, 用于执行所述计算机程序时实现如权利要求1至5任一项所述文本分类方法的 步骤。 10.一种可读存储介质, 其特征在于, 所述可读存储介质上存储有计算机程序, 所述计 算机程序被处 理器执行时实现如权利要求1至 5任一项所述文本分类方法的步骤。权 利 要 求 书 2/2 页 3 CN 114741503 A 3

.PDF文档 专利 一种文本分类方法、装置、设备及可读存储介质

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种文本分类方法、装置、设备及可读存储介质 第 1 页 专利 一种文本分类方法、装置、设备及可读存储介质 第 2 页 专利 一种文本分类方法、装置、设备及可读存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:46:28上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。