(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210503601.9 (22)申请日 2022.05.09 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦二层 (72)发明人 苑浩  (74)专利代理 机构 北京清亦华知识产权代理事 务所(普通 合伙) 11201 专利代理师 单冠飞 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/30(2020.01) G06K 9/62(2022.01) (54)发明名称 文本分类模型的训练及文本分类方法、 装 置、 设备和介质 (57)摘要 本公开提供了一种文本分类模型的训练及 文本分类方法、 装置、 设备和介质, 涉及深度学习 和自然语言处理等领域。 具体实现方案为: 对获 取的多个样 本文本进行聚类, 得到至少一个目标 聚簇; 根据各样本文本所属的目标聚簇, 生成各 样本文本对应的簇标签; 采用文本分类模型对各 样本文本进行第一类别预测, 得到各样本文本的 预测标签; 根据各样本文本对应的预测标签和簇 标签对文本分类模型进行第一训练。 由于聚类可 捕捉到样 本文本中显著的语义特征, 通过对多个 样本文本进行聚类的方式, 来生成各样本文本对 应的簇标签, 并基于簇标签对文本分类模型进行 预训练, 可以使得文本分类模型在真实训练之 前, 有效学习到样本文本中显著的语义信息, 提 升模型表现和性能。 权利要求书4页 说明书19页 附图6页 CN 114741517 A 2022.07.12 CN 114741517 A 1.一种文本分类模型的训练方法, 所述方法包括: 获取多个样本文本, 并对所述多个样本文本进行聚类, 以得到 至少一个目标聚簇; 根据各所述样本文本所属的目标聚簇, 生成各所述样本文本对应的簇标签, 其中, 所述 簇标签用于指示所述样本文本所属的聚簇类别; 采用文本分类模型对各所述样本文本进行第 一类别预测, 得到各所述样本文本对应的 预测标签; 根据各所述样本文本对应的预测标签和簇标签对所述文本分类模型进行第一训练。 2.根据权利要求1所述的方法, 其中, 所述对所述多个样本文本进行聚类, 以得到至少 一个目标聚簇, 包括: 获取所述多个样本文本之间的相似度; 根据所述多个样本文本之间的相似度, 对所述多个样本文本进行聚类, 以得到至少一 个目标聚簇 。 3.根据权利要求2所述的方法, 其中, 所述根据所述多个样本文本之间的相似度, 对所 述多个样本文本进行聚类, 以得到 至少一个目标聚簇, 包括: 根据设定的第 一聚簇个数, 采用第 一聚类算法根据 所述多个样本文本之间的相似度对 所述多个样本文本进行聚类, 以得到所述第一聚簇个数的初始聚簇; 确定各所述初始聚簇之间的距离; 在各所述初始聚簇之间的距离小于设定的聚簇间距离 阈值的情况下, 根据所述 聚簇间 距离阈值, 采用第二聚类算法根据所述多个样本文本之 间的相似度对所述多个样本文本进 行聚类, 以得到 至少一个目标聚簇 。 4.根据权利要求2所述的方法, 其中, 所述根据所述多个样本文本之间的相似度, 对所 述多个样本文本进行聚类, 以得到 至少一个目标聚簇, 包括: 根据设定的第 一聚簇个数, 采用第 一聚类算法根据 所述多个样本文本之间的相似度对 所述多个样本文本进行聚类, 以得到所述第一聚簇个数的初始聚簇; 确定各所述初始聚簇之间的距离; 在各所述初始聚簇之间的距离小于设定的聚簇间距离 阈值的情况下, 对所述第 一聚簇 个数进行调整; 根据调整后的所述第 一聚簇个数和所述聚簇间距离阈值, 采用所述第 一聚类算法再次 对所述多个样本文本进行聚类, 以得到所述调整后的第一聚簇个数的目标聚簇 。 5.根据权利要求1所述的方法, 其中, 所述方法还 包括: 采用经过第 一训练后的文本分类模型对各所述样本文本进行第 二类别预测, 得到分类 标签; 根据各所述样本文本对应的分类标签和标注的真实标签之间的差异, 对经过第 一训练 后的文本分类模型进行第二训练。 6.根据权利要求1所述的方法, 其中, 在所述获取多个样本文本之后, 所述方法还 包括: 针对所述多个样本文本 中的任一样本文本, 对所述任一样本文本 中的至少一个样本字 符进行掩码, 以得到掩码后的样本文本; 采用所述文本分类模型对所述掩码后的样本文本进行字符预测, 以得到预测文本; 根据任一样本文本和对应的所述预测文本之间的差异, 对所述文本分类模型进行第 三权 利 要 求 书 1/4 页 2 CN 114741517 A 2训练。 7.根据权利要求1所述的方法, 其中, 在所述获取多个样本文本之后, 所述方法还 包括: 针对所述多个样本文本 中的任一样本文本, 对所述任一样本文本 中的至少一个样本字 符进行掩码, 以得到掩码后的样本文本; 采用所述文本分类模型对所述掩码后的样本文本中的掩码字符进行预测, 以得到至少 一个预测字符; 根据所述至少一个样本字符和所述至少一个预测字符之间的差异, 对所述文本分类模 型进行第三训练。 8.根据权利要求6或7所述的方法, 其中, 所述采用文本分类模型对各所述样本文本进 行第一类别预测, 得到各 所述样本文本对应的预测标签, 包括: 采用经过第 三训练的文本分类模型对各所述样本文本进行第 一类别预测, 得到各所述 样本文本对应的预测标签。 9.一种文本分类方法, 所述方法包括: 获取待分类文本; 采用经过如权利要求1 ‑8中任一项所述的方法所训练的文本分类模型对所述待分类文 本进行分类, 得到所述待分类文本的分类标签。 10.一种文本分类模型的训练装置, 所述装置包括: 获取模块, 用于获取多个样本文本; 聚类模块, 用于对所述多个样本文本进行聚类, 以得到 至少一个目标聚簇; 生成模块, 用于根据各所述样本文本所属的目标聚簇, 生成各所述样本文本对应的簇 标签, 其中, 所述簇标签用于指示所述样本文本所属的聚簇类别; 第一预测模块, 用于采用文本分类模型对各所述样本文本进行第一类别预测, 得到各 所述样本文本对应的预测标签; 第一训练模块, 用于根据各所述样本文本对应的预测标签和簇标签对所述文本分类模 型进行第一训练。 11.根据权利要求10所述的装置, 其中, 所述聚类模块, 具体用于: 获取所述多个样本文本之间的相似度; 根据所述多个样本文本之间的相似度, 对所述多个样本文本进行聚类, 以得到至少一 个目标聚簇 。 12.根据权利要求1 1所述的装置, 其中, 所述聚类模块, 具体用于: 根据设定的第 一聚簇个数, 采用第 一聚类算法根据 所述多个样本文本之间的相似度对 所述多个样本文本进行聚类, 以得到所述第一聚簇个数的初始聚簇; 确定各所述初始聚簇之间的距离; 在各所述初始聚簇之间的距离小于设定的聚簇间距离 阈值的情况下, 根据所述 聚簇间 距离阈值, 采用第二聚类算法根据所述多个样本文本之 间的相似度对所述多个样本文本进 行聚类, 以得到 至少一个目标聚簇 。 13.根据权利要求1 1所述的装置, 其中, 所述聚类模块, 具体用于: 根据设定的第 一聚簇个数, 采用第 一聚类算法根据 所述多个样本文本之间的相似度对 所述多个样本文本进行聚类, 以得到所述第一聚簇个数的初始聚簇;权 利 要 求 书 2/4 页 3 CN 114741517 A 3

.PDF文档 专利 文本分类模型的训练及文本分类方法、装置、设备和介质

文档预览
中文文档 30 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共30页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文本分类模型的训练及文本分类方法、装置、设备和介质 第 1 页 专利 文本分类模型的训练及文本分类方法、装置、设备和介质 第 2 页 专利 文本分类模型的训练及文本分类方法、装置、设备和介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:50:59上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。