国家标准网
文库搜索
切换导航
首页
频道
仅15元无限下载
联系我们
首页
仅15元无限下载
联系我们
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210503601.9 (22)申请日 2022.05.09 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦二层 (72)发明人 苑浩 (74)专利代理 机构 北京清亦华知识产权代理事 务所(普通 合伙) 11201 专利代理师 单冠飞 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/30(2020.01) G06K 9/62(2022.01) (54)发明名称 文本分类模型的训练及文本分类方法、 装 置、 设备和介质 (57)摘要 本公开提供了一种文本分类模型的训练及 文本分类方法、 装置、 设备和介质, 涉及深度学习 和自然语言处理等领域。 具体实现方案为: 对获 取的多个样 本文本进行聚类, 得到至少一个目标 聚簇; 根据各样本文本所属的目标聚簇, 生成各 样本文本对应的簇标签; 采用文本分类模型对各 样本文本进行第一类别预测, 得到各样本文本的 预测标签; 根据各样本文本对应的预测标签和簇 标签对文本分类模型进行第一训练。 由于聚类可 捕捉到样 本文本中显著的语义特征, 通过对多个 样本文本进行聚类的方式, 来生成各样本文本对 应的簇标签, 并基于簇标签对文本分类模型进行 预训练, 可以使得文本分类模型在真实训练之 前, 有效学习到样本文本中显著的语义信息, 提 升模型表现和性能。 权利要求书4页 说明书19页 附图6页 CN 114741517 A 2022.07.12 CN 114741517 A 1.一种文本分类模型的训练方法, 所述方法包括: 获取多个样本文本, 并对所述多个样本文本进行聚类, 以得到 至少一个目标聚簇; 根据各所述样本文本所属的目标聚簇, 生成各所述样本文本对应的簇标签, 其中, 所述 簇标签用于指示所述样本文本所属的聚簇类别; 采用文本分类模型对各所述样本文本进行第 一类别预测, 得到各所述样本文本对应的 预测标签; 根据各所述样本文本对应的预测标签和簇标签对所述文本分类模型进行第一训练。 2.根据权利要求1所述的方法, 其中, 所述对所述多个样本文本进行聚类, 以得到至少 一个目标聚簇, 包括: 获取所述多个样本文本之间的相似度; 根据所述多个样本文本之间的相似度, 对所述多个样本文本进行聚类, 以得到至少一 个目标聚簇 。 3.根据权利要求2所述的方法, 其中, 所述根据所述多个样本文本之间的相似度, 对所 述多个样本文本进行聚类, 以得到 至少一个目标聚簇, 包括: 根据设定的第 一聚簇个数, 采用第 一聚类算法根据 所述多个样本文本之间的相似度对 所述多个样本文本进行聚类, 以得到所述第一聚簇个数的初始聚簇; 确定各所述初始聚簇之间的距离; 在各所述初始聚簇之间的距离小于设定的聚簇间距离 阈值的情况下, 根据所述 聚簇间 距离阈值, 采用第二聚类算法根据所述多个样本文本之 间的相似度对所述多个样本文本进 行聚类, 以得到 至少一个目标聚簇 。 4.根据权利要求2所述的方法, 其中, 所述根据所述多个样本文本之间的相似度, 对所 述多个样本文本进行聚类, 以得到 至少一个目标聚簇, 包括: 根据设定的第 一聚簇个数, 采用第 一聚类算法根据 所述多个样本文本之间的相似度对 所述多个样本文本进行聚类, 以得到所述第一聚簇个数的初始聚簇; 确定各所述初始聚簇之间的距离; 在各所述初始聚簇之间的距离小于设定的聚簇间距离 阈值的情况下, 对所述第 一聚簇 个数进行调整; 根据调整后的所述第 一聚簇个数和所述聚簇间距离阈值, 采用所述第 一聚类算法再次 对所述多个样本文本进行聚类, 以得到所述调整后的第一聚簇个数的目标聚簇 。 5.根据权利要求1所述的方法, 其中, 所述方法还 包括: 采用经过第 一训练后的文本分类模型对各所述样本文本进行第 二类别预测, 得到分类 标签; 根据各所述样本文本对应的分类标签和标注的真实标签之间的差异, 对经过第 一训练 后的文本分类模型进行第二训练。 6.根据权利要求1所述的方法, 其中, 在所述获取多个样本文本之后, 所述方法还 包括: 针对所述多个样本文本 中的任一样本文本, 对所述任一样本文本 中的至少一个样本字 符进行掩码, 以得到掩码后的样本文本; 采用所述文本分类模型对所述掩码后的样本文本进行字符预测, 以得到预测文本; 根据任一样本文本和对应的所述预测文本之间的差异, 对所述文本分类模型进行第 三权 利 要 求 书 1/4 页 2 CN 114741517 A 2训练。 7.根据权利要求1所述的方法, 其中, 在所述获取多个样本文本之后, 所述方法还 包括: 针对所述多个样本文本 中的任一样本文本, 对所述任一样本文本 中的至少一个样本字 符进行掩码, 以得到掩码后的样本文本; 采用所述文本分类模型对所述掩码后的样本文本中的掩码字符进行预测, 以得到至少 一个预测字符; 根据所述至少一个样本字符和所述至少一个预测字符之间的差异, 对所述文本分类模 型进行第三训练。 8.根据权利要求6或7所述的方法, 其中, 所述采用文本分类模型对各所述样本文本进 行第一类别预测, 得到各 所述样本文本对应的预测标签, 包括: 采用经过第 三训练的文本分类模型对各所述样本文本进行第 一类别预测, 得到各所述 样本文本对应的预测标签。 9.一种文本分类方法, 所述方法包括: 获取待分类文本; 采用经过如权利要求1 ‑8中任一项所述的方法所训练的文本分类模型对所述待分类文 本进行分类, 得到所述待分类文本的分类标签。 10.一种文本分类模型的训练装置, 所述装置包括: 获取模块, 用于获取多个样本文本; 聚类模块, 用于对所述多个样本文本进行聚类, 以得到 至少一个目标聚簇; 生成模块, 用于根据各所述样本文本所属的目标聚簇, 生成各所述样本文本对应的簇 标签, 其中, 所述簇标签用于指示所述样本文本所属的聚簇类别; 第一预测模块, 用于采用文本分类模型对各所述样本文本进行第一类别预测, 得到各 所述样本文本对应的预测标签; 第一训练模块, 用于根据各所述样本文本对应的预测标签和簇标签对所述文本分类模 型进行第一训练。 11.根据权利要求10所述的装置, 其中, 所述聚类模块, 具体用于: 获取所述多个样本文本之间的相似度; 根据所述多个样本文本之间的相似度, 对所述多个样本文本进行聚类, 以得到至少一 个目标聚簇 。 12.根据权利要求1 1所述的装置, 其中, 所述聚类模块, 具体用于: 根据设定的第 一聚簇个数, 采用第 一聚类算法根据 所述多个样本文本之间的相似度对 所述多个样本文本进行聚类, 以得到所述第一聚簇个数的初始聚簇; 确定各所述初始聚簇之间的距离; 在各所述初始聚簇之间的距离小于设定的聚簇间距离 阈值的情况下, 根据所述 聚簇间 距离阈值, 采用第二聚类算法根据所述多个样本文本之 间的相似度对所述多个样本文本进 行聚类, 以得到 至少一个目标聚簇 。 13.根据权利要求1 1所述的装置, 其中, 所述聚类模块, 具体用于: 根据设定的第 一聚簇个数, 采用第 一聚类算法根据 所述多个样本文本之间的相似度对 所述多个样本文本进行聚类, 以得到所述第一聚簇个数的初始聚簇;权 利 要 求 书 2/4 页 3 CN 114741517 A 3
专利 文本分类模型的训练及文本分类方法、装置、设备和介质
文档预览
中文文档
30 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共30页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 17:50:59
上传分享
举报
下载
原文档
(1.2 MB)
分享
友情链接
DL-T 920-2019 六氟化硫气体中空气、四氟化碳、六氟乙烷和八氟丙烷的测定 气相色谱法.pdf
SN-T 0761.1-2011 进出口危险品打火机检验规程.pdf
DB11-T 948.13-2013 电梯运行安全监测信息管理系统技术规范 第13部分:平台维护要求 北京市.pdf
GBT 50064-2014 交流电气装置的过电压保护和绝缘配合设计规范.pdf
中兴 通讯数据中心液冷技术白皮书 2022 .pdf
GB-Z 40846-2021 工程咨询 基本术语.pdf
GB-T 31487.2-2015 直流融冰装置 第2部分:晶闸管阀.pdf
GB-T 37953-2019 信息安全技术 工业控制网络监测安全技术要求及测试评价方法.pdf
GB-T 43748-2024 微束分析 透射电子显微术 集成电路芯片中功能薄膜层厚度的测定方法.pdf
GB-T 446-2023 全精炼石蜡.pdf
DevSecOps 企业实践白皮书 freebuf 2020版.pdf
GB-T 27011-2019 合格评定 认可机构要求.pdf
蚂蚁集团 图数据库选型方法 问题 方法与工具.pdf
GB-T 26510-2011 防水用塑性体改性沥青.pdf
GB-T 36629.3-2018 信息安全技术 公民网络电子身份标识安全技术要求 第3部分:验证服务消息及其处理规则.pdf
DB22-T 2054.1-2014 牛养殖保险查勘定损技术规范 第1部分:奶牛 吉林省.pdf
DB65-T 4529—2022 三相异步电动机节能监测 新疆维吾尔自治区.pdf
GB-T 20984-2022 信息安全技术 信息安全风险评估方法.pdf
T-ZJAF 13.6—2023 公共视频资源 第 6 部分:运维服务要求.pdf
汽车数据安全管理若干规定(试行).pdf
1
/
3
30
评价文档
赞助2.5元 点击下载(1.2 MB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
点击进入官方售后微信群
支付 完成后 如未跳转 点击这里下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。