专利文本分类模型的训练及文本分类方法、装置、设备和介质 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210503601.9 (22)申请日 2022.05.09 (71)申请人北京百度网讯科技有限公司地址 100085 北京市海淀区上地十街10号百度大厦二层 (72)发明人苑浩　 (74)专利代理机构北京清亦华知识产权代理事务所(普通合伙) 11201 专利代理师单冠飞 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/30(2020.01) G06K 9/62(2022.01) (54)发明名称文本分类模型的训练及文本分类方法、装置、设备和介质 (57)摘要本公开提供了一种文本分类模型的训练及文本分类方法、装置、设备和介质，涉及深度学习和自然语言处理等领域。具体实现方案为：对获取的多个样本文本进行聚类，得到至少一个目标聚簇；根据各样本文本所属的目标聚簇，生成各样本文本对应的簇标签；采用文本分类模型对各样本文本进行第一类别预测，得到各样本文本的预测标签；根据各样本文本对应的预测标签和簇标签对文本分类模型进行第一训练。由于聚类可捕捉到样本文本中显著的语义特征，通过对多个样本文本进行聚类的方式，来生成各样本文本对应的簇标签，并基于簇标签对文本分类模型进行预训练，可以使得文本分类模型在真实训练之前，有效学习到样本文本中显著的语义信息，提升模型表现和性能。权利要求书4页说明书19页附图6页 CN 114741517 A 2022.07.12 CN 114741517 A 1.一种文本分类模型的训练方法，所述方法包括：获取多个样本文本，并对所述多个样本文本进行聚类，以得到至少一个目标聚簇；根据各所述样本文本所属的目标聚簇，生成各所述样本文本对应的簇标签，其中，所述簇标签用于指示所述样本文本所属的聚簇类别；采用文本分类模型对各所述样本文本进行第一类别预测，得到各所述样本文本对应的预测标签；根据各所述样本文本对应的预测标签和簇标签对所述文本分类模型进行第一训练。 2.根据权利要求1所述的方法，其中，所述对所述多个样本文本进行聚类，以得到至少一个目标聚簇，包括：获取所述多个样本文本之间的相似度；根据所述多个样本文本之间的相似度，对所述多个样本文本进行聚类，以得到至少一个目标聚簇。 3.根据权利要求2所述的方法，其中，所述根据所述多个样本文本之间的相似度，对所述多个样本文本进行聚类，以得到至少一个目标聚簇，包括：根据设定的第一聚簇个数，采用第一聚类算法根据所述多个样本文本之间的相似度对所述多个样本文本进行聚类，以得到所述第一聚簇个数的初始聚簇；确定各所述初始聚簇之间的距离；在各所述初始聚簇之间的距离小于设定的聚簇间距离阈值的情况下，根据所述聚簇间距离阈值，采用第二聚类算法根据所述多个样本文本之间的相似度对所述多个样本文本进行聚类，以得到至少一个目标聚簇。 4.根据权利要求2所述的方法，其中，所述根据所述多个样本文本之间的相似度，对所述多个样本文本进行聚类，以得到至少一个目标聚簇，包括：根据设定的第一聚簇个数，采用第一聚类算法根据所述多个样本文本之间的相似度对所述多个样本文本进行聚类，以得到所述第一聚簇个数的初始聚簇；确定各所述初始聚簇之间的距离；在各所述初始聚簇之间的距离小于设定的聚簇间距离阈值的情况下，对所述第一聚簇个数进行调整；根据调整后的所述第一聚簇个数和所述聚簇间距离阈值，采用所述第一聚类算法再次对所述多个样本文本进行聚类，以得到所述调整后的第一聚簇个数的目标聚簇。 5.根据权利要求1所述的方法，其中，所述方法还包括：采用经过第一训练后的文本分类模型对各所述样本文本进行第二类别预测，得到分类标签；根据各所述样本文本对应的分类标签和标注的真实标签之间的差异，对经过第一训练后的文本分类模型进行第二训练。 6.根据权利要求1所述的方法，其中，在所述获取多个样本文本之后，所述方法还包括：针对所述多个样本文本中的任一样本文本，对所述任一样本文本中的至少一个样本字符进行掩码，以得到掩码后的样本文本；采用所述文本分类模型对所述掩码后的样本文本进行字符预测，以得到预测文本；根据任一样本文本和对应的所述预测文本之间的差异，对所述文本分类模型进行第三权　利　要　求　书 1/4 页 2 CN 114741517 A 2训练。 7.根据权利要求1所述的方法，其中，在所述获取多个样本文本之后，所述方法还包括：针对所述多个样本文本中的任一样本文本，对所述任一样本文本中的至少一个样本字符进行掩码，以得到掩码后的样本文本；采用所述文本分类模型对所述掩码后的样本文本中的掩码字符进行预测，以得到至少一个预测字符；根据所述至少一个样本字符和所述至少一个预测字符之间的差异，对所述文本分类模型进行第三训练。 8.根据权利要求6或7所述的方法，其中，所述采用文本分类模型对各所述样本文本进行第一类别预测，得到各所述样本文本对应的预测标签，包括：采用经过第三训练的文本分类模型对各所述样本文本进行第一类别预测，得到各所述样本文本对应的预测标签。 9.一种文本分类方法，所述方法包括：获取待分类文本；采用经过如权利要求1 ‑8中任一项所述的方法所训练的文本分类模型对所述待分类文本进行分类，得到所述待分类文本的分类标签。 10.一种文本分类模型的训练装置，所述装置包括：获取模块，用于获取多个样本文本；聚类模块，用于对所述多个样本文本进行聚类，以得到至少一个目标聚簇；生成模块，用于根据各所述样本文本所属的目标聚簇，生成各所述样本文本对应的簇标签，其中，所述簇标签用于指示所述样本文本所属的聚簇类别；第一预测模块，用于采用文本分类模型对各所述样本文本进行第一类别预测，得到各所述样本文本对应的预测标签；第一训练模块，用于根据各所述样本文本对应的预测标签和簇标签对所述文本分类模型进行第一训练。 11.根据权利要求10所述的装置，其中，所述聚类模块，具体用于：获取所述多个样本文本之间的相似度；根据所述多个样本文本之间的相似度，对所述多个样本文本进行聚类，以得到至少一个目标聚簇。 12.根据权利要求1 1所述的装置，其中，所述聚类模块，具体用于：根据设定的第一聚簇个数，采用第一聚类算法根据所述多个样本文本之间的相似度对所述多个样本文本进行聚类，以得到所述第一聚簇个数的初始聚簇；确定各所述初始聚簇之间的距离；在各所述初始聚簇之间的距离小于设定的聚簇间距离阈值的情况下，根据所述聚簇间距离阈值，采用第二聚类算法根据所述多个样本文本之间的相似度对所述多个样本文本进行聚类，以得到至少一个目标聚簇。 13.根据权利要求1 1所述的装置，其中，所述聚类模块，具体用于：根据设定的第一聚簇个数，采用第一聚类算法根据所述多个样本文本之间的相似度对所述多个样本文本进行聚类，以得到所述第一聚簇个数的初始聚簇；权　利　要　求　书 2/4 页 3 CN 114741517 A 3

专利 文本分类模型的训练及文本分类方法、装置、设备和介质

专利文本分类模型的训练及文本分类方法、装置、设备和介质