(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210284704.0 (22)申请日 2022.03.22 (71)申请人 中国平安人寿保险股份有限公司 地址 518000 广东省深圳市福田区福田街 道益田路5033号平安金融中心14、 15、 16、 37、 41、 4 4、 45、 46、 54、 58、 59层 (72)发明人 陆凯  (74)专利代理 机构 广州嘉权专利商标事务所有 限公司 4 4205 专利代理师 黄达荣 (51)Int.Cl. G06K 9/62(2022.01) G06F 40/284(2020.01) G06F 40/30(2020.01) G06F 16/35(2019.01) (54)发明名称 文本分类方法、 装置、 计算机设备和计算机 可读存储介质 (57)摘要 本发明涉及人工智能技术领域, 提供一种文 本分类方法、 装置、 计算机设备和计算机可读存 储介质, 文本分类方法包括获取关键词列表, 其 中, 所述关键词列表包括多个与文本分类任务相 关的关键词; 获取待分类文本; 根据所述关键词 列表对所述待分类文本进行关键词匹配, 生成对 应的第一特征列表; 获取预先训练至收敛状态的 文本分类模型; 基于所述文本分类模型, 对所述 关键词列表、 所述待分类文本和所述第一特征列 表进行处理, 得到预测概率 分布, 其中, 所述预测 概率分布包括多个预设分类标签的概率; 根据所 述预测概率分布确定所述待分类文本的文本类 型, 能够达到更强的语义表达能力, 提高文本分 类的准确性。 权利要求书2页 说明书12页 附图5页 CN 114781485 A 2022.07.22 CN 114781485 A 1.一种文本分类方法, 其特 征在于, 包括: 获取关键词列表, 其中, 所述关键词列表包括多个与文本分类任务相关的关键词; 获取待分类文本; 根据所述关键词列表对所述待分类文本进行关键词匹配, 生成对应的第一特 征列表; 获取预先训练至收敛状态的文本分类模型; 基于所述文本分类模型, 对所述关键词列表、 所述待分类文本和所述第一特征列表进 行处理, 得到预测概 率分布, 其中, 所述预测概 率分布包括多个预设 分类标签的概 率; 根据所述预测概 率分布确定所述待分类文本的文本类型。 2.根据权利要求1所述的文本分类方法, 其特征在于, 所述根据 所述关键词列表对所述 待分类文本进行关键词匹配, 生成对应的第一特 征列表, 包括: 根据所述关键词列表生成与所述关键词列表长度一 致的第一特 征列表; 根据所述关键词列表中的关键词对所述待分类文本进行匹配; 若存在匹配成功 的关键词, 确定匹配成功 的关键词在所述关键词列表的第一位置, 根 据所述第一位置在所述第一特征列 表中确定对应的第二位置, 将所述第二位置的特征设为 第一预设值, 否则设为第二预设值。 3.根据权利要求1所述的文本分类方法, 其特征在于, 所述文本分类模型通过以下步骤 训练得到: 获取所述文本分类任务的训练集, 其中, 所述训练集包括多条携带有预设分类标签的 原始语料; 根据所述关键词列表对每条所述原始语料进行关键词匹配, 生成对应的第二特征列 表; 根据所述关键词列表、 每条所述原始语料和对应的第 二特征列表训练所述文本分类模 型, 直至所述文本分类模型达 到收敛状态。 4.根据权利要求1所述的文本分类方法, 其特征在于, 所述对所述关键词列表、 所述待 分类文本和所述第一特 征列表进行处 理, 得到预测概 率分布, 包括: 对所述第一特 征列表进行线性回归计算得到第一预测结果; 根据所述关键词列表和所述第一特 征列表计算得到第二预测结果; 对所述待分类文本进行语义分析 得到第三预测结果; 根据所述第 一预测结果、 所述第 二预测结果和所述第 三预测结果计算得到预测概率分 布。 5.根据权利要求4所述的文本分类方法, 其特征在于, 所述关键词由多个字组成, 所述 根据所述关键词列表和所述第一特 征列表计算得到第二预测结果, 包括: 对所述关键词进行处 理得到每 个字的第一字向量; 根据多个所述第一字向量计算得到对应的关键词的关键词 词向量; 根据所述关键词列表中每个关键词的关键词词向量和所述第一特征列表计算得到第 二预测结果。 6.根据权利要求5所述的文本分类方法, 其特征在于, 所述根据多个所述第 一字向量计 算得到对应的关键词的关键词 词向量, 包括: 根据所述关键词中的每 个字和多个所述第一字向量计算得到每 个字的第二字向量;权 利 要 求 书 1/2 页 2 CN 114781485 A 2确定所述关键词的词长度, 根据多个所述第 二字向量和所述词长度计算得到关键词词 向量。 7.根据权利要求4所述的文本分类方法, 其特征在于, 所述对所述待分类文本进行语义 分析得到第三预测结果, 包括: 对所述待分类文本进行处 理得到每 个字的第三字向量; 根据多个所述第三字向量计算得到所述待分类文本的文本语义向量; 根据所述文本语义向量和所述文本分类模型预设的第一模型参数计算得到第三预测 结果。 8.一种文本分类装置, 其特 征在于, 包括: 第一获取模块, 用于获取关键词列表, 其中, 所述关键词列表包括多个与文本分类任务 相关的关键词; 第二获取模块, 用于获取待分类文本; 匹配模块, 用于根据所述关键词列表对所述待分类文本进行关键词 匹配, 生成对应的 第一特征列表; 第三获取模块, 用于获取 预先训练至收敛状态的文本分类模型; 预测概率模块, 用于基于所述文本分类模型, 对所述关键词列表、 所述待分类文本和所 述第一特征列表进 行处理, 得到预测概率分布, 其中, 所述预测概率分布包括多个预设分类 标签的概 率; 分类模块, 用于根据所述预测概 率分布确定所述待分类文本的文本类型。 9.一种计算机设备, 其特征在于, 包括: 存储器、 处理器及存储在所述存储器上并可在 所述处理器上运行的计算机程序, 所述处理器执行所述计算机程序时实现如权利要求 1至7 中任意一项所述的文本分类方法。 10.一种计算机可读存储介质, 其特征在于, 存储有计算机可执行指令, 所述计算机可 执行指令用于执 行如权利要求1至7中任意 一项所述的文本分类方法。权 利 要 求 书 2/2 页 3 CN 114781485 A 3

.PDF文档 专利 文本分类方法、装置、计算机设备和计算机可读存储介质

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文本分类方法、装置、计算机设备和计算机可读存储介质 第 1 页 专利 文本分类方法、装置、计算机设备和计算机可读存储介质 第 2 页 专利 文本分类方法、装置、计算机设备和计算机可读存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:50:57上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。