国家标准网
文库搜索
切换导航
首页
频道
仅15元无限下载
联系我们
首页
仅15元无限下载
联系我们
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210284704.0 (22)申请日 2022.03.22 (71)申请人 中国平安人寿保险股份有限公司 地址 518000 广东省深圳市福田区福田街 道益田路5033号平安金融中心14、 15、 16、 37、 41、 4 4、 45、 46、 54、 58、 59层 (72)发明人 陆凯 (74)专利代理 机构 广州嘉权专利商标事务所有 限公司 4 4205 专利代理师 黄达荣 (51)Int.Cl. G06K 9/62(2022.01) G06F 40/284(2020.01) G06F 40/30(2020.01) G06F 16/35(2019.01) (54)发明名称 文本分类方法、 装置、 计算机设备和计算机 可读存储介质 (57)摘要 本发明涉及人工智能技术领域, 提供一种文 本分类方法、 装置、 计算机设备和计算机可读存 储介质, 文本分类方法包括获取关键词列表, 其 中, 所述关键词列表包括多个与文本分类任务相 关的关键词; 获取待分类文本; 根据所述关键词 列表对所述待分类文本进行关键词匹配, 生成对 应的第一特征列表; 获取预先训练至收敛状态的 文本分类模型; 基于所述文本分类模型, 对所述 关键词列表、 所述待分类文本和所述第一特征列 表进行处理, 得到预测概率 分布, 其中, 所述预测 概率分布包括多个预设分类标签的概率; 根据所 述预测概率分布确定所述待分类文本的文本类 型, 能够达到更强的语义表达能力, 提高文本分 类的准确性。 权利要求书2页 说明书12页 附图5页 CN 114781485 A 2022.07.22 CN 114781485 A 1.一种文本分类方法, 其特 征在于, 包括: 获取关键词列表, 其中, 所述关键词列表包括多个与文本分类任务相关的关键词; 获取待分类文本; 根据所述关键词列表对所述待分类文本进行关键词匹配, 生成对应的第一特 征列表; 获取预先训练至收敛状态的文本分类模型; 基于所述文本分类模型, 对所述关键词列表、 所述待分类文本和所述第一特征列表进 行处理, 得到预测概 率分布, 其中, 所述预测概 率分布包括多个预设 分类标签的概 率; 根据所述预测概 率分布确定所述待分类文本的文本类型。 2.根据权利要求1所述的文本分类方法, 其特征在于, 所述根据 所述关键词列表对所述 待分类文本进行关键词匹配, 生成对应的第一特 征列表, 包括: 根据所述关键词列表生成与所述关键词列表长度一 致的第一特 征列表; 根据所述关键词列表中的关键词对所述待分类文本进行匹配; 若存在匹配成功 的关键词, 确定匹配成功 的关键词在所述关键词列表的第一位置, 根 据所述第一位置在所述第一特征列 表中确定对应的第二位置, 将所述第二位置的特征设为 第一预设值, 否则设为第二预设值。 3.根据权利要求1所述的文本分类方法, 其特征在于, 所述文本分类模型通过以下步骤 训练得到: 获取所述文本分类任务的训练集, 其中, 所述训练集包括多条携带有预设分类标签的 原始语料; 根据所述关键词列表对每条所述原始语料进行关键词匹配, 生成对应的第二特征列 表; 根据所述关键词列表、 每条所述原始语料和对应的第 二特征列表训练所述文本分类模 型, 直至所述文本分类模型达 到收敛状态。 4.根据权利要求1所述的文本分类方法, 其特征在于, 所述对所述关键词列表、 所述待 分类文本和所述第一特 征列表进行处 理, 得到预测概 率分布, 包括: 对所述第一特 征列表进行线性回归计算得到第一预测结果; 根据所述关键词列表和所述第一特 征列表计算得到第二预测结果; 对所述待分类文本进行语义分析 得到第三预测结果; 根据所述第 一预测结果、 所述第 二预测结果和所述第 三预测结果计算得到预测概率分 布。 5.根据权利要求4所述的文本分类方法, 其特征在于, 所述关键词由多个字组成, 所述 根据所述关键词列表和所述第一特 征列表计算得到第二预测结果, 包括: 对所述关键词进行处 理得到每 个字的第一字向量; 根据多个所述第一字向量计算得到对应的关键词的关键词 词向量; 根据所述关键词列表中每个关键词的关键词词向量和所述第一特征列表计算得到第 二预测结果。 6.根据权利要求5所述的文本分类方法, 其特征在于, 所述根据多个所述第 一字向量计 算得到对应的关键词的关键词 词向量, 包括: 根据所述关键词中的每 个字和多个所述第一字向量计算得到每 个字的第二字向量;权 利 要 求 书 1/2 页 2 CN 114781485 A 2确定所述关键词的词长度, 根据多个所述第 二字向量和所述词长度计算得到关键词词 向量。 7.根据权利要求4所述的文本分类方法, 其特征在于, 所述对所述待分类文本进行语义 分析得到第三预测结果, 包括: 对所述待分类文本进行处 理得到每 个字的第三字向量; 根据多个所述第三字向量计算得到所述待分类文本的文本语义向量; 根据所述文本语义向量和所述文本分类模型预设的第一模型参数计算得到第三预测 结果。 8.一种文本分类装置, 其特 征在于, 包括: 第一获取模块, 用于获取关键词列表, 其中, 所述关键词列表包括多个与文本分类任务 相关的关键词; 第二获取模块, 用于获取待分类文本; 匹配模块, 用于根据所述关键词列表对所述待分类文本进行关键词 匹配, 生成对应的 第一特征列表; 第三获取模块, 用于获取 预先训练至收敛状态的文本分类模型; 预测概率模块, 用于基于所述文本分类模型, 对所述关键词列表、 所述待分类文本和所 述第一特征列表进 行处理, 得到预测概率分布, 其中, 所述预测概率分布包括多个预设分类 标签的概 率; 分类模块, 用于根据所述预测概 率分布确定所述待分类文本的文本类型。 9.一种计算机设备, 其特征在于, 包括: 存储器、 处理器及存储在所述存储器上并可在 所述处理器上运行的计算机程序, 所述处理器执行所述计算机程序时实现如权利要求 1至7 中任意一项所述的文本分类方法。 10.一种计算机可读存储介质, 其特征在于, 存储有计算机可执行指令, 所述计算机可 执行指令用于执 行如权利要求1至7中任意 一项所述的文本分类方法。权 利 要 求 书 2/2 页 3 CN 114781485 A 3
专利 文本分类方法、装置、计算机设备和计算机可读存储介质
文档预览
中文文档
20 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 17:50:57
上传分享
举报
下载
原文档
(767.8 KB)
分享
友情链接
GB-T 43267-2023 道路车辆 预期功能安全.pdf
GB-T 40857-2021 汽车网关信息安全技术要求及试验方法.pdf
GB-T 43848-2024 网络安全技术 软件产品开源代码安全评价方法.pdf
信通院 量子信息技术发展与应用研究报告-2020年.pdf
GB-T 32918.2-2016 信息安全技术 SM2椭圆曲线公钥密码算法 第2部分:数字签名算法.pdf
T-CQJR 001—2022 绿色金融数字化平台建设指南.pdf
DB14-T 2255—2021 《机关事务标准体系总体框架》 山西省.pdf
GB-T 37697-2019 露天煤矿边坡变形监测技术规范.pdf
商用密码应用安全性测评机构能力评审实施细则(试行).pdf
GB-T 14272-2021 羽绒服装.pdf
DB51-T 3121-2023 电子政务外网技术规范 四川省.pdf
T-CSIA 014—2023 开放式景区消防安全评估导则.pdf
GB-T 31999-2015 光伏发电系统接入配电网特性评价技术规范.pdf
GB-T 10802-2006 通用软质聚醚型聚氨酯泡沫塑料.pdf
GB-T 20491-2017 用于水泥和混凝土中的钢渣粉.pdf
GB-T 40148-2021 科技评估基本术语.pdf
H3C防火墙安全配置基线.doc
T-EGAG 021—2023 政务信息化项目验收测评服务规范.pdf
GM-T 0046-2016 金融数据密码机检测规范.pdf
GA-T 460.1-2020 居民身份证卡体材料及打印薄膜技术规范 第1部分:制卡用垫平层白色PETG薄膜.pdf
1
/
3
20
评价文档
赞助2.5元 点击下载(767.8 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
点击进入官方售后微信群
支付 完成后 如未跳转 点击这里下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。