(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210282873.0
(22)申请日 2022.03.22
(71)申请人 中国平安人寿保险股份有限公司
地址 518000 广东省深圳市福田区福田街
道益田路5033号平安金融中心14、 15、
16、 37、 41、 4 4、 45、 46、 54、 58、 59层
(72)发明人 陆凯
(74)专利代理 机构 广州嘉权专利商标事务所有
限公司 4 4205
专利代理师 廖慧贤
(51)Int.Cl.
G06F 16/35(2019.01)
G06F 40/284(2020.01)
G06F 40/30(2020.01)
G06K 9/62(2022.01)G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
文本分类方法和装置、 电子设备、 存 储介质
(57)摘要
本申请实施例提供一种文本分类方法和装
置、 电子设备、 存储介质, 属于人工智能技术领
域。 包括: 获取待分类文本; 根据字形查询模型对
待分类文本进行字形查询处理, 得到字形图像列
表; 根据发音查询模型对待分类文本进行发音查
询处理, 得到声母列表、 韵 母列表和声调列表; 对
待分类文本、 字形图像列表、 声母列表、 韵 母列表
和声调列表进行向量化处理, 得到文本向量、 字
形图像向量、 声母向量、 韵 母向量和声调向量; 将
上述向量合并得到混合语义向量, 根据混合语义
向量确定待分类文本的分类结果。 本申请实施例
通过引入字 形、 声母、 韵 母、 声调等特征来对待分
类文本进行分类, 从而提高了对音似字、 形似字
和语义近似等敏感信息 变体识别的准确度。
权利要求书2页 说明书14页 附图4页
CN 114625877 A
2022.06.14
CN 114625877 A
1.一种文本分类方法, 其特 征在于, 包括:
获取待分类文本;
根据预设的字形查询模型对所述待分类文本进行字形查询处理, 得到所述待分类文本
对应的字形图像列表;
根据预设的发音查询模型对所述待分类文本进行发音查询处理, 得到所述待分类文本
对应的声母列表、 韵母列表和声调列表;
对所述字形图像列表进行向量 化处理, 得到所述字形图像列表对应的字形图像向量;
对所述待分类文本、 所述声母列表、 所述韵母列表和所述声调列表进行向量化处理, 得
到所述待分类文本对应的文本 向量、 所述声母列表对应的声母向量、 所述韵母列表对应的
韵母向量和所述声调列表对应的声调向量;
将所述文本向量、 所述字形图像向量、 所述声母向量、 所述韵母向量和所述声调向量合
并得到混合语义向量;
根据所述混合语义向量确定所述待分类文本的分类结果, 所述分类结果用于表征所述
待分类文本是否为敏感文本 。
2.根据权利要求1所述的文本分类方法, 其特征在于, 所述根据 预设的字形查询模型对
所述待分类文本进行字形查询处 理, 得到所述待分类文本对应的字形图像列表, 包括:
将所述待分类文本切分为多个字符;
根据预设的字形查询模型对所述字符进行字形查询处理, 得到所述字符对应的字形图
像;
根据多个所述字符的字形图像得到所述待分类文本对应的字形图像列表。
3.根据权利要求1所述的文本分类方法, 其特征在于, 所述根据 预设的发音查询模型对
所述待分类文本进行发音查询处理, 得到所述待分类文本对应的声母列表、 韵母列表和声
调列表, 包括:
将所述待分类文本切分为多个字符;
根据预设的发音查询模型对所述字符进行发音查询处理, 得到所述字符对应的声母、
韵母和声调;
根据多个所述字符的声母得到所述待分类文本对应的声母列表, 根据多个所述字符的
韵母得到所述待分类文本对应的韵母列 表, 根据多个所述字符的声调得到所述待分类文本
对应的声调列表。
4.根据权利要求1所述的文本分类方法, 其特征在于, 所述对所述字形图像列表进行向
量化处理, 得到所述字形图像列表对应的字形图像向量, 包括:
通过第一神经网络对所述字形图像列表进行特征提取处理, 得到所述待分类文本对应
的字形图像 语义列表;
对所述字形图像语义列表进行向量化处理, 得到所述字形图像列表对应的字形图像向
量。
5.根据权利要求1至4任一项所述的文本分类方法, 其特征在于, 所述将所述文本向量、
所述字形图像向量、 所述声母向量、 所述韵母向量和所述声调向量合并得到 混合语义向量,
包括:
将所述文本向量、 所述字形图像向量、 所述声母向量、 所述韵母向量和所述声调向量合权 利 要 求 书 1/2 页
2
CN 114625877 A
2并得到混合向量;
通过第二神经网络对所述混合向量进行 特征提取处 理, 得到混合语义向量。
6.根据权利要求5所述的文本分类方法, 其特征在于, 所述将所述文本向量、 所述字形
图像向量、 所述声母向量、 所述韵母向量和所述声调向量 合并得到混合向量, 包括:
计算所述待分类文本对应的位置列表;
对所述位置列表进行向量 化处理, 得到所述待分类文本对应的位置向量;
将所述文本向量、 所述字形图像向量、 所述声母向量、 所述韵母向量、 所述声调向量和
所述位置向量 合并得到混合向量。
7.根据权利要求6所述的文本分类方法, 其特征在于, 所述计算所述待分类文本对应的
位置列表, 包括:
将所述待分类文本切分为多个字符;
获取多个所述字符在所述待分类文本 中的位置索引, 根据 所述位置索引得到所述待分
类文本对应的位置列表。
8.一种文本分类装置, 其特 征在于, 包括:
第一获取模块, 用于获取待分类文本;
第一处理模块, 用于根据预设的字形查询模型对所述待分类文本进行字形查询处理,
得到所述待分类文本对应的字形图像列表;
第二处理模块, 用于根据预设的发音查询模型对所述待分类文本进行发音查询处理,
得到所述待分类文本对应的声母列表、 韵母列表和声调列表;
第三处理模块, 用于对所述字形图像列表进行向量化处理, 得到所述字形图像列表对
应的字形图像向量, 对所述待分类文本、 所述声母列 表、 所述韵母列表和所述声调列表进 行
向量化处理, 得到所述待分类文本对应的文本向量、 所述声母列 表对应的声母向量、 所述韵
母列表对应的韵母向量和所述声调列表对应的声调向量;
第四处理模块, 用于将所述文本向量、 所述字形图像向量、 所述声母向量、 所述韵母向
量和所述声调向量 合并得到混合语义向量;
文本分类模块, 根据所述混合语义向量确定所述待分类文本的分类结果, 所述分类结
果用于表征 所述待分类文本是否为敏感文本 。
9.一种电子设备, 其特 征在于, 包括:
至少一个存 储器;
至少一个处 理器;
至少一个程序;
所述程序被存 储在所述存 储器中, 处 理器执行所述至少一个程序以实现:
如权利要求1至7任一项所述的文本分类方法。
10.一种存储介质, 所述存储介质为计算机可读存储介质, 其特征在于, 所述计算机可
读存储介质存 储有计算机可 执行指令, 所述计算机可 执行指令用于使计算机执 行:
如权利要求1至7任一项所述的文本分类方法。权 利 要 求 书 2/2 页
3
CN 114625877 A
3
专利 文本分类方法和装置、电子设备、存储介质
文档预览
中文文档
21 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:50:58上传分享