(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210399801.4
(22)申请日 2022.04.15
(71)申请人 上海创蓝云智 信息科技股份有限公
司
地址 200000 上海市松江区广富林东路19 9
号4幢9-12层
(72)发明人 张艳芳 代素侠 徐浩钧
(74)专利代理 机构 成都智言知识产权代理有限
公司 51282
专利代理师 胡文莉
(51)Int.Cl.
G06F 40/289(2020.01)
G06F 40/284(2020.01)
G06F 16/35(2019.01)
G06F 40/186(2020.01)G06F 40/242(2020.01)
G06F 40/30(2020.01)
G06N 20/00(2019.01)
(54)发明名称
基于短信文本内容识别的标准数据构建方
法、 设备及 介质
(57)摘要
本发明涉及文本信息识别技术领域,尤其是
一种基于短信文本内容识别的标准数据构建方
法、 设备及介质, 包括以下步骤: S1准备训练样
本; S2通过jieba分词对短信文本签名进行分词,
然后把词转换成embedding词向量; S3通过
fasttex方法进行短信文本分类, 把短信文本进
行行业分类, 选择被判断概率最大的行业作为它
的首选行业; S4抽取特定行业短信文本模版, 语
义分析后进行关键词提取的规则归纳; S5通过关
键词提取的规则归纳进行关键词提取, 与公开的
专有名词映射表进行匹配校准, 得到最终提取的
结果。 本发明通过先对短信签名进行行业分类,
再根据不同行业进行不同短信文本内容的特征
分析及规则提取, 极大提升 工作效率。
权利要求书1页 说明书5页 附图2页
CN 114692629 A
2022.07.01
CN 114692629 A
1.一种基于短信文本内容识别的标准数据构建方法, 其特 征在于, 包括以下步骤:
S1.随机抽取已知行业类别的X个短信文本签名作为训练样本;
S2.通过jieba分词对短信文本签名进行分词, 然后把词转换成embedding词向量, 即得
到每条短信文本签名的向量表达式;
S3.通过fasttex方法进行短信文本分类, 把短信文本进行行业分类, 选择被判断概率
最大的行业作为它的首选行业;
S4.抽取特定行业短信文本模版, 语义分析后进行关键词提取的规则归纳;
S5.通过关键词提取的规则归纳进行关键词提取, 与公开的专有名词映射表进行匹配
校准, 得到最终提取的结果。
2.根据权利要求1所述的一种基于短信文本内容识别的标准数据构建方法, 其特征在
于, S1的具体方法如下: 随机抽取已知行业类别多个 短信文本签名作为训练样本, 根据短信
发送的场景和公司类型以及行业经验将短信文本分为若干个大类和若干个小类, 不同类别
样本分布均衡。
3.根据权利要求2所述的一种基于短信文本内容识别的标准数据构建方法, 其特征在
于, S2的具体方法如下:
S21.对准备好的签名文本通过jieba分词方法进行分词, 构建词汇表, “MN”会被分词为
“M”,“N”两个词;
S22.把词汇表中的每个词用一个整数来代替, 然后将每个词映射成embedding_dim维
向量。
4.根据权利要求3所述的一种基于短信文本内容识别的标准数据构建方法, 其特征在
于, S3的具体方法如下: fasttext方法分类结果的数值表 示预测的分类概率, 选择概率最大
的值作为分类的结果。
5.根据权利要求4所述的一种基于短信文本内容识别的标准数据构建方法, 其特征在
于, S4的具体方法如下:
S41.构建不同行业字典以及对应的正则字典;
S42.特定行业的短信文本模版进行规则归纳;
S43.当短信文本模板有新增或者 修改时, 同时更新行业字典和正则字典。
6.根据权利要求5所述的一种基于短信文本内容识别的标准数据构建方法, 其特征在
于, S5的具体方法如下: 关键词是指时间、 人名、 地名、 组织, 并与 公开的姓氏、 航班、 酒店专
有名词映射表进行匹配校准, 得到最终提取的结果。
7.一种计算设备, 包括:
一个或多个处 理器;
存储器; 以及
一个或多个程序, 其中所述一个或多个程序存储在所述存储器中并被配置为由所述一
个或多个处理器执行, 所述一个或多个程序包括用于执行根据权利要求1 ‑6所述的方法中
的任一方法的指令 。
8.一种存储一个或多个程序的计算机可读存储介质, 所述一个或多个程序包括指令,
所述指令当由计算设备执行时, 使得所述计算设备执行根据权利要求1 ‑6所述的方法中的
任一方法。权 利 要 求 书 1/1 页
2
CN 114692629 A
2基于短信文本内容识别的标 准数据构建 方法、 设备及介质
技术领域
[0001]本发明涉及文本信息识别技术领域,尤其是一种基于短信文本内容识别的标准数
据构建方法、 设备及 介质。
背景技术
[0002]随着人们对互联网的依赖度越来越高, 互联网上的安全形势越来越错综复杂。 互
联网覆盖了传统的安全概念和逻辑, 在国家安全保护方面有的新的挑战, 所以需要一些互
联网数据作为辅助研判的线索。
[0003]作为短信发送平台, 具有通信数据优势, 可以在挖掘嫌疑人线索等工作上提供一
定的帮助, 因此在短信文中提取相关信息 至关重要。
[0004]对于文本内容的提取, 一般是基于语义规则的提取, 但是这种方法费时费力、 可移
植性不好, 因为在构建规则的过程中需要大量的语言学知识, 而且不同语言的识别规则又
不相同。 还有基于深度学习的模型, 但都依赖大量的语料库, 还需要人为标注大量数据, 非
常耗时, 对计算的资源要求也很高。 所以本发明提出了一种轻量级的文本提取方法, 通过先
对短信签名进 行简单的行业分类, 然后再根据不同行业进 行不同短信文本内容的特征分析
以及规则提取。
[0005]与本发明相关的名词解释:
[0006]jieba分词: jieba分词是一种Python中文分词组件, 有TextR ank和 TF‑IDF两种算
法, 此处用的是TF ‑IDF方法。
[0007]短信文本签名: 短信文本签名是 网络运营商(中国联通、 中国移动、 中国电信)提供
的主叫类业务, 是运营商为客户提供一种快捷、 方便的个性化签名方式。 短信文本中用中括
号表示文字即是签名, 如 “【差旅管家】 您预订的***次航班出票 成功”, 此短信中 【差旅管家】
为此短信文本的签名。
[0008]embedding词向量: embedding词向量是对一个对象的分布式表达, 可以理解为一
个n维向量, 每 个对象的表达相当于是对象在这 n维向量上的映射。
[0009]fasttext: fast text是开源的一个词向量计算和文本分类工具。
发明内容
[0010]针对上述现有技术中存在的不足, 本发明的目的在于提供了一种基于文本内容识
别的标准数据构建方法、 设备及 介质, 解决现有技 术准确率低且效率低的问题。
[0011]为解决上述问题, 本发明公开了一种基于短信文本内容识别的标准数据构建方
法, 包括以下步骤:
[0012]S1.随机抽取已知行业类别的X个短信文本签名作为训练样本;
[0013]S2.通过jieba分词对短信文本签名进行分词, 然后把词转换成embedding 词向
量, 即得到每条短信文本签名的向量表达式;
[0014]S3.通过fasttex方法进行短信文本分类, 把短信文本进行行业分类, 选择被判断说 明 书 1/5 页
3
CN 114692629 A
3
专利 基于短信文本内容识别的标准数据构建方法、设备及介质
文档预览
中文文档
9 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:49:41上传分享