专利基于短信文本内容识别的标准数据构建方法、设备及介质 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210399801.4 (22)申请日 2022.04.15 (71)申请人上海创蓝云智信息科技股份有限公司地址 200000 上海市松江区广富林东路19 9 号4幢9-12层 (72)发明人张艳芳　代素侠　徐浩钧　 (74)专利代理机构成都智言知识产权代理有限公司 51282 专利代理师胡文莉 (51)Int.Cl. G06F 40/289(2020.01) G06F 40/284(2020.01) G06F 16/35(2019.01) G06F 40/186(2020.01)G06F 40/242(2020.01) G06F 40/30(2020.01) G06N 20/00(2019.01) (54)发明名称基于短信文本内容识别的标准数据构建方法、设备及介质 (57)摘要本发明涉及文本信息识别技术领域,尤其是一种基于短信文本内容识别的标准数据构建方法、设备及介质，包括以下步骤： S1准备训练样本； S2通过jieba分词对短信文本签名进行分词，然后把词转换成embedding词向量； S3通过 fasttex方法进行短信文本分类，把短信文本进行行业分类，选择被判断概率最大的行业作为它的首选行业； S4抽取特定行业短信文本模版，语义分析后进行关键词提取的规则归纳； S5通过关键词提取的规则归纳进行关键词提取，与公开的专有名词映射表进行匹配校准，得到最终提取的结果。本发明通过先对短信签名进行行业分类，再根据不同行业进行不同短信文本内容的特征分析及规则提取，极大提升工作效率。权利要求书1页说明书5页附图2页 CN 114692629 A 2022.07.01 CN 114692629 A 1.一种基于短信文本内容识别的标准数据构建方法，其特征在于，包括以下步骤： S1.随机抽取已知行业类别的X个短信文本签名作为训练样本； S2.通过jieba分词对短信文本签名进行分词，然后把词转换成embedding词向量，即得到每条短信文本签名的向量表达式； S3.通过fasttex方法进行短信文本分类，把短信文本进行行业分类，选择被判断概率最大的行业作为它的首选行业； S4.抽取特定行业短信文本模版，语义分析后进行关键词提取的规则归纳； S5.通过关键词提取的规则归纳进行关键词提取，与公开的专有名词映射表进行匹配校准，得到最终提取的结果。 2.根据权利要求1所述的一种基于短信文本内容识别的标准数据构建方法，其特征在于， S1的具体方法如下：随机抽取已知行业类别多个短信文本签名作为训练样本，根据短信发送的场景和公司类型以及行业经验将短信文本分为若干个大类和若干个小类，不同类别样本分布均衡。 3.根据权利要求2所述的一种基于短信文本内容识别的标准数据构建方法，其特征在于， S2的具体方法如下： S21.对准备好的签名文本通过jieba分词方法进行分词，构建词汇表， “MN”会被分词为 “M”,“N”两个词； S22.把词汇表中的每个词用一个整数来代替，然后将每个词映射成embedding_dim维向量。 4.根据权利要求3所述的一种基于短信文本内容识别的标准数据构建方法，其特征在于， S3的具体方法如下： fasttext方法分类结果的数值表示预测的分类概率，选择概率最大的值作为分类的结果。 5.根据权利要求4所述的一种基于短信文本内容识别的标准数据构建方法，其特征在于， S4的具体方法如下： S41.构建不同行业字典以及对应的正则字典； S42.特定行业的短信文本模版进行规则归纳； S43.当短信文本模板有新增或者修改时，同时更新行业字典和正则字典。 6.根据权利要求5所述的一种基于短信文本内容识别的标准数据构建方法，其特征在于， S5的具体方法如下：关键词是指时间、人名、地名、组织，并与公开的姓氏、航班、酒店专有名词映射表进行匹配校准，得到最终提取的结果。 7.一种计算设备，包括：一个或多个处理器；存储器；以及一个或多个程序，其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行根据权利要求1 ‑6所述的方法中的任一方法的指令。 8.一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行根据权利要求1 ‑6所述的方法中的任一方法。权　利　要　求　书 1/1 页 2 CN 114692629 A 2基于短信文本内容识别的标准数据构建方法、设备及介质技术领域 [0001]本发明涉及文本信息识别技术领域,尤其是一种基于短信文本内容识别的标准数据构建方法、设备及介质。背景技术 [0002]随着人们对互联网的依赖度越来越高，互联网上的安全形势越来越错综复杂。互联网覆盖了传统的安全概念和逻辑，在国家安全保护方面有的新的挑战，所以需要一些互联网数据作为辅助研判的线索。 [0003]作为短信发送平台，具有通信数据优势，可以在挖掘嫌疑人线索等工作上提供一定的帮助，因此在短信文中提取相关信息至关重要。 [0004]对于文本内容的提取，一般是基于语义规则的提取，但是这种方法费时费力、可移植性不好，因为在构建规则的过程中需要大量的语言学知识，而且不同语言的识别规则又不相同。还有基于深度学习的模型，但都依赖大量的语料库，还需要人为标注大量数据，非常耗时，对计算的资源要求也很高。所以本发明提出了一种轻量级的文本提取方法，通过先对短信签名进行简单的行业分类，然后再根据不同行业进行不同短信文本内容的特征分析以及规则提取。 [0005]与本发明相关的名词解释： [0006]jieba分词： jieba分词是一种Python中文分词组件，有TextR ank和 TF‑IDF两种算法，此处用的是TF ‑IDF方法。 [0007]短信文本签名：短信文本签名是网络运营商(中国联通、中国移动、中国电信)提供的主叫类业务，是运营商为客户提供一种快捷、方便的个性化签名方式。短信文本中用中括号表示文字即是签名，如 “【差旅管家】您预订的***次航班出票成功”，此短信中【差旅管家】为此短信文本的签名。 [0008]embedding词向量： embedding词向量是对一个对象的分布式表达，可以理解为一个n维向量，每个对象的表达相当于是对象在这 n维向量上的映射。 [0009]fasttext： fast text是开源的一个词向量计算和文本分类工具。发明内容 [0010]针对上述现有技术中存在的不足，本发明的目的在于提供了一种基于文本内容识别的标准数据构建方法、设备及介质，解决现有技术准确率低且效率低的问题。 [0011]为解决上述问题，本发明公开了一种基于短信文本内容识别的标准数据构建方法，包括以下步骤： [0012]S1.随机抽取已知行业类别的X个短信文本签名作为训练样本； [0013]S2.通过jieba分词对短信文本签名进行分词，然后把词转换成embedding 词向量，即得到每条短信文本签名的向量表达式； [0014]S3.通过fasttex方法进行短信文本分类，把短信文本进行行业分类，选择被判断说　明　书 1/5 页 3 CN 114692629 A 3

专利 基于短信文本内容识别的标准数据构建方法、设备及介质

专利基于短信文本内容识别的标准数据构建方法、设备及介质