(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210260510.7
(22)申请日 2022.03.17
(65)同一申请的已公布的文献号
申请公布号 CN 114330370 A
(43)申请公布日 2022.04.12
(73)专利权人 天津思睿信息技 术有限公司
地址 300000 天津市滨 海新区高新区滨 海
科技园高新六路39号2号楼2单元201-
10号
(72)发明人 李晋 刘宇鹏
(74)专利代理 机构 天津合正知识产权代理有限
公司 12229
专利代理师 吕琦
(51)Int.Cl.
G06F 40/30(2020.01)G06N 3/08(2006.01)
(56)对比文件
CN 111753527 A,2020.10.09
CN 113011911 A,2021.0 6.22
CN 111882431 A,2020.1 1.03
CN 113158076 A,2021.07.23
CN 111860850 A,2020.10.3 0
CN 109657947 A,2019.04.19
CN 108776694 A,2018.1 1.09
CN 113436698 A,2021.09.24
US 2019318407 A1,2019.10.17
审查员 徐书芳
(54)发明名称
一种基于人工智能的自然语言处理系统及
处理方法
(57)摘要
本发明提出了一种基于人工智能的自然语
言处理系统及处理方法, 获得自然语 言信息原始
数据集, 对原始数据集进行异常分析, 生成原始
数据集的异常值集; 从原始数据集中去除异常值
集中的样 本数据, 并将去除异常值集中的样本数
据后的信息数据集输入到语义匹配模型进行识
别, 确定语义匹配结果; 将考虑了估测损失值的
匹配结果预测值按照大小进行排序, 排序后获得
的序列即为自然语 言处理结果。 待该自然语言处
理随着使用时长得增加, 各层级被不断优化, 使
得自然语言处 理智能化 准确性逐渐提高。
权利要求书3页 说明书9页 附图3页
CN 114330370 B
2022.05.20
CN 114330370 B
1.一种基于人工智能的自然语言处 理方法, 其特 征在于, 包括如下步骤:
S1、 获得自然语言信息原始数据集, 对原始数据集进行异常分析, 生成原始数据集的异
常值集;
S2、 从原始数据集中去除异常值集中的样本数据, 并将去除异常值集中的样本数据后
的信息数据集输入到语义匹配模型进行识别, 确定语义匹配结果;
经过语义匹配模型的层归一化后的左右两侧的输出矩阵表示分别为v1和v2,将v1和v2
进行匹配运 算:
;
其中,v1◦v2表示v1和v2对应元素逐个相乘,函数F表示将4个向量的拼接向量输入到分
类器处理, 输出匹配结果预测值y ′;
利用失效估测模型计算匹配结果预测值的估测损失值, 具体包括:
基于获取到的左向训练样本中第i个左向训练样本和对应的右向训练样本, 得到输出
层的样本预测损失值 Lp:
;
其中,
为第i个左向训练样本中头样本和尾样本的相似度,
为与第i个左向训练样
本对应的右向训练样本中第 j个右向训练样本所包括的头样本和参考样本的相似度, I是指
右向训练样本的数量, 且i 为小于等于左侧训练样本总数的整数, j为小于等于I的整数;
所述估测损失值越小, 样本预测性能越好, 将匹配结果预测值y ′乘以估测损失值Lp后,
按照乘积大小 进行排序, 排序后获得的序列即为自然语言处 理结果。
2.根据权利要求1所述的基于人工智能的自然语言处理方法, 其特征在于, 所述步骤S1
具体包括: 原始数据集中随机选取m个样 本构成网络拓扑结构, n个节 点构成了节 点集NODE=
{node1, node2,……, noden}, 节点路径长度集合为Lnode={ L1,…, Li,…, Ln },所述网络拓扑
结构的路径长度标准差为:
;
其中n为节点的总个数,
为节点路径长度的平均值;
对路径长度标准差集 合进行归一 化,归一化指标
表示为:
;
其中, 网络拓扑结构的路径长度标准差集合为
={
1,…,
i,…,
n}, 其中最大值为
max, 最小值为
min;
计算样本点中异常值 为:
;权 利 要 求 书 1/3 页
2
CN 114330370 B
2其中, m个样本点的路径长度集 合为Hd={h1,…, hi, …, hm};
计算每个样本点的异常值, 并合 为异常值 集N;
多次随机 选取m个样本, 计算异常值 集, 形成能够覆盖原 始数据集的异常值 集合N总。
3.根据权利要求1所述的基于人工智能的自然语言处理方法, 其特征在于, 所述步骤S2
中, 所述语义匹配模 型包括输入层、 中间层和输出层; 所述输入层利用正逆频算法计算每个
输入向量的权重; 所述中间层采用多层双向特征抽取模型; 所述输出层利用失效估测模型
计算输出向量。
4.根据权利要求3所述的基于人工智能的自然语言处理方法, 其特征在于, 所述正逆频
算法具体包括:
计算输入向量E的逆频率 IDF (E) :
IDF (E) =l og (P/nE) ;
其中, P为训练向量 集的总数; nE为训练向量 集中出现输入向量E的次数;
计算输入向量权 重K (E, Di) :
;
其 中 ,T F(E ,Di)为 输 入 向 量 E 在 第 i 个 训 练 向 量 集 Di中 的 频 数 ;
为归一化因子。
5.根据权利要求3所述的基于人工智能的自然语言处理方法, 其特征在于, 所述多层双
向特征抽取模型有三个子层,分别是双向的Transformer编码层、 交 互层和归一 化层。
6.根据权利要求5所述的基于人工智能的自然语言处理方法, 其特征在于, 双向的
Transformer编码层的每个编码层中, 将 输入矩阵X和经过正逆频算法计算的每个输入向量
权重构成的矩阵K作为输入, 计算双向的Transformer编码层的输出矩阵Z:
;
其中, d为输入矩阵X的维数, Q表示多组输入向量E1, …, En的向量序列, B为编码次数。
7.根据权利要求5所述的基于人工智能的自然语言处 理方法, 其特 征在于,
交互层中, 设左右两向的输出矩阵表示为Z1和Z2,则两个输出矩阵的交互矩阵的计算如
下:
;
;
其中, R1为Z1的交互矩阵; R2为Z2的交互矩阵;
计算经过每侧编码层后的最终输 出矩阵Rmul,其中H为编码层的层数, Ri表示第i个编码
层的输出矩阵,C(Ri)函数表示将所有的H个编码层拼接起 来;
Rmul=C(Ri) , i=1,…, H;
计算层归一 化, 层归一化后的输出矩阵
表示为:权 利 要 求 书 2/3 页
3
CN 114330370 B
3
专利 一种基于人工智能的自然语言处理系统及处理方法
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:44:53上传分享