(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210260510.7 (22)申请日 2022.03.17 (65)同一申请的已公布的文献号 申请公布号 CN 114330370 A (43)申请公布日 2022.04.12 (73)专利权人 天津思睿信息技 术有限公司 地址 300000 天津市滨 海新区高新区滨 海 科技园高新六路39号2号楼2单元201- 10号 (72)发明人 李晋 刘宇鹏  (74)专利代理 机构 天津合正知识产权代理有限 公司 12229 专利代理师 吕琦 (51)Int.Cl. G06F 40/30(2020.01)G06N 3/08(2006.01) (56)对比文件 CN 111753527 A,2020.10.09 CN 113011911 A,2021.0 6.22 CN 111882431 A,2020.1 1.03 CN 113158076 A,2021.07.23 CN 111860850 A,2020.10.3 0 CN 109657947 A,2019.04.19 CN 108776694 A,2018.1 1.09 CN 113436698 A,2021.09.24 US 2019318407 A1,2019.10.17 审查员 徐书芳 (54)发明名称 一种基于人工智能的自然语言处理系统及 处理方法 (57)摘要 本发明提出了一种基于人工智能的自然语 言处理系统及处理方法, 获得自然语 言信息原始 数据集, 对原始数据集进行异常分析, 生成原始 数据集的异常值集; 从原始数据集中去除异常值 集中的样 本数据, 并将去除异常值集中的样本数 据后的信息数据集输入到语义匹配模型进行识 别, 确定语义匹配结果; 将考虑了估测损失值的 匹配结果预测值按照大小进行排序, 排序后获得 的序列即为自然语 言处理结果。 待该自然语言处 理随着使用时长得增加, 各层级被不断优化, 使 得自然语言处 理智能化 准确性逐渐提高。 权利要求书3页 说明书9页 附图3页 CN 114330370 B 2022.05.20 CN 114330370 B 1.一种基于人工智能的自然语言处 理方法, 其特 征在于, 包括如下步骤: S1、 获得自然语言信息原始数据集, 对原始数据集进行异常分析, 生成原始数据集的异 常值集; S2、 从原始数据集中去除异常值集中的样本数据, 并将去除异常值集中的样本数据后 的信息数据集输入到语义匹配模型进行识别, 确定语义匹配结果; 经过语义匹配模型的层归一化后的左右两侧的输出矩阵表示分别为v1和v2,将v1和v2 进行匹配运 算:  ; 其中,v1◦v2表示v1和v2对应元素逐个相乘,函数F表示将4个向量的拼接向量输入到分 类器处理, 输出匹配结果预测值y ′; 利用失效估测模型计算匹配结果预测值的估测损失值, 具体包括: 基于获取到的左向训练样本中第i个左向训练样本和对应的右向训练样本, 得到输出 层的样本预测损失值 Lp: ; 其中, 为第i个左向训练样本中头样本和尾样本的相似度, 为与第i个左向训练样 本对应的右向训练样本中第 j个右向训练样本所包括的头样本和参考样本的相似度, I是指 右向训练样本的数量, 且i 为小于等于左侧训练样本总数的整数, j为小于等于I的整数; 所述估测损失值越小, 样本预测性能越好, 将匹配结果预测值y ′乘以估测损失值Lp后, 按照乘积大小 进行排序, 排序后获得的序列即为自然语言处 理结果。 2.根据权利要求1所述的基于人工智能的自然语言处理方法, 其特征在于, 所述步骤S1 具体包括: 原始数据集中随机选取m个样 本构成网络拓扑结构, n个节 点构成了节 点集NODE= {node1, node2,……, noden}, 节点路径长度集合为Lnode={ L1,…, Li,…, Ln },所述网络拓扑 结构的路径长度标准差为: ; 其中n为节点的总个数, 为节点路径长度的平均值; 对路径长度标准差集 合进行归一 化,归一化指标 表示为: ; 其中, 网络拓扑结构的路径长度标准差集合为 ={ 1,…, i,…, n}, 其中最大值为 max, 最小值为 min; 计算样本点中异常值 为: ;权 利 要 求 书 1/3 页 2 CN 114330370 B 2其中, m个样本点的路径长度集 合为Hd={h1,…, hi, …, hm}; 计算每个样本点的异常值, 并合 为异常值 集N; 多次随机 选取m个样本, 计算异常值 集, 形成能够覆盖原 始数据集的异常值 集合N总。 3.根据权利要求1所述的基于人工智能的自然语言处理方法, 其特征在于, 所述步骤S2 中, 所述语义匹配模 型包括输入层、 中间层和输出层; 所述输入层利用正逆频算法计算每个 输入向量的权重; 所述中间层采用多层双向特征抽取模型; 所述输出层利用失效估测模型 计算输出向量。 4.根据权利要求3所述的基于人工智能的自然语言处理方法, 其特征在于, 所述正逆频 算法具体包括: 计算输入向量E的逆频率 IDF (E) : IDF (E) =l og (P/nE) ; 其中, P为训练向量 集的总数; nE为训练向量 集中出现输入向量E的次数; 计算输入向量权 重K (E, Di) : ; 其 中 ,T F(E ,Di)为 输 入 向 量 E 在 第 i 个 训 练 向 量 集 Di中 的 频 数 ; 为归一化因子。 5.根据权利要求3所述的基于人工智能的自然语言处理方法, 其特征在于, 所述多层双 向特征抽取模型有三个子层,分别是双向的Transformer编码层、 交 互层和归一 化层。 6.根据权利要求5所述的基于人工智能的自然语言处理方法, 其特征在于, 双向的 Transformer编码层的每个编码层中, 将 输入矩阵X和经过正逆频算法计算的每个输入向量 权重构成的矩阵K作为输入, 计算双向的Transformer编码层的输出矩阵Z: ; 其中, d为输入矩阵X的维数, Q表示多组输入向量E1, …, En的向量序列, B为编码次数。 7.根据权利要求5所述的基于人工智能的自然语言处 理方法, 其特 征在于, 交互层中, 设左右两向的输出矩阵表示为Z1和Z2,则两个输出矩阵的交互矩阵的计算如 下: ; ; 其中, R1为Z1的交互矩阵; R2为Z2的交互矩阵; 计算经过每侧编码层后的最终输 出矩阵Rmul,其中H为编码层的层数, Ri表示第i个编码 层的输出矩阵,C(Ri)函数表示将所有的H个编码层拼接起 来; Rmul=C(Ri) , i=1,…, H; 计算层归一 化, 层归一化后的输出矩阵 表示为:权 利 要 求 书 2/3 页 3 CN 114330370 B 3

.PDF文档 专利 一种基于人工智能的自然语言处理系统及处理方法

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于人工智能的自然语言处理系统及处理方法 第 1 页 专利 一种基于人工智能的自然语言处理系统及处理方法 第 2 页 专利 一种基于人工智能的自然语言处理系统及处理方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:44:53上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。