专利一种基于人工智能的自然语言处理系统及处理方法 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210260510.7 (22)申请日 2022.03.17 (65)同一申请的已公布的文献号申请公布号 CN 114330370 A (43)申请公布日 2022.04.12 (73)专利权人天津思睿信息技术有限公司地址 300000 天津市滨海新区高新区滨海科技园高新六路39号2号楼2单元201- 10号 (72)发明人李晋　刘宇鹏　 (74)专利代理机构天津合正知识产权代理有限公司 12229 专利代理师吕琦 (51)Int.Cl. G06F 40/30(2020.01)G06N 3/08(2006.01) (56)对比文件 CN 111753527 A,2020.10.09 CN 113011911 A,2021.0 6.22 CN 111882431 A,2020.1 1.03 CN 113158076 A,2021.07.23 CN 111860850 A,2020.10.3 0 CN 109657947 A,2019.04.19 CN 108776694 A,2018.1 1.09 CN 113436698 A,2021.09.24 US 2019318407 A1,2019.10.17 审查员徐书芳 (54)发明名称一种基于人工智能的自然语言处理系统及处理方法 (57)摘要本发明提出了一种基于人工智能的自然语言处理系统及处理方法，获得自然语言信息原始数据集，对原始数据集进行异常分析，生成原始数据集的异常值集；从原始数据集中去除异常值集中的样本数据，并将去除异常值集中的样本数据后的信息数据集输入到语义匹配模型进行识别，确定语义匹配结果；将考虑了估测损失值的匹配结果预测值按照大小进行排序，排序后获得的序列即为自然语言处理结果。待该自然语言处理随着使用时长得增加，各层级被不断优化，使得自然语言处理智能化准确性逐渐提高。权利要求书3页说明书9页附图3页 CN 114330370 B 2022.05.20 CN 114330370 B 1.一种基于人工智能的自然语言处理方法，其特征在于，包括如下步骤： S1、获得自然语言信息原始数据集，对原始数据集进行异常分析，生成原始数据集的异常值集； S2、从原始数据集中去除异常值集中的样本数据，并将去除异常值集中的样本数据后的信息数据集输入到语义匹配模型进行识别，确定语义匹配结果；经过语义匹配模型的层归一化后的左右两侧的输出矩阵表示分别为v1和v2,将v1和v2 进行匹配运算: ；其中,v1◦v2表示v1和v2对应元素逐个相乘,函数F表示将4个向量的拼接向量输入到分类器处理，输出匹配结果预测值y ′；利用失效估测模型计算匹配结果预测值的估测损失值，具体包括：基于获取到的左向训练样本中第i个左向训练样本和对应的右向训练样本，得到输出层的样本预测损失值 Lp：；其中，为第i个左向训练样本中头样本和尾样本的相似度，为与第i个左向训练样本对应的右向训练样本中第 j个右向训练样本所包括的头样本和参考样本的相似度， I是指右向训练样本的数量，且i 为小于等于左侧训练样本总数的整数， j为小于等于I的整数；所述估测损失值越小，样本预测性能越好，将匹配结果预测值y ′乘以估测损失值Lp后，按照乘积大小进行排序，排序后获得的序列即为自然语言处理结果。 2.根据权利要求1所述的基于人工智能的自然语言处理方法，其特征在于，所述步骤S1 具体包括：原始数据集中随机选取m个样本构成网络拓扑结构， n个节点构成了节点集NODE= {node1， node2，……， noden}，节点路径长度集合为Lnode={ L1，…， Li，…， Ln },所述网络拓扑结构的路径长度标准差为：；其中n为节点的总个数，为节点路径长度的平均值；对路径长度标准差集合进行归一化,归一化指标表示为：；其中，网络拓扑结构的路径长度标准差集合为 ={ 1，…， i，…， n}，其中最大值为 max，最小值为 min；计算样本点中异常值为：；权　利　要　求　书 1/3 页 2 CN 114330370 B 2其中， m个样本点的路径长度集合为Hd={h1，…， hi, …， hm}；计算每个样本点的异常值，并合为异常值集N；多次随机选取m个样本，计算异常值集，形成能够覆盖原始数据集的异常值集合N总。 3.根据权利要求1所述的基于人工智能的自然语言处理方法，其特征在于，所述步骤S2 中，所述语义匹配模型包括输入层、中间层和输出层；所述输入层利用正逆频算法计算每个输入向量的权重；所述中间层采用多层双向特征抽取模型；所述输出层利用失效估测模型计算输出向量。 4.根据权利要求3所述的基于人工智能的自然语言处理方法，其特征在于，所述正逆频算法具体包括：计算输入向量E的逆频率 IDF （E）： IDF （E） =l og （P/nE）；其中， P为训练向量集的总数； nE为训练向量集中出现输入向量E的次数；计算输入向量权重K （E， Di）：；其中，T F（E ，Di）为输入向量 E 在第 i 个训练向量集 Di中的频数；为归一化因子。 5.根据权利要求3所述的基于人工智能的自然语言处理方法，其特征在于，所述多层双向特征抽取模型有三个子层,分别是双向的Transformer编码层、交互层和归一化层。 6.根据权利要求5所述的基于人工智能的自然语言处理方法，其特征在于，双向的 Transformer编码层的每个编码层中，将输入矩阵X和经过正逆频算法计算的每个输入向量权重构成的矩阵K作为输入，计算双向的Transformer编码层的输出矩阵Z：；其中， d为输入矩阵X的维数, Q表示多组输入向量E1， …， En的向量序列， B为编码次数。 7.根据权利要求5所述的基于人工智能的自然语言处理方法，其特征在于，交互层中，设左右两向的输出矩阵表示为Z1和Z2,则两个输出矩阵的交互矩阵的计算如下: ；；其中， R1为Z1的交互矩阵； R2为Z2的交互矩阵；计算经过每侧编码层后的最终输出矩阵Rmul,其中H为编码层的层数, Ri表示第i个编码层的输出矩阵,C(Ri)函数表示将所有的H个编码层拼接起来； Rmul=C(Ri) ， i=1,…， H；计算层归一化, 层归一化后的输出矩阵表示为：权　利　要　求　书 2/3 页 3 CN 114330370 B 3

专利 一种基于人工智能的自然语言处理系统及处理方法

专利一种基于人工智能的自然语言处理系统及处理方法