专利一种基于孪生神经网络的英语句子词义消岐方法 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210321628.6 (22)申请日 2022.03.30 (71)申请人哈尔滨理工大学地址 150080 黑龙江省哈尔滨市南岗区学府路52号哈尔滨理工大学 (72)发明人王鹏　张春祥　孟飞杨　 (51)Int.Cl. G06F 40/284(2020.01) G06F 40/30(2020.01) G06F 16/35(2019.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于孪生神经网络的英语句子词义消岐方法 (57)摘要本发明涉及一种基于孪生神经网络 (SiameseNeuralNetwork)的英语句子词义消岐方法。本发明首先对英语语料进行数据清洗，然后对包含歧义词汇的英语句子进行分词、词性标注和语义标注，将其划分为训练语料和测试语料，然后构建训练样本对和测试样本对。通过训练样本对对孪生神经网络进行训练，得到优化后的孪生神经网络模型；在优化后的孪生神经网络模型上，使用测试样本对进行预测分类，得到歧义词汇在每个语义类别下的概率分布；具有最大概率的语义类别即为歧义词汇的语义类别。本发明对歧义词汇实现了很好的消岐，更准确地判断歧义词汇的真实含义。权利要求书2页说明书6页附图3页 CN 114970511 A 2022.08.30 CN 114970511 A 1.基于孪生神经网络的英语句子词义消岐方法，其特征在于，该方法包括以下步骤：步骤1：对语料所包含的所有英语句子进行数据清洗，包括停用词处理，标点处理等，然后进行分词、词性标注和语义类标注，选取歧义词汇左右四个邻接词汇单元的词形、词性和语义类作为消岐特征；步骤2：使用Word2Vec工具将词形、词性和语义类特征进行向量化处理；将处理好的语料分为训练语料和测试语料，其中训练语料占大部分；步骤3：在训练语料中划分每个语义类别对应的基准样本实例及构建孪生神经网络所需要的输入样本对，包括正样本对和负样本对；步骤4：训练过程为：将训练语料构建的输入样本对输入到孪生神经网络模型里面进行训练，得到优化后的孪生神经网络模型；步骤5：测试过程为：将测试语料中的待测样本实例与训练语料中的基准样本实例组成输入样本对，在优化后的孪生神经网络中进行预测，计算待测样本实例与各个基准样本实例的相似性，具有最高相似度基准样本实例所对应的类别作为该待测样本实例的类别，完成词义消歧。 2.根据权利要求1所述的基于孪生神经网络的英语句子词义消岐方法，其特征在于，所述步骤1中，对英语句子进行分词、词性标注和语义类标注，提取消岐特征，具体步骤为：步骤1‑1利用英语句子的特点，对英语句子进行词汇切分；步骤1‑2利用英语词性标注工具对已切分好的词汇进行词性标注；步骤1‑3利用英语语义标注工具对已切分好的词汇进行语义类标注；利用英语分词工具、英语词性标注工具和英语语义标注工具对语料所包含的所有英语句子进行词汇切分、词性标注和语义类标注，选取歧义词汇左右四个邻接词汇单元的词形、词性和语义类作为消岐特征。 3.根据权利要求1所述的基于孪生神经网络的英语句子词义消岐方法，其特征在于，所述步骤2中，对消歧特征进行向量化处理，具体步骤为：步骤2‑1提取歧义词汇的左右四个邻接词汇单元的词形、词性和语义类；步骤2‑2对提取的词形、词性和语义类特征使用Word2Vec工具分别进行向量化表示；步骤2‑3经过向量化表示后，每个特征对应于10 0维的特征向量；选取一小部分处理好的语料作为测试语料，其余的作为训练语料。 4.根据权利要求1所述的基于孪生神经网络的英语句子词义消岐方法，其特征在于，所述步骤3中，在训练语料中划分每个语义类别对应的基准样本实例及构建孪生神经网络所需要的输入样本对，具体步骤为：步骤3‑1将训练语料(N)不同语义类别的样本实例归于一类，待测试阶段使用；步骤3‑2将训练语料(N)的单个样本实例两两随机匹配成输入样本对，同一个语义类别的实例两两构成正样本对，反之为负样本对；步骤3‑3为了提高训练效果，训练阶段对输入样本对进行扩容，输入样本对的数量设置为20*N；输入样本对构建完成，形成训练集。 5.根据权利要求1所述的基于孪生神经网络的英语句子词义消岐方法，其特征在于，所述步骤4中，对孪生神经网络模型训练，具体步骤为：权　利　要　求　书 1/2 页 2 CN 114970511 A 2步骤4‑1将训练集中的输入样本对(X1， X2)作为孪生神经网络模型的输入， Y为X1， X2是否匹配的二值标签，即Y∈{0,1}；步骤4‑2经过输入层，接受完整的消岐特征；步骤4‑3经过BiLstm层，对消歧信息进行过滤，提取更完整的消歧特征；步骤4‑4经过池化层，提取最大的消岐特征，可以大大地缩小消岐特征的规模，从而减少参数个数，加快模型计算的速度，有效地防止过拟合；步骤4‑5通过BiLstm和池化层交替操作之后，进入距离函数层，使用欧氏距离计算输出样本对(X1， X2)的空间距离，即相似性；步骤4‑6将计算所得相似性和真实值进行比较，采用的代价函数为如下的形式：其中Dw为孪生神经网络输出的两个特征向量的欧式距离，由Gw来表示孪生神经网络将输入X1， X2映射到它们的特征向量， m值用于在Gw 上定义一个边界，使得只有距离在该范围内的负样本才对损失函数有影响，对于所有的训练样本，最后得到的总体损失函数为：其中n表示样本对总量；通过损失函数、梯度下降来不断优化孪生神经网络，得到优化后的孪生神经网络模型。 6.根据权利要求1所述的基于孪生神经网络的英语句子词义消岐方法，其特征在于，所述步骤5中，对歧义词汇m进行语义分类，具体步骤为：步骤5‑1将测试语料中的待测样本实例与训练语料中的基准样本实例组成的输入样本对输入优化后的孪生神经网络模型中；步骤5‑2经过输入层，接受完整的消岐特征；步骤5‑3经过BiLstm层，对消歧信息进行过滤，提取更完整的消歧特征；步骤5‑4经过池化层，提取最大的消岐特征，可以大大地缩小消岐特征的规模，从而减少参数个数，加快模型计算的速度，有效地防止过拟合；步骤5‑5通过BiLstm和池化层交替操作之后，进入距离函数层，使用欧氏距离计算计算待测样本实例与各个基准样本实例的欧式距离，选择具有最高相似度基准样本所对应的类别作为该待测样本的类别；所述语义类别s'的确定过程如下：其中， s'表示概率最大的语义类别， n表示语义类P(s1|c),...,P(si|c),...,P(sn|c)表示歧义词汇m在语义类别下的概率分布序列。权　利　要　求　书 2/2 页 3 CN 114970511 A 3

专利 一种基于孪生神经网络的英语句子词义消岐方法

专利一种基于孪生神经网络的英语句子词义消岐方法