(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210321628.6
(22)申请日 2022.03.30
(71)申请人 哈尔滨理工大 学
地址 150080 黑龙江省哈尔滨市南岗区学
府路52号哈尔滨理工大 学
(72)发明人 王鹏 张春祥 孟飞杨
(51)Int.Cl.
G06F 40/284(2020.01)
G06F 40/30(2020.01)
G06F 16/35(2019.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于孪生神经网络的英语句子词义消
岐方法
(57)摘要
本 发 明 涉 及一 种基 于 孪 生 神经网 络
(SiameseNeuralNetwork)的英语句子词义消岐
方法。 本发明首先对英语语料进行数据清洗, 然
后对包含歧义词汇的英语句子进行分词、 词性标
注和语义标注, 将其划分为训练语料和测试语
料, 然后构建训练样本对和测试样本对。 通过训
练样本对对孪生神经网络进行训练, 得到优化后
的孪生神经网络模型; 在优化后的孪生神经网络
模型上, 使用测试样本对进行预测分类, 得到歧
义词汇在每个语义类别下的概率 分布; 具有最大
概率的语义类别即为歧义词汇的语义类别。 本发
明对歧义词汇实现了很好的消岐, 更准确地判断
歧义词汇的真实含义。
权利要求书2页 说明书6页 附图3页
CN 114970511 A
2022.08.30
CN 114970511 A
1.基于孪生神经网络的英语句子词义消岐方法, 其特 征在于, 该 方法包括以下步骤:
步骤1: 对语料所包含的所有英语句子进行数据清洗, 包括停用词处理, 标点处理等, 然
后进行分词、 词性标注和语义类标注, 选取歧义词汇左右四个邻接词汇单元的词形、 词性和
语义类作为消岐特 征;
步骤2: 使用Word2Vec工具将词形、 词性和语义类特征进行向量化处理; 将处理好的语
料分为训练语料和 测试语料, 其中训练语料占大部分;
步骤3: 在训练语料中划分每个语义类别对应的基准样本实例及构建孪生神经网络所
需要的输入样本对, 包括 正样本对和负 样本对;
步骤4: 训练过程为: 将训练语料构建的输入样本对输入到孪生神经网络模型里面进行
训练, 得到优化后的孪生神经网络模型;
步骤5: 测试过程为: 将测试语料中的待测样本实例与训练语料中的基准样本实例组成
输入样本对, 在优化后的孪生神经网络中进行预测, 计算待测样本实例与各个基准样本实
例的相似性, 具有最高相似度基准样本实例所对应的类别作为该待测样本实例的类别, 完
成词义消歧。
2.根据权利要求1所述的基于孪生神经网络的英语句子词义消岐方法, 其特征在于, 所
述步骤1中, 对英语句子进行分词、 词性标注和语义类标注, 提取消岐特 征, 具体步骤为:
步骤1‑1利用英语句子的特点, 对英语句子进行词汇切分;
步骤1‑2利用英语词性标注工具对已切分好的词汇进行词性标注;
步骤1‑3利用英语 语义标注工具对已切分好的词汇进行语义类标注;
利用英语分词工具、 英语词性标注工具和英语语义标注工具对语料所包含的所有英语
句子进行词汇切分、 词性标注和语义类标注, 选取歧义词汇左右四个邻接词汇单元的词形、
词性和语义类作为消岐特 征。
3.根据权利要求1所述的基于孪生神经网络的英语句子词义消岐方法, 其特征在于, 所
述步骤2中, 对消歧特 征进行向量 化处理, 具体步骤为:
步骤2‑1提取歧义词汇的左右四个邻接词汇单 元的词形、 词性和语义类;
步骤2‑2对提取的词形、 词性和语义类特 征使用Word2Vec工具分别进行向量 化表示;
步骤2‑3经过向量化表示后, 每 个特征对应于10 0维的特征向量;
选取一小部分处 理好的语料作为测试语料, 其 余的作为训练语料。
4.根据权利要求1所述的基于孪生神经网络的英语句子词义消岐方法, 其特征在于, 所
述步骤3中, 在训练语料中划分每个语义类别对应的基准样本实例及构建孪生神经网络所
需要的输入样本对, 具体步骤为:
步骤3‑1将训练语料(N)不同语义类别的样本实例归于一类, 待测试阶段使用;
步骤3‑2将训练语料(N)的单个样本实例两两随机匹配成输入样本对, 同一个语义类别
的实例两 两构成正样本对, 反 之为负样本对;
步骤3‑3为了提高训练效果, 训练阶段对输入样本对进行扩容, 输入样本对的数量设置
为20*N;
输入样本对构建完成, 形成训练集。
5.根据权利要求1所述的基于孪生神经网络的英语句子词义消岐方法, 其特征在于, 所
述步骤4中, 对孪生神经网络模型训练, 具体步骤为:权 利 要 求 书 1/2 页
2
CN 114970511 A
2步骤4‑1将训练集中的输入样本对(X1, X2)作为孪生神经网络模型的输入, Y为X1, X2是否
匹配的二 值标签, 即Y∈{0,1};
步骤4‑2经过输入层, 接受完整的消岐特 征;
步骤4‑3经过BiLstm层, 对消歧信息进行 过滤, 提取更完整的消歧特 征;
步骤4‑4经过池化层, 提取最大的消岐特征, 可以大大地缩小消岐特征的规模, 从而减
少参数个数, 加快模型计算的速度, 有效地防止过拟合;
步骤4‑5通过BiLstm和池化层交替操作之后, 进入距离函数层, 使用欧氏距离计算输出
样本对(X1, X2)的空间距离, 即相似性;
步骤4‑6将计算所 得相似性和真实值进行比较, 采用的代价 函数为如下的形式:
其中Dw为孪生神经网络输出的两个特征向量的欧式距离, 由Gw来表示孪生神经网络将
输入X1, X2映射到它们的特征向量, m值用于在Gw 上定义一个边界, 使得只有距离在该范围内
的负样本才对损失函数有影响, 对于所有的训练样本, 最后得到的总体损失函数为:
其中n表示样本对总量;
通过损失函数、 梯度下降来 不断优化孪生神经网络, 得到优化后的孪生神经网络模型。
6.根据权利要求1所述的基于孪生神经网络的英语句子词义消岐方法, 其特征在于, 所
述步骤5中, 对歧义词汇m进行语义分类, 具体步骤为:
步骤5‑1将测试语料中的待测样本实例与训练语料中的基准样本实例组成的输入样本
对输入优化后的孪生神经网络模型中;
步骤5‑2经过输入层, 接受完整的消岐特 征;
步骤5‑3经过BiLstm层, 对消歧信息进行 过滤, 提取更完整的消歧特 征;
步骤5‑4经过池化层, 提取最大的消岐特征, 可以大大地缩小消岐特征的规模, 从而减
少参数个数, 加快模型计算的速度, 有效地防止过拟合;
步骤5‑5通过BiLstm和池化层交替操作之后, 进入距离函数层, 使用欧氏距离计算计算
待测样本实例与各个基准样本实例的欧式距离, 选择具有最高相似度基准样本所对应的类
别作为该待测样本的类别;
所述语义类别s'的确定过程如下:
其中, s'表示概率最大的语义类别, n表示语义类P(s1|c),...,P(si|c),...,P(sn|c)表
示歧义词汇m在语义类别下的概 率分布序列。权 利 要 求 书 2/2 页
3
CN 114970511 A
3
专利 一种基于孪生神经网络的英语句子词义消岐方法
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:45:17上传分享