(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210185044.0 (22)申请日 2022.02.28 (71)申请人 中山大学 地址 510275 广东省广州市海珠区新港西 路135号 (72)发明人 况丽娟 戴宪华  (51)Int.Cl. G06F 40/268(2020.01) G06F 40/30(2020.01) G06F 40/295(2020.01) G06F 16/33(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于多种词嵌入融合与注意力机制的 情感目标抽取模型 (57)摘要 本发明涉及一种基于多种词嵌入融合与注 意力机制的情感目标抽取模型ME ‑ATT‑CRF。 该模 型采用三种类型的词嵌入进行融合, 通用嵌入和 特定域的嵌入以及考虑到词形一定程度上能够 反映词性进而影 响标注结果, 加入字符级别卷积 学习词语的形态学信息丰富特征表 示, 提取字 符 级别的特征。 在不使用任何额外监督的情况下, 模型取得了较好效果。 除此之外, 在模型的隐藏 层引入自注 意力机制, 使模型能够自动学习输入 文本中不同词语 之间的关联与权重, 充分理解上 下文语义, 从而更加关注到要抽取的目标词。 在 四个数据集进行了实验验证与对比, 实验结果显 示提出的模型精确率、 召回率、 F1分数比基准模 型LSTM‑CRF更好。 权利要求书1页 说明书4页 附图2页 CN 114564953 A 2022.05.31 CN 114564953 A 1.一种基于多种词嵌入融合与注意力机制的情感目标抽取模型ME ‑ATT‑CRF, 其特征在 于, 所述方法在基准模 型LSTM‑CRF的基础上, 为得到更高质量的文本向量表 示, 将通用词嵌 入与领域词嵌入和字符级嵌入三种向量进 行融合, 并且加入自注意力机制学习词语之 间的 关联, 加强对语义的学习。 所述方法包括: 在SemEval挑战赛网站下载 四个公开数据 集, 每个数据 集的情况每个数据 集按3: 1: 1的 比例划分成训练集、 验证集、 测试集。 下载词嵌入表, 将数据映射成词向量。 在GloVe官网下载 glove.840B.300d.zip文件, 根 据数据集的单词找到在GloVe词典中对应的索引和词向量作为通用词嵌入。 领域词嵌入表 示从一个小的域内语料库中预训练的, 其中域的范围正好是训练和测试数据所属的域。 对 于特定领域的嵌入, 可以采用FastText对Laptop和Restaurant语料库预训练得到的,它可 以将单词拆分成子串获取字符级嵌入, 可用于处理文本分类问题。 两种词嵌入不用训练直 接下载导入。 字符级嵌入获取过程主要是对以下的三十七个字符进行独热编码, 包括二十六个英文 字母、 十个数字, 另外还要加上一个全零向量用来表示不在字符表中的字 符。 用一维卷积神 经网络处理独热编码的向量, 由1个卷积层和1个全连接层组成, 加Dr opout层防止模型过拟 合, 网络输出100维的字 符级向量。 将GloVe词向量以及特定领域向量, 以及字 符级向量进 行 拼接, 这样完成了词嵌入的融合。 2.根据权利要求所述的方法, 其特征在于, 构建模型主要通过双向ReGU提取语义特征, ReGU由两个门构成, 同时有细胞状态, 包含了LSTM与GRU的优点, 计算快同时准确度高。 对隐 藏层向量引入自注意力机制, 目的是更好的学习 上下文的关联而不用考虑距离长短, 同时 能够给更重要的信息更高的权重, 提高最终抽取目标的准确度, 权重矩阵并行计算也提高 了计算的效率。 3.根据权利要求1或2所述的方法, 其特征在于,模型训练过程中采用概率为0.5的 Dropout防止模型过拟合。 学习率为0.00001、 batchsize样本数为32个。 模型评估主要比较 F1分数, 它可以评估精确率和召回率的平均情况。 4.所述方法还包括: 在SemEval公开的四个数据集上对模型改进模块进行实验验证, 并 且与主流模型算法和基准 算法比较性能, 用图表可视化展示实验结果。 5.根据权利要求4所述的方法, 其特征在于, 所述方法还包括:所提出的模型相对于最 经典的抽取模型LSTM ‑CRF在四个数据集上F1分数分别获得了2.37%、 2.78%、 4.01%和 2.34%的提升 。权 利 要 求 书 1/1 页 2 CN 114564953 A 2一种基于多种词嵌入融合与注意力机制的情 感目标抽取模型 技术领域 [0001]本发明涉及自然语言处理文本情感分析领域, 尤其是一种基于多种词嵌入融合与 注意力机制的情感目标抽取模型。 背景技术 [0002]目标抽取作为细粒度情感分析的子任务之一, 目的是从用户评论中抽取 明确的评 论目标词。 在产品评论中, 目标就是产品的某些属性。 比如 “这台笔记本内存挺大的, 价格有 点贵”这句评论中要抽取的情感目标就是 “内存”和“价格”, 如果属性词不包含情感那么就 不必要抽取, 这将有助于更好地理解句 子结构。 许多研究人员也将抽取任务表述为序列标 注任务。 作为自然语言处理领域的重要任务之一, 序列标注可以进行命名实体识别和词性 标注等, 识别出句子中有 特定含义的实体, 做法有基于词典、 基于统计和基于神经网络的方 法。 例如条件随机场等传统序列模型、 长 短期记忆网络都在目标抽取任务中有 所应用, 并取 得了一定的效果。 还有基于依存句法的研究运用句法解析学习句子中目标词与情感词的关 系, 但是这需要依赖句法解析的质量, 适合于句子结构简单的情况, 对于非结构化文本效果 不佳, 另外一些深度学习的模型处 理抽取问题时会编码与任务无关的信息 。 [0003]研究发现目标抽取任务中主流 的深度学习模型BiLSTM ‑CRF有两个主要的不足之 处。 一是输入层通常采用word2v ec或者GloVe词向量, 这种由大规模语料预训练的词向量缺 乏特定数据集领域的知识, 存在不同数据集中单词一词多义、 歧义的问题, 另外通用的的词 向量无法编 码字符级的信息, 当训练文本中含有 未出现在词典中的生僻词时无法映射成有 效的词向量, 作为最基础、 对后续特征提取有很大影响的一层, 应当增强词嵌入对于词语的 表征能力, 质量越高的词嵌入决定了后续的网络层可以越简单高效。 二是模型主要采用 LSTM提取文本的深层特征, 但是LSTM每一时刻的隐藏层状态只跟前一时刻有关, 具有较强 的依赖性, 当输入的句子比较长, 当前时刻的 隐状态将很难捕捉到最初输入的信息, 而这些 信息有可能很 关键。 直接输出隐藏层向量而没有采用权重函数自适应更新不同隐藏状态的 重要程度, 缺 乏对更应该关注的信息的使用。 总体来说当前很多算法很难充分挖掘词语之 间的关联, 导 致目标词提取不完整、 提取 出不包含情感的实体等问题。 [0004]针对问题一, 为了增强词嵌入一词多义的表征能力, 不能只采用GloVe通用词嵌 入, 还需要加入领域内词嵌入以及字符级词嵌入, 融合多种信息获取高质量的词向量从而 增强下游的任务性能; 针对问题二, 由于RNN存在遗忘问题, 评论过长, 最后一个状态记 不住 整句话、 不能有效利用整句话的信息, 这样虽然 可以识别实体, 但 也有可能会识别出不含情 感色彩的不必要的目标词。 而关注机制可以直接捕捉任意两个词语之间的关系, 不论距离 多远, 从而帮助抽取与情感词 联系更紧密的目标词。 结合多种词嵌入以及注意力机制的模 型能更智能、 高效的完成此任务。 发明内容 [0005]针对上述问题及技术需求, 提出了一种简单而有效的情感目标提取模型ME ‑ATT‑说 明 书 1/4 页 3 CN 114564953 A 3

.PDF文档 专利 一种基于多种词嵌入融合与注意力机制的情感目标抽取模型

文档预览
中文文档 8 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于多种词嵌入融合与注意力机制的情感目标抽取模型 第 1 页 专利 一种基于多种词嵌入融合与注意力机制的情感目标抽取模型 第 2 页 专利 一种基于多种词嵌入融合与注意力机制的情感目标抽取模型 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:45:09上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。