(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210292434.8
(22)申请日 2022.03.24
(65)同一申请的已公布的文献号
申请公布号 CN 114386425 A
(43)申请公布日 2022.04.22
(73)专利权人 天津思睿信息技 术有限公司
地址 300000 天津市滨 海新区高新区滨 海
科技园高新六路39号2号楼2单元201-
10号
(72)发明人 李晋 刘宇鹏
(74)专利代理 机构 天津合正知识产权代理有限
公司 12229
专利代理师 吕琦
(51)Int.Cl.
G06F 40/295(2020.01)G06F 40/205(2020.01)
G06F 40/30(2020.01)
G06K 9/62(2022.01)
G06N 3/08(2006.01)
(56)对比文件
CN 107273 349 A,2017.10.20
CN 106569998 A,2017.04.19
CN 10975 3566 A,2019.0 5.14
黎洁涵.“基于深度神经网络的自然场景文
本识别”. 《中国优秀博硕士学位 论文全文数据库
(硕士) (信息科技 辑) 》 .2020,(第07期),第
2.4.3.3节.
审查员 崔茜
(54)发明名称
用于对自然语言文本内容进行处理的大数
据体系建立方法
(57)摘要
本发明提出了用于对自然语言文本内容进
行处理的大数据体系建立方法, 包括: 获得待处
理的自然语言文本; 对待处理的自然语 言文本进
行预处理, 将待处理的自然语言文本进行规范化
表示; 用多个大小不等的卷积窗口对规范化表示
的自然语言文本进行卷积及最大池化操作, 得到
特征向量矩阵; 将具有相同实体对的句子经过步
骤卷积及最大池化操作后, 输出相同实体对特征
向量矩阵, 计算每个相同实体对 特征向量的权重
值, 得到过滤后的特征向量矩阵, 将过滤后的特
征向量矩阵与预定的关系矩阵相乘, 得到关联程
度矩阵, 利用目标函数训练和优化参数, 得到大
数据优化体系对待处理的自然语言文本做处理,
输出处理后的目标结果。
权利要求书3页 说明书9页 附图4页
CN 114386425 B
2022.06.10
CN 114386425 B
1.用于对自然语言文本内容进行处理的大数据体系建立方法, 其特征在于, 包括如下
步骤:
S1、 获得待处 理的自然语言文本;
S2、 对待处理的自然语言文本进行预处理, 将待处理的自然语言文本进行规范化表示;
将所有的待处理的自然语言文本的句 子表示填充到预先设定的最长长度n, 对所述待处理
的自然语言文本的句子S=w1w2…wi…wn, 通过查询词向量词典将词wi表示为dw维的词向量
, 通过查询位置向量词典将wi相对位置信息表示为2 ×dp维的位置向量
分别表示词wi与句子中的前一个词和后一个词的距离, 将词
向量与位置向量连接成一个dw + 2×dp维的向量
, 则所述待处
理的自然语言文本的句子S被表示成大小为(dw + 2×dp)×n的矩阵x=[x1, x2, x3,…, xn];
S3、 用多个大小不等的卷积窗口对规范化表示的自然语言文本进行卷积及最大池化操
作, 得到句子特 征向量矩阵;
使用l1个卷积窗口对候选关系实例进行卷积、 最大池化后, 得到一个l1维的特征向量矩
阵Z1, 使用l2个第二类卷积窗口及 l3个第三类卷积窗口提取特征, 分别得到一个l2维的特征
向量矩阵Z2及一个l3维的特征向量矩阵Z3, 将向量Z1、 Z2、 Z3首尾连接得到一个l1+ l2+ l3维
的特征向量矩阵Z ′, 用于表示待处 理的句子特 征向量矩阵Z ′, Z′=[Z1, Z2, Z3];
S4、 将具有相同实体对的句子S1, S2,…, Si,…, Sn经过步骤S3后, 输出相同实体对特征向
量矩阵
;
计算每个相同实体对特 征向量的权 重值
, 得到过滤后特征向量矩阵
:
; 其中, n表示所有句子的总数量;
S5、 将过滤后特征向量矩阵
与预定的关系矩阵R相乘, 得到关联程度矩阵O,
;
其中B是偏置向量;
S6、 计算条件概 率
:权 利 要 求 书 1/3 页
2
CN 114386425 B
2;
其中, O是关联程度矩阵, Ok是关联程度矩阵中代表第k个关系类型的关系向量, θ 是条件
概率参数,
是过滤后特征向量矩阵, nZ是关系类型的总数量;
S7、 利用目标函数
, 训练和优化条件概 率参数, 得到大 数据优化体系;
;
其中,
为第j个条件概 率参数, M为条件概 率参数的总数;
S8、 利用步骤S7优化后的大数据体系对待处理的自然语言文本做处理, 输出处理后的
目标结果。
2.根据权利要求1所述的大数据体系建立方法, 其特征在于, 所述步骤S3中, 使用大小
为k的卷积窗q,将xi、 xi的父节点、 xi的兄弟节点的词向量进行 卷积操作, 得到特 征值hi:
;
其中,
,
是查
找 词向 量 词典 得 到的 词 wi的 向 量 表 示 ,
是 wi的 父 节 点的 词向 量 ,
是wi的兄弟节点的词向量, tanh是双曲正切函
数, b是偏置项;
得到特征向量矩阵H=[h1, h2, ..., hi, ..., hn], 最大池 化操作将特征向量矩阵H中所有元
素的最大值 提取出来, 作为卷积窗口q的最终抽取 特征。
3.根据权利要求2所述的大数据体系建立方法, 其特征在于, 所述步骤S4中, 计算每个
相同实体对特 征向量的权 重值
,
定义如下:
;
是中间过程的优先权 重值。
4.根据权利要求1所述的大数据体系建立方法, 其特征在于, 所述步骤S7中, 采用
Dropout进行正则化约束, 在迭代时将目标函数乘以一个小于1的因子λ, 用于减小参数θ 的
值。
5.根据权利要求4所述的大数据体系建立方法, 其特征在于, 使用Dropout进行正则化权 利 要 求 书 2/3 页
3
CN 114386425 B
3
专利 用于对自然语言文本内容进行处理的大数据体系建立方法
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:51:45上传分享