专利用于对自然语言文本内容进行处理的大数据体系建立方法 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210292434.8 (22)申请日 2022.03.24 (65)同一申请的已公布的文献号申请公布号 CN 114386425 A (43)申请公布日 2022.04.22 (73)专利权人天津思睿信息技术有限公司地址 300000 天津市滨海新区高新区滨海科技园高新六路39号2号楼2单元201- 10号 (72)发明人李晋　刘宇鹏　 (74)专利代理机构天津合正知识产权代理有限公司 12229 专利代理师吕琦 (51)Int.Cl. G06F 40/295(2020.01)G06F 40/205(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/08(2006.01) (56)对比文件 CN 107273 349 A,2017.10.20 CN 106569998 A,2017.04.19 CN 10975 3566 A,2019.0 5.14 黎洁涵.“基于深度神经网络的自然场景文本识别”. 《中国优秀博硕士学位论文全文数据库（硕士）（信息科技辑）》 .2020,(第07期),第 2.4.3.3节. 审查员崔茜 (54)发明名称用于对自然语言文本内容进行处理的大数据体系建立方法 (57)摘要本发明提出了用于对自然语言文本内容进行处理的大数据体系建立方法，包括：获得待处理的自然语言文本；对待处理的自然语言文本进行预处理，将待处理的自然语言文本进行规范化表示；用多个大小不等的卷积窗口对规范化表示的自然语言文本进行卷积及最大池化操作，得到特征向量矩阵；将具有相同实体对的句子经过步骤卷积及最大池化操作后，输出相同实体对特征向量矩阵，计算每个相同实体对特征向量的权重值，得到过滤后的特征向量矩阵，将过滤后的特征向量矩阵与预定的关系矩阵相乘，得到关联程度矩阵，利用目标函数训练和优化参数，得到大数据优化体系对待处理的自然语言文本做处理，输出处理后的目标结果。权利要求书3页说明书9页附图4页 CN 114386425 B 2022.06.10 CN 114386425 B 1.用于对自然语言文本内容进行处理的大数据体系建立方法，其特征在于，包括如下步骤： S1、获得待处理的自然语言文本； S2、对待处理的自然语言文本进行预处理，将待处理的自然语言文本进行规范化表示；将所有的待处理的自然语言文本的句子表示填充到预先设定的最长长度n，对所述待处理的自然语言文本的句子S=w1w2…wi…wn，通过查询词向量词典将词wi表示为dw维的词向量，通过查询位置向量词典将wi相对位置信息表示为2 ×dp维的位置向量分别表示词wi与句子中的前一个词和后一个词的距离，将词向量与位置向量连接成一个dw + 2×dp维的向量，则所述待处理的自然语言文本的句子S被表示成大小为(dw + 2×dp)×n的矩阵x=[x1， x2， x3，…， xn]； S3、用多个大小不等的卷积窗口对规范化表示的自然语言文本进行卷积及最大池化操作，得到句子特征向量矩阵；使用l1个卷积窗口对候选关系实例进行卷积、最大池化后，得到一个l1维的特征向量矩阵Z1，使用l2个第二类卷积窗口及 l3个第三类卷积窗口提取特征，分别得到一个l2维的特征向量矩阵Z2及一个l3维的特征向量矩阵Z3，将向量Z1、 Z2、 Z3首尾连接得到一个l1+ l2+ l3维的特征向量矩阵Z ′，用于表示待处理的句子特征向量矩阵Z ′， Z′=[Z1， Z2， Z3]； S4、将具有相同实体对的句子S1， S2，…， Si，…， Sn经过步骤S3后，输出相同实体对特征向量矩阵；计算每个相同实体对特征向量的权重值，得到过滤后特征向量矩阵：；其中， n表示所有句子的总数量； S5、将过滤后特征向量矩阵与预定的关系矩阵R相乘，得到关联程度矩阵O，；其中B是偏置向量； S6、计算条件概率：权　利　要　求　书 1/3 页 2 CN 114386425 B 2；其中， O是关联程度矩阵， Ok是关联程度矩阵中代表第k个关系类型的关系向量， θ 是条件概率参数，是过滤后特征向量矩阵， nZ是关系类型的总数量； S7、利用目标函数，训练和优化条件概率参数，得到大数据优化体系；；其中，为第j个条件概率参数， M为条件概率参数的总数； S8、利用步骤S7优化后的大数据体系对待处理的自然语言文本做处理，输出处理后的目标结果。 2.根据权利要求1所述的大数据体系建立方法，其特征在于，所述步骤S3中，使用大小为k的卷积窗q,将xi、 xi的父节点、 xi的兄弟节点的词向量进行卷积操作，得到特征值hi：；其中，，是查找词向量词典得到的词 wi的向量表示，是 wi的父节点的词向量，是wi的兄弟节点的词向量， tanh是双曲正切函数， b是偏置项；得到特征向量矩阵H=[h1， h2， ...， hi， ...， hn]，最大池化操作将特征向量矩阵H中所有元素的最大值提取出来，作为卷积窗口q的最终抽取特征。 3.根据权利要求2所述的大数据体系建立方法，其特征在于，所述步骤S4中，计算每个相同实体对特征向量的权重值，定义如下：；是中间过程的优先权重值。 4.根据权利要求1所述的大数据体系建立方法，其特征在于，所述步骤S7中，采用 Dropout进行正则化约束，在迭代时将目标函数乘以一个小于1的因子λ，用于减小参数θ 的值。 5.根据权利要求4所述的大数据体系建立方法，其特征在于，使用Dropout进行正则化权　利　要　求　书 2/3 页 3 CN 114386425 B 3

专利 用于对自然语言文本内容进行处理的大数据体系建立方法

专利用于对自然语言文本内容进行处理的大数据体系建立方法