专利一种面向金融产品智能推荐系统的命名实体识别方法 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211060562.6 (22)申请日 2022.08.31 (71)申请人南京邮电大学地址 210003 江苏省南京市鼓楼区新模范马路66号 (72)发明人徐小龙　费岳凡　 (74)专利代理机构南京正联知识产权代理有限公司 32243 专利代理师杭行 (51)Int.Cl. G06F 40/295(2020.01) G06F 16/9535(2019.01) G06F 16/951(2019.01) G06F 17/16(2006.01) (54)发明名称一种面向金融产品智能推荐系统的命名实体识别方法 (57)摘要一种面向金融产品智能推荐系统的命名实体识别方法，基于现有数据集微调BERT预训练模型，预测收集到的领域内其他未标注的数据，并使用置信度筛选机制挑选出可信样本；接着将更多的数据投入后续训练中；对每个样本通过BERT 预训练模型生成词向量特征；根据词向量特征，使用多尺度卷积得到样本句子特征；并且对每个样本使用FLAT ‑BERT模型生成字词特征；以等权重的方式将句子特征和字词特征拼接得到总体特征；对总体特征采用线性网络识别文本中的命名实体。本发明能够充分利用产品资讯文本信息，以精准地抽取出产品资讯信息中的命名实体；可以在命名实体识别的公开数据上都取得优异的效果，在对准确率要求较高的智能推荐系统中具有良好的实用性。权利要求书3页说明书7页附图1页 CN 115358240 A 2022.11.18 CN 115358240 A 1.一种面向金融产品智能推荐系统的命名实体识别方法，其特征在于：包括如下步骤： S1：基于现有数据集微调BERT预训练模型，经过词嵌入、位置嵌入、权重计算操作，使用训练完成的模型预测收集到的领域内其他未标注的数据，对于每条未标注样本得到特征矩阵Epre； S2：根据Epre，使用置信度筛选机制得到样本的置信度；并将样本置信度大于阈值的样本作为可信样本，与原有的样本一起投入到后续的训练； S3：为每条样本构造格子结构，生成具有格子结构的样本；得到原始样本向量s1和格子样本s2； S4:将向量s2作为输入传给FLAT‑BERT模型，经过字词嵌入、位置嵌入、权重计算操作得到融入了字词特征的特征表示矩阵Eflat； S5：将向量s1作为输入传给BERT预训练模型，经过词嵌入、位置嵌入、权重计算操作得到词向量特征表示矩阵Ebert； S6：将矩阵Ebert分别通过卷积运算以及池化运算，得到向量l，并将l扩展成与Eflat同样的形状，得到样本句子特征表示矩阵Esentence；将Eflat、 Esentence以等权重的方式在水平方向上进行拼接得到样本总体特征表示矩阵Econtext； S7：使用线性变换矩阵Tpredict对Econtext进行线性变换，得到每一个令牌归属的命名实体，抽取出的实体即为识别的结果。 2.根据权利要求1所述的一种面向金融产品智能推荐系统的命名实体识别方法，其特征在于：所述步骤S1中词嵌入、位置嵌入、权重计算的具体计算过程如下： Eembedding＝Tembeddings1 Einput＝Eembedding+PE Epre＝Self‑Attention(Einput) 其中， s1是样本向量， Tembedding是词向量矩阵，使用Tembedding对s1进行线性变换得到词向量矩阵Eembedding；接着使用sin和cos函数的线性变换来进行位置编码，其中PE(pos,2i)和 PE(pos,2i+1)分别代表词向量中奇数位置和偶数位置的位置编码，得到位置编码矩阵PE；将PE 与Eembeddin g按照对应位置相加的方法得到最终的模型输入Einput；对Einput使用BERT中的自注意力算法Self ‑Attention得到样本特征Epre。 3.根据权利要求1所述的一种面向金融产品智能推荐系统的命名实体识别方法，其特征在于：所述步骤S2中的置信度筛选机制根据Epre依次进行如下计算： Econfidence＝TconfidenceEpre Pconfidence＝Softmax(Econfidence) Iconfidence＝max(Pconfidence) Psample＝min(Pentity1,Pentity2,…,Pentityn) 需要首先通过Tconfidence对Epre进行线性变换得到Econfidence，其中Econfidence表示了每一个权　利　要　求　书 1/3 页 2 CN 115358240 A 2令牌归属到每一个命名实体的得分， Tconfidence是对Econfidence进行线性变换的矩阵；为了将得到的置信度矩阵Econfidence表征为概率，使用Softmax方法对 Econfidence进行运算，其中Softmax 是对特征矩阵Econfidence中每一个令牌的特征向量进行归一化方法，进而得到每一个令牌的置信度Iconfidence，其中， Iconfidence表示每个令牌分类的分数；根据每一个令牌i的置信度再计算每个预测出的命名实体的置信度Pentity，一个命名实体中可能包含多个令牌，根据命名实体所包含的Token计算出命名实体的置信度Pentity； Pentityj表示第j个命名实体的置信度；最终根据多个命名实体的置信度计算得到样本的置信度Psample。 4.根据权利要求1所述的一种面向金融产品智能推荐系统的命名实体识别方法，其特征在于：所述步骤S3中生成包含词汇特征的样本的方式为将一个词语也作为一个令牌，并使用头指针和尾指针标识这个词语在文本中出现的起始位置。 5.根据权利要求4所述的一种面向金融产品智能推荐系统的命名实体识别方法，其特征在于：对于单个的字符，其头指针和尾指针是一样的。 6.根据权利要求1所述的一种面向金融产品智能推荐系统的命名实体识别方法，其特征在于：所述步骤S4中字词嵌入、位置嵌入、权重计算操作的具体计算的过程如下： Efembedding＝Tfembeddings2 Efinput＝Efembedding+R Eflat＝Attention(Efinput) 其中，格子结构由不同长度的跨度，对于格子中的两个跨度xi和xj,他们之间有三种关系：交集、包含和分离，他们之间的关系由他们的首尾决定；使用head[i]和tail[i]表示xi 的头部和尾部的索引位置，使用head[j ]和tail[j ]表示xj的头部和尾部的索引位置；表示xi的头部索引位置和xj的头部索引位置的距离；表示xi的头部索引位置和 xj的尾部索引位置的距离；表示xi的尾部索引位置和xj的头部索引位置的距离；表示xi 的尾部索引位置和xj的尾部索引位置的距离。跨度的相对位置编码时四个距离的一个简单的线性变换，其中， Wr是一个可学习的参数， ⊕表示连接算子， Pd的计算方式是通过sin和cos 来进行的；将R与Efembeddin g按照对应位置相加的方法得到最终的模型输入Efinput。对Efinput使权　利　要　求　书 2/3 页 3 CN 115358240 A 3

专利 一种面向金融产品智能推荐系统的命名实体识别方法

专利一种面向金融产品智能推荐系统的命名实体识别方法