(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211060562.6 (22)申请日 2022.08.31 (71)申请人 南京邮电大 学 地址 210003 江苏省南京市 鼓楼区新模范 马路66号 (72)发明人 徐小龙 费岳凡  (74)专利代理 机构 南京正联知识产权代理有限 公司 32243 专利代理师 杭行 (51)Int.Cl. G06F 40/295(2020.01) G06F 16/9535(2019.01) G06F 16/951(2019.01) G06F 17/16(2006.01) (54)发明名称 一种面向金融产品智能推荐系统的命名实 体识别方法 (57)摘要 一种面向金融产品智能推荐系统的命名实 体识别方法, 基于现有数据集微调BERT预训练模 型, 预测收集到的领域内其他未标注的数据, 并 使用置信度筛选机制挑选出可信样 本; 接着将更 多的数据投入后续训练 中; 对每个样本通过BERT 预训练模型生成词向量特征; 根据词向量特征, 使用多尺度卷积得到样本句子特征; 并且对每个 样本使用FLAT ‑BERT模型生成字词特征; 以等权 重的方式将句子特征和字词特征拼接得到总体 特征; 对总体特征采用线性网络识别文本中的命 名实体。 本发明能够充分利用产品资讯文本信 息, 以精准地抽取出产品资讯信息中的命名实 体; 可以在命名实体识别的公开数据上都取得优 异的效果, 在对准确率要求较高的智能推荐系统 中具有良好的实用性。 权利要求书3页 说明书7页 附图1页 CN 115358240 A 2022.11.18 CN 115358240 A 1.一种面向金融产品智能推荐系统的命名实体识别方法, 其特 征在于: 包括如下步骤: S1: 基于现有数据 集微调BERT预训练模型, 经过词嵌入、 位置嵌入、 权重计算操作, 使用 训练完成的模型预测收集到的领域内其他未标注的数据, 对于每条未标注样本得到特征矩 阵Epre; S2: 根据Epre, 使用置信度筛选机制得到样本的置信度; 并将样本置信度大于阈值的样 本作为可信样本, 与原有的样本一 起投入到后续的训练; S3: 为每条样本构造格子结构, 生成具有格子结构的样本; 得到原始样本向量s1和格子 样本s2; S4:将向量s2作为输入传 给FLAT‑BERT模型, 经过字词嵌入、 位置嵌入、 权重计算操作得 到融入了 字词特征的特征表示矩阵Eflat; S5: 将向量s1作为输入传给BERT预训练模型, 经过词嵌入、 位置嵌入、 权重计算操作得 到词向量特 征表示矩阵Ebert; S6: 将矩阵Ebert分别通过卷积运算以及池化运算, 得到向量l, 并将l扩展成与Eflat同样 的形状, 得到样本句子特征表示矩阵Esentence; 将Eflat、 Esentence以等权重的方式在水平方向上 进行拼接得到样本总体特 征表示矩阵Econtext; S7: 使用线性变换矩阵Tpredict对Econtext进行线性变换, 得到每一个令牌归属的命名实 体, 抽取出的实体即为识别的结果。 2.根据权利要求1所述的一种面向金融产品智能推荐系统的命名实体识别方法, 其特 征在于: 所述 步骤S1中词嵌入、 位置嵌入、 权 重计算的具体 计算过程如下: Eembedding=Tembeddings1 Einput=Eembedding+PE Epre=Self‑Attention(Einput) 其中, s1是样本向量, Tembedding是词向量矩阵, 使用Tembedding对s1进行线性变换得到词向 量矩阵Eembedding; 接着使用sin和cos函数的线性变换来进行位置编码, 其中PE(pos,2i)和 PE(pos,2i+1)分别代表词向量中奇数位置和偶数位置的位置编码, 得到位置编码矩阵PE; 将PE 与Eembeddin g按照对应位置相加的方法得到最终的模型输入Einput; 对Einput使用BERT中的自注 意力算法Self ‑Attention得到样本特 征Epre。 3.根据权利要求1所述的一种面向金融产品智能推荐系统的命名实体识别方法, 其特 征在于: 所述 步骤S2中的置信度筛 选机制根据Epre依次进行如下计算: Econfidence=TconfidenceEpre Pconfidence=Softmax(Econfidence) Iconfidence=max(Pconfidence) Psample=min(Pentity1,Pentity2,…,Pentityn) 需要首先通过Tconfidence对Epre进行线性变换得到Econfidence, 其中Econfidence表示了每一个权 利 要 求 书 1/3 页 2 CN 115358240 A 2令牌归属到每 一个命名实体的得分, Tconfidence是对Econfidence进行线性变换的矩阵; 为了将得 到的置信度矩阵Econfidence表征为概率, 使用Softmax方法对 Econfidence进行运算, 其中Softmax 是对特征矩阵Econfidence中每一个令牌的特征向量进行归一化方法, 进而得到每一个令牌的 置信度Iconfidence, 其中, Iconfidence表示每个令牌分类的分数; 根据每一个令牌i的置信度 再计算每个预测 出的命名实体的置信度Pentity, 一个命名实体中可能包含多个 令牌, 根据 命名实体所包含的Token计算出命名实体的置信度Pentity; Pentityj表示第j个命名 实体的置信度; 最终根据多个命名实体的置信度计算得到样本的置信度Psample。 4.根据权利要求1所述的一种面向金融产品智能推荐系统的命名实体识别方法, 其特 征在于: 所述步骤S3中生成包含词汇特征的样本的方式为将一个词语也作为一个令牌, 并 使用头指针和尾指针标识这个词语在文本中出现的起始位置 。 5.根据权利要求4所述的一种面向金融产品智能推荐系统的命名实体识别方法, 其特 征在于: 对于单个的字符, 其头指针和尾指针是一样的。 6.根据权利要求1所述的一种面向金融产品智能推荐系统的命名实体识别方法, 其特 征在于: 所述 步骤S4中字词嵌入、 位置嵌入、 权 重计算操作的具体 计算的过程如下: Efembedding=Tfembeddings2 Efinput=Efembedding+R Eflat=Attention(Efinput) 其中, 格子结构由不同长度的跨度, 对于格子中的两个跨度xi和xj,他们之间有三种 关 系: 交集、 包含和分离, 他们之间的关系由他们的首尾决定; 使用head[i]和tail[i]表示xi 的头部和尾部的索引位置, 使用head[j ]和tail[j ]表示xj的头部和尾部的索引位置; 表示xi的头部索引位置和xj的头部索引位置的距离; 表示xi的头部索引位置和 xj的尾 部索引位置 的距离; 表示xi的尾部索引位置和xj的头部索引位置的距离; 表示xi 的尾部索引位置和xj的尾部索引位置的距离。 跨度的相对位置编码时四个距离的一个简单 的线性变换, 其中, Wr是一个可学习的参数, ⊕表示连接算子, Pd的计算方式是通 过sin和cos 来进行的; 将R与Efembeddin g按照对应位置相加的方法得到最终的模型输入Efinput。 对Efinput使权 利 要 求 书 2/3 页 3 CN 115358240 A 3

.PDF文档 专利 一种面向金融产品智能推荐系统的命名实体识别方法

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种面向金融产品智能推荐系统的命名实体识别方法 第 1 页 专利 一种面向金融产品智能推荐系统的命名实体识别方法 第 2 页 专利 一种面向金融产品智能推荐系统的命名实体识别方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:34:45上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。