(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211060562.6
(22)申请日 2022.08.31
(71)申请人 南京邮电大 学
地址 210003 江苏省南京市 鼓楼区新模范
马路66号
(72)发明人 徐小龙 费岳凡
(74)专利代理 机构 南京正联知识产权代理有限
公司 32243
专利代理师 杭行
(51)Int.Cl.
G06F 40/295(2020.01)
G06F 16/9535(2019.01)
G06F 16/951(2019.01)
G06F 17/16(2006.01)
(54)发明名称
一种面向金融产品智能推荐系统的命名实
体识别方法
(57)摘要
一种面向金融产品智能推荐系统的命名实
体识别方法, 基于现有数据集微调BERT预训练模
型, 预测收集到的领域内其他未标注的数据, 并
使用置信度筛选机制挑选出可信样 本; 接着将更
多的数据投入后续训练 中; 对每个样本通过BERT
预训练模型生成词向量特征; 根据词向量特征,
使用多尺度卷积得到样本句子特征; 并且对每个
样本使用FLAT ‑BERT模型生成字词特征; 以等权
重的方式将句子特征和字词特征拼接得到总体
特征; 对总体特征采用线性网络识别文本中的命
名实体。 本发明能够充分利用产品资讯文本信
息, 以精准地抽取出产品资讯信息中的命名实
体; 可以在命名实体识别的公开数据上都取得优
异的效果, 在对准确率要求较高的智能推荐系统
中具有良好的实用性。
权利要求书3页 说明书7页 附图1页
CN 115358240 A
2022.11.18
CN 115358240 A
1.一种面向金融产品智能推荐系统的命名实体识别方法, 其特 征在于: 包括如下步骤:
S1: 基于现有数据 集微调BERT预训练模型, 经过词嵌入、 位置嵌入、 权重计算操作, 使用
训练完成的模型预测收集到的领域内其他未标注的数据, 对于每条未标注样本得到特征矩
阵Epre;
S2: 根据Epre, 使用置信度筛选机制得到样本的置信度; 并将样本置信度大于阈值的样
本作为可信样本, 与原有的样本一 起投入到后续的训练;
S3: 为每条样本构造格子结构, 生成具有格子结构的样本; 得到原始样本向量s1和格子
样本s2;
S4:将向量s2作为输入传 给FLAT‑BERT模型, 经过字词嵌入、 位置嵌入、 权重计算操作得
到融入了 字词特征的特征表示矩阵Eflat;
S5: 将向量s1作为输入传给BERT预训练模型, 经过词嵌入、 位置嵌入、 权重计算操作得
到词向量特 征表示矩阵Ebert;
S6: 将矩阵Ebert分别通过卷积运算以及池化运算, 得到向量l, 并将l扩展成与Eflat同样
的形状, 得到样本句子特征表示矩阵Esentence; 将Eflat、 Esentence以等权重的方式在水平方向上
进行拼接得到样本总体特 征表示矩阵Econtext;
S7: 使用线性变换矩阵Tpredict对Econtext进行线性变换, 得到每一个令牌归属的命名实
体, 抽取出的实体即为识别的结果。
2.根据权利要求1所述的一种面向金融产品智能推荐系统的命名实体识别方法, 其特
征在于: 所述 步骤S1中词嵌入、 位置嵌入、 权 重计算的具体 计算过程如下:
Eembedding=Tembeddings1
Einput=Eembedding+PE
Epre=Self‑Attention(Einput)
其中, s1是样本向量, Tembedding是词向量矩阵, 使用Tembedding对s1进行线性变换得到词向
量矩阵Eembedding; 接着使用sin和cos函数的线性变换来进行位置编码, 其中PE(pos,2i)和
PE(pos,2i+1)分别代表词向量中奇数位置和偶数位置的位置编码, 得到位置编码矩阵PE; 将PE
与Eembeddin g按照对应位置相加的方法得到最终的模型输入Einput; 对Einput使用BERT中的自注
意力算法Self ‑Attention得到样本特 征Epre。
3.根据权利要求1所述的一种面向金融产品智能推荐系统的命名实体识别方法, 其特
征在于: 所述 步骤S2中的置信度筛 选机制根据Epre依次进行如下计算:
Econfidence=TconfidenceEpre
Pconfidence=Softmax(Econfidence)
Iconfidence=max(Pconfidence)
Psample=min(Pentity1,Pentity2,…,Pentityn)
需要首先通过Tconfidence对Epre进行线性变换得到Econfidence, 其中Econfidence表示了每一个权 利 要 求 书 1/3 页
2
CN 115358240 A
2令牌归属到每 一个命名实体的得分, Tconfidence是对Econfidence进行线性变换的矩阵; 为了将得
到的置信度矩阵Econfidence表征为概率, 使用Softmax方法对 Econfidence进行运算, 其中Softmax
是对特征矩阵Econfidence中每一个令牌的特征向量进行归一化方法, 进而得到每一个令牌的
置信度Iconfidence, 其中, Iconfidence表示每个令牌分类的分数; 根据每一个令牌i的置信度
再计算每个预测 出的命名实体的置信度Pentity, 一个命名实体中可能包含多个
令牌, 根据 命名实体所包含的Token计算出命名实体的置信度Pentity; Pentityj表示第j个命名
实体的置信度; 最终根据多个命名实体的置信度计算得到样本的置信度Psample。
4.根据权利要求1所述的一种面向金融产品智能推荐系统的命名实体识别方法, 其特
征在于: 所述步骤S3中生成包含词汇特征的样本的方式为将一个词语也作为一个令牌, 并
使用头指针和尾指针标识这个词语在文本中出现的起始位置 。
5.根据权利要求4所述的一种面向金融产品智能推荐系统的命名实体识别方法, 其特
征在于: 对于单个的字符, 其头指针和尾指针是一样的。
6.根据权利要求1所述的一种面向金融产品智能推荐系统的命名实体识别方法, 其特
征在于: 所述 步骤S4中字词嵌入、 位置嵌入、 权 重计算操作的具体 计算的过程如下:
Efembedding=Tfembeddings2
Efinput=Efembedding+R
Eflat=Attention(Efinput)
其中, 格子结构由不同长度的跨度, 对于格子中的两个跨度xi和xj,他们之间有三种 关
系: 交集、 包含和分离, 他们之间的关系由他们的首尾决定; 使用head[i]和tail[i]表示xi
的头部和尾部的索引位置, 使用head[j ]和tail[j ]表示xj的头部和尾部的索引位置;
表示xi的头部索引位置和xj的头部索引位置的距离;
表示xi的头部索引位置和 xj的尾
部索引位置 的距离;
表示xi的尾部索引位置和xj的头部索引位置的距离;
表示xi
的尾部索引位置和xj的尾部索引位置的距离。 跨度的相对位置编码时四个距离的一个简单
的线性变换, 其中, Wr是一个可学习的参数, ⊕表示连接算子, Pd的计算方式是通 过sin和cos
来进行的; 将R与Efembeddin g按照对应位置相加的方法得到最终的模型输入Efinput。 对Efinput使权 利 要 求 书 2/3 页
3
CN 115358240 A
3
专利 一种面向金融产品智能推荐系统的命名实体识别方法
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:34:45上传分享