(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210319228.1 (22)申请日 2022.03.29 (71)申请人 山东省计算中心 (国家超 级计算济 南中心) 地址 250014 山东省济南市历下区科院路 19号 申请人 齐鲁工业大学  山东山科智能科技有限公司 (72)发明人 刘祥志 于洋 吴晓明 石金泽  薛许强 张鹏 汪付强 张建强  郝秋赟 马晓凤 满佳政 孙丰收  乔友为  (74)专利代理 机构 济南圣达知识产权代理有限 公司 372 21 专利代理师 黄海丽(51)Int.Cl. G06F 16/35(2019.01) G06F 40/211(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于注意力机制的企业文本多标签标注方 法及系统 (57)摘要 本发明公开了基于注意力机制的企业文本 多标签标注方法及系统; 其中所述方法, 包括: 获 取数据对象需求者的基本属性信息; 对获取的信 息进行预处理; 对预处理后的数据, 采用训练后 的企业文本多标签标注模型进行标注, 得到多个 标注标签; 其中, 所述企业文本多标签标注模型, 采用注意力机制层进行文本句法和语义特征提 取。 本发明的企业文本标签标注方法与系统能够 自动的对企业文本和标签进行标注、 分类和储 存, 既方便用户准确查询企业经营内容, 也方便 相关人员实时掌握本区企业的行业分布动态, 整 个过程无需人工 干预, 由系统自动完成。 权利要求书2页 说明书7页 附图1页 CN 114722196 A 2022.07.08 CN 114722196 A 1.基于注意力机制的企业文本多标签标注方法, 其特 征是, 包括: 获取数据对象需求 者的基本属性信息; 对获取的信息进行 预处理; 对预处理后的数据, 采用训练后的企业文本多标签标注模型进行标注, 得到多个标注 标签; 其中, 所述企业文本多标签标注模型, 采用注意力机制层进行文本句法和语义特征提 取。 2.如权利要求1所述的基于注意力 机制的企业文本多标签标注方法, 其特征是, 获取数 据对象需求 者的基本属性信息; 包括: 从企业信息库中, 读取 预先存储的目标企业的基本属性信息; 和/或 向企业侧提供信息 输入操作接口, 获得企业侧利用该接口输入的基本属性信息 。 3.如权利要求1所述的基于注意力 机制的企业文本多标签标注方法, 其特征是, 对获取 的信息进行 预处理; 包括: 对获取的信息进行噪声 去除处理; 其中, 噪声是指与企业经 营状况行为无关的内容; 对获取的信息进行 数据清洗处 理; 以及对获取的信息进行冗余数据剔除处 理; 所述对获取的信息进行 数据清洗处 理; 是指去除与企业活动信息无关的数据; 所述数据清洗, 还 包括: 去除低频词汇, 去除停用词汇, 去除噪声词汇; 所述对获取的信 息进行冗余数据剔除处理; 是指: 标注指定名词的替换词, 以防止企业 文本地域性歧视。 4.如权利要求1所述的基于注意力 机制的企业文本多标签标注方法, 其特征是, 所述企 业文本多标签标注模型, 网络结构包括: BERT词嵌入层; 所述BERT词嵌入层的输入端用于 输入预处 理后的企业文本数据; 所述BERT词嵌入层的输出端输出企业文本数据的词向量矩阵; 将企业文本数据的词向量矩阵, 分别输入Bi LSTM神经网络及CN N神经网络; BiLSTM神经网络, 提取 出第一特 征向量; CNN神经网络, 提取 出第二特 征向量; 第一特征向量和第二特征向量拼接融合后, 输入到注意力机制层, 输出文本句法和语 义特征; 将文本句法和语义特 征输入到全连接层中, 进行分类, 得到标签分类结果。 5.如权利要求1所述的基于注意力 机制的企业文本多标签标注方法, 其特征是, 所述训 练后的企业文本多标签标注模型; 训练过程包括: 构建训练集和 测试集; 所述训练集和 测试集均为已知标签的企业文本信息; 将训练集输入到企业文本多标签标注模型中, 对模型进行训练, 当模型的损 失函数达 到最小值时, 停止训练; 采用测试集对企业文本多标签标注模型进行测试; 如果测试的准确率超过设定阈值, 则得到训练后的企业文本多标签标注模型; 如果测 试的准确率低于设定阈值, 则更 换训练集, 再次对 模型进行训练。权 利 要 求 书 1/2 页 2 CN 114722196 A 26.如权利要求5所述的基于注意力 机制的企业文本多标签标注方法, 其特征是, 所述构 建训练集; 具体过程包括: 对收集好的企业文本数据, 按照国民经济行业分类的20个门类类别, 进行企业文本信 息人工标注, 然后将企业文本信息划分为训练集、 测试集、 验证集保存在文本文件中。 7.如权利要求1所述的基于注意力 机制的企业文本多标签标注方法, 其特征是, 获取数 据对象需求 者的基本属性信息; 包括: 企业名称、 企业法人、 企业经 营范围或者企业 地址。 8.基于注意力机制的企业文本多标签标注系统, 其特 征是, 包括: 获取模块, 其被 配置为: 获取 数据对象需求 者的基本属性信息; 预处理模块, 其被 配置为: 对获取的信息进行 预处理; 标注模块, 其被配置为: 对预处理后的数据, 采用训练后的企业文本多标签标注模型进 行标注, 得到多个标注标签; 其中, 所述企业文本多标签标注模型, 采用注意力机制层进行文本句法和语义特征提 取。 9.一种电子设备, 其特 征是, 包括: 存储器, 用于非暂时性存 储计算机可读指令; 以及 处理器, 用于运行 所述计算机可读指令, 其中, 所述计算机可读指令被所述处理器运行时, 执行上述权利要求1 ‑7任一项所述的 方法。 10.一种存储介质, 其特征是, 非暂时性地存储计算机可读指令, 其中, 当所述非暂时性 计算机可读指令由计算机执 行时, 执行权利要求1 ‑7任一项所述方法的指令 。权 利 要 求 书 2/2 页 3 CN 114722196 A 3

.PDF文档 专利 基于注意力机制的企业文本多标签标注方法及系统

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于注意力机制的企业文本多标签标注方法及系统 第 1 页 专利 基于注意力机制的企业文本多标签标注方法及系统 第 2 页 专利 基于注意力机制的企业文本多标签标注方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:49:33上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。