国家标准网
文库搜索
切换导航
首页
频道
仅15元无限下载
联系我们
首页
仅15元无限下载
联系我们
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210319228.1 (22)申请日 2022.03.29 (71)申请人 山东省计算中心 (国家超 级计算济 南中心) 地址 250014 山东省济南市历下区科院路 19号 申请人 齐鲁工业大学 山东山科智能科技有限公司 (72)发明人 刘祥志 于洋 吴晓明 石金泽 薛许强 张鹏 汪付强 张建强 郝秋赟 马晓凤 满佳政 孙丰收 乔友为 (74)专利代理 机构 济南圣达知识产权代理有限 公司 372 21 专利代理师 黄海丽(51)Int.Cl. G06F 16/35(2019.01) G06F 40/211(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于注意力机制的企业文本多标签标注方 法及系统 (57)摘要 本发明公开了基于注意力机制的企业文本 多标签标注方法及系统; 其中所述方法, 包括: 获 取数据对象需求者的基本属性信息; 对获取的信 息进行预处理; 对预处理后的数据, 采用训练后 的企业文本多标签标注模型进行标注, 得到多个 标注标签; 其中, 所述企业文本多标签标注模型, 采用注意力机制层进行文本句法和语义特征提 取。 本发明的企业文本标签标注方法与系统能够 自动的对企业文本和标签进行标注、 分类和储 存, 既方便用户准确查询企业经营内容, 也方便 相关人员实时掌握本区企业的行业分布动态, 整 个过程无需人工 干预, 由系统自动完成。 权利要求书2页 说明书7页 附图1页 CN 114722196 A 2022.07.08 CN 114722196 A 1.基于注意力机制的企业文本多标签标注方法, 其特 征是, 包括: 获取数据对象需求 者的基本属性信息; 对获取的信息进行 预处理; 对预处理后的数据, 采用训练后的企业文本多标签标注模型进行标注, 得到多个标注 标签; 其中, 所述企业文本多标签标注模型, 采用注意力机制层进行文本句法和语义特征提 取。 2.如权利要求1所述的基于注意力 机制的企业文本多标签标注方法, 其特征是, 获取数 据对象需求 者的基本属性信息; 包括: 从企业信息库中, 读取 预先存储的目标企业的基本属性信息; 和/或 向企业侧提供信息 输入操作接口, 获得企业侧利用该接口输入的基本属性信息 。 3.如权利要求1所述的基于注意力 机制的企业文本多标签标注方法, 其特征是, 对获取 的信息进行 预处理; 包括: 对获取的信息进行噪声 去除处理; 其中, 噪声是指与企业经 营状况行为无关的内容; 对获取的信息进行 数据清洗处 理; 以及对获取的信息进行冗余数据剔除处 理; 所述对获取的信息进行 数据清洗处 理; 是指去除与企业活动信息无关的数据; 所述数据清洗, 还 包括: 去除低频词汇, 去除停用词汇, 去除噪声词汇; 所述对获取的信 息进行冗余数据剔除处理; 是指: 标注指定名词的替换词, 以防止企业 文本地域性歧视。 4.如权利要求1所述的基于注意力 机制的企业文本多标签标注方法, 其特征是, 所述企 业文本多标签标注模型, 网络结构包括: BERT词嵌入层; 所述BERT词嵌入层的输入端用于 输入预处 理后的企业文本数据; 所述BERT词嵌入层的输出端输出企业文本数据的词向量矩阵; 将企业文本数据的词向量矩阵, 分别输入Bi LSTM神经网络及CN N神经网络; BiLSTM神经网络, 提取 出第一特 征向量; CNN神经网络, 提取 出第二特 征向量; 第一特征向量和第二特征向量拼接融合后, 输入到注意力机制层, 输出文本句法和语 义特征; 将文本句法和语义特 征输入到全连接层中, 进行分类, 得到标签分类结果。 5.如权利要求1所述的基于注意力 机制的企业文本多标签标注方法, 其特征是, 所述训 练后的企业文本多标签标注模型; 训练过程包括: 构建训练集和 测试集; 所述训练集和 测试集均为已知标签的企业文本信息; 将训练集输入到企业文本多标签标注模型中, 对模型进行训练, 当模型的损 失函数达 到最小值时, 停止训练; 采用测试集对企业文本多标签标注模型进行测试; 如果测试的准确率超过设定阈值, 则得到训练后的企业文本多标签标注模型; 如果测 试的准确率低于设定阈值, 则更 换训练集, 再次对 模型进行训练。权 利 要 求 书 1/2 页 2 CN 114722196 A 26.如权利要求5所述的基于注意力 机制的企业文本多标签标注方法, 其特征是, 所述构 建训练集; 具体过程包括: 对收集好的企业文本数据, 按照国民经济行业分类的20个门类类别, 进行企业文本信 息人工标注, 然后将企业文本信息划分为训练集、 测试集、 验证集保存在文本文件中。 7.如权利要求1所述的基于注意力 机制的企业文本多标签标注方法, 其特征是, 获取数 据对象需求 者的基本属性信息; 包括: 企业名称、 企业法人、 企业经 营范围或者企业 地址。 8.基于注意力机制的企业文本多标签标注系统, 其特 征是, 包括: 获取模块, 其被 配置为: 获取 数据对象需求 者的基本属性信息; 预处理模块, 其被 配置为: 对获取的信息进行 预处理; 标注模块, 其被配置为: 对预处理后的数据, 采用训练后的企业文本多标签标注模型进 行标注, 得到多个标注标签; 其中, 所述企业文本多标签标注模型, 采用注意力机制层进行文本句法和语义特征提 取。 9.一种电子设备, 其特 征是, 包括: 存储器, 用于非暂时性存 储计算机可读指令; 以及 处理器, 用于运行 所述计算机可读指令, 其中, 所述计算机可读指令被所述处理器运行时, 执行上述权利要求1 ‑7任一项所述的 方法。 10.一种存储介质, 其特征是, 非暂时性地存储计算机可读指令, 其中, 当所述非暂时性 计算机可读指令由计算机执 行时, 执行权利要求1 ‑7任一项所述方法的指令 。权 利 要 求 书 2/2 页 3 CN 114722196 A 3
专利 基于注意力机制的企业文本多标签标注方法及系统
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 17:49:33
上传分享
举报
下载
原文档
(453.9 KB)
分享
友情链接
T-CSPSTC 78—2021 顶管法管道工程技术规程.pdf
GB-T 12969.1-2007 钛及钛合金管材超声波探伤方法.pdf
OWASP 代码审计指南v2.0 中文版.pdf
DB12-T 1121-2022 基坑降水水资源论证技术规程 天津市.pdf
GB-T 3730.1-2022 汽车、挂车及汽车列车的术语和定义 第1部分:类型.pdf
T-CPUMT 008—2022 工业信息安全漏洞分类分级指南.pdf
GW0206-2014 国家电子政务外网 接入政务外网的局域网安全技术规范.pdf
GB-T 22710-2008 低压断路器用电子式控制器.pdf
GM-T 0006-2012 密码应用标识规范.pdf
JR-T 0002-2016 银行卡自动柜员机(ATM)终端技术规范.pdf
T-SPSTS 019—2021 固态锂电池用固态电解质性能要求及测试方法 无机氧化物固态电解质.pdf
DB11-T 1619-2019 空气压缩机节能监测 北京市.pdf
T-JSSES 24—2022 陶粒窑协同处置污染土壤技术指南.pdf
SN-T 5544-2022 麻头砂白蚁检疫鉴定方法.pdf
GB-T 37550-2019 电子商务数据资产评价指标体系.pdf
GB 9706.271-2022 医用电气设备 第2-71部分:功能性近红外光谱(NIRS)设备的基本安全和基本性能专用要求.pdf
GA-T DSJ 350-2019 公安大数据安全 安全访问平台技术设计要求.pdf
GB-T 32918.1-2016 信息安全技术 SM2椭圆曲线公钥密码算法 第1部分:总则.pdf
T-HAEPI 08—2023 核技术利用单位辐射事故应急预案编制指南.pdf
GB-T 40370-2021 燃气-蒸汽联合循环热电联产能耗指标计算方法.pdf
1
/
3
11
评价文档
赞助2.5元 点击下载(453.9 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
点击进入官方售后微信群
支付 完成后 如未跳转 点击这里下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。