国家标准网
文库搜索
切换导航
首页
频道
仅15元无限下载
联系我们
首页
仅15元无限下载
联系我们
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210498687.0 (22)申请日 2022.05.09 (71)申请人 济南大学 地址 250022 山东省济南市南 辛庄西路3 36 号 (72)发明人 马坤 李乐平 纪科 陈贞翔 杨波 (74)专利代理 机构 济南圣达知识产权代理有限 公司 372 21 专利代理师 赵妍 (51)Int.Cl. G06V 30/416(2022.01) G06V 30/413(2022.01) G06N 3/08(2006.01) G06N 3/04(2006.01)G06K 9/62(2022.01) G06F 40/30(2020.01) G06V 10/764(2022.01) G06V 10/82(2022.01) (54)发明名称 一种营销文本识别方法及系统 (57)摘要 本发明提供了一种营销文本识别方法及系 统, 包括: 获取待识别文本, 并进行预处理; 基于 预处理后的待识别文本, 构建待识别文本的文本 图; 基于待识别文本的文本图, 生成文本级单词 表示, 并结合所有标签的嵌入表示, 生成文本表 示; 基于文本表示, 采用分类器得到待识别文本 是否属于营销文本的结果; 其中, 标签的嵌入表 示的获取方法为: 基于训练集的文本图及其标 签, 生成主题单词概率分布, 将主题单词概率分 布映射到标签向量空间, 并在标签图的指导下学 习标签间的相关性关系和语义信息, 得到标签的 嵌入表示。 达到了生成完整标签嵌入的目的, 联 合学习单词与标签捕获更多与分类相关的信息, 提高了营销文本识别的精度。 权利要求书2页 说明书9页 附图1页 CN 114724167 A 2022.07.08 CN 114724167 A 1.一种营销文本识别方法, 其特 征在于, 包括: 获取待识别文本, 并进行 预处理; 基于预处 理后的待识别文本, 构建待识别文本的文本图; 基于待识别文本的文本图, 生成文本级单词表示, 并结合所有标签的嵌入表示, 生成文 本表示; 基于文本表示, 采用分类 器得到待识别文本是否属于营销文本的结果; 其中, 标签的嵌入表示的获取方法为: 基于训练集的文本图及其标签, 生成主题单词概 率分布, 将主题单词概率分布映射到标签向量空间, 并在标签图的指导下学习 标签间的相 关性关系和语义信息, 得到标签的嵌入表示。 2.如权利要求1所述的一种营销文本识别方法, 其特征在于, 所述预处理包括清理非文 本数据、 去除停用词、 移除低频词、 移除高频词和词形还原。 3.如权利要求1所述的一种营销文本识别方法, 其特征在于, 所述文本图的构建方法 为: 对于一个文本, 统计固定滑动窗口内单词的共现次数, 以每个单词为文本图顶点, 单词 之间的共现次数为文本图的边。 4.如权利要求1所述的一种营销文本识别方法, 其特征在于, 所述标签图的构建方法 为: 对于训练集中的所有标签, 统计固定滑动窗口内标签的共现次数, 以每个标签为顶点, 标签共现次数为 边。 5.如权利要求1所述的一种营销文本识别方法, 其特征在于, 所述主题单词概率分布的 生成方法为: 使用第一先验参数的狄利克雷函数为训练集单词集合中每一个单词生成对应于全部 主题的多 项式概率分布, 得到主题单词概 率分布; 对于训练集中的每个文本, 基于训练集的文本图和其对应的标签信 息生成第 二先验参 数, 使用第二先验参数 的狄利克雷函数生成主题分布, 将所述主题分布作为多项式分布的 参数, 得到每个文本中每个单词对应的主题编号, 将每个主题编号对应的词分布作为多项 式分布的参数生成单词; 基于生成的单词, 更新模型参数和主题单词概 率分布。 6.如权利要求1所述的一种营销文本识别方法, 其特征在于, 所述文本级单词表示的生 成方法为: 基于待识别文本的文本 图, 采用第一层门控图神经网络, 合并每个文本 图节点与一阶 邻居节点, 更新每 个单词的嵌入表示; 基于更新后的每个单词的嵌入表示, 采用第二层门控图神经网络, 得到每个单词的文 本级单词表示。 7.如权利要求1所述的一种营销文本识别方法, 其特征在于, 所述文本表示的生成方法 为: 基于所述文本级单词表示和所有标签的嵌入表示, 计算每个文本单词相对于每个标签 的注意力值; 采用所述注意力值对所有标签的嵌入表示进行加权求和, 得到每个单词的标签语义组 件; 基于每个单词的标签 语义组件, 采用双向长短期记 忆层, 得到每 个单词的标签表示;权 利 要 求 书 1/2 页 2 CN 114724167 A 2将单词的标签表示与文本级单词表示 拼接后进行加权, 得到加权特 征; 基于所述加权特 征, 进行最大池化、 求和 和取平均操作, 得到文本表示。 8.一种营销文本识别系统, 其特 征在于, 包括: 预处理模块, 其被 配置为: 获取待识别文本, 并进行 预处理; 图构建模块, 其被 配置为: 基于预处 理后的待识别文本, 构建待识别文本的文本图; 联合学习模块, 其被配置为: 基于待识别文本的文本图, 生成文本级单词表示, 并结合 所有标签的嵌入表示, 生成文本表示; 分类模块, 其被配置为: 基于文本表示, 采用分类器得到待识别文本是否属于营销文本 的结果; 其中, 标签的嵌入表示的获取方法为: 基于训练集的文本图及其标签, 生成主题单词概 率分布, 将主题单词概率分布映射到标签向量空间, 并在标签图的指导下学习 标签间的相 关性关系和语义信息, 得到标签的嵌入表示。 9.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 该程序被处理器执 行时实现如权利要求1 ‑7中任一项所述的一种营销文本识别方法中的步骤。 10.一种计算机设备, 包括存储器、 处理器及存储在存储器上并可在处理器上运行的计 算机程序, 其特征在于, 所述处理器执行所述程序时实现如权利要求 1‑7中任一项 所述的一 种营销文本识别方法中的步骤。权 利 要 求 书 2/2 页 3 CN 114724167 A 3
专利 一种营销文本识别方法及系统
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 17:47:18
上传分享
举报
下载
原文档
(463.8 KB)
分享
友情链接
GB-T 39334.1-2020 机械产品制造过程数字化仿真 第1部分:通用要求.pdf
GB-T 14926.8-2001 实验动物 支原体检测方法.pdf
GB-T 27000-2023 合格评定 词汇和通用原则.pdf
GB-T 17568-2019 γ辐照装置设计建造和使用规范.pdf
T-CFAS 0001—2019 信息安全技术 开源软件安全使用规范.pdf
奇安信 2021年中国企业邮箱安全性研究报告.pdf
DB53-T1052.1-2021 云上黑山羊养殖规范 第 1 部分:品种 云南省.pdf
YD-T 3944-2021 人工智能芯片基准测试评估方法.pdf
GB-T 36305-2018 防伪票证产品技术条件.pdf
GB-T 37165-2018 机器人用精密摆线针轮减速器.pdf
T-CAQI 225—2021 钢制模块化装配污水处理池体技术要求.pdf
GB-T 42720-2023 电子特气 六氯乙硅烷.pdf
tc260 大数据安全标准化白皮书 2018版.pdf
GB-T 36624-2018 信息技术 安全技术 可鉴.pdf
T-GDSCEE 111—2023 舞台灯具跌落试验规范.pdf
GM-T 0048-2016 智能密码钥匙密码检测规范.pdf
GB-T 20011-2005 信息安全技术 路由器安全评估准则.pdf
中国银保监会办公厅关于印发银行保险机构信息科技外包风险监管办法的通知.pdf
YD-T 4044-2022 基于人工智能的知识图谱构建技术要求.pdf
GB-T 42548-2023 海洋调查船舶舷外调查设备布放与回收安全管理规范.pdf
1
/
3
13
评价文档
赞助2.5元 点击下载(463.8 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
点击进入官方售后微信群
支付 完成后 如未跳转 点击这里下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。