国家标准网
文库搜索
切换导航
首页
频道
仅15元无限下载
联系我们
首页
仅15元无限下载
联系我们
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210200923.6 (22)申请日 2022.03.03 (71)申请人 沈阳雅译网络技 术有限公司 地址 110004 辽宁省沈阳市和平区三 好街 78号东软电脑城C座1 1层 (72)发明人 杜权 田丰宁 (74)专利代理 机构 沈阳新科知识产权代理事务 所(特殊普通 合伙) 21117 专利代理师 李晓光 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/295(2020.01) G06F 40/205(2020.01) G06F 16/35(2019.01) G06K 9/62(2022.01)G06N 20/00(2019.01) (54)发明名称 一种基于语言模型的修辞古诗自动生成方 法 (57)摘要 本发明公开一种基于语言模型的修辞古诗 自动生成方法, 步骤为: 网上收集现存古诗数据, 数据处理形成以两句为单位的数据集, 仅保留五 个字或七个字的句对; 选取名篇数据进行人工修 辞标注, 将每一条数据标注为以下四类中的一 种: 比喻、 拟人、 夸张、 其它; 总结出每种修辞手 法 的词句特征, 写成正则表达式, 并匹配获得部分 标注数据; 将所有标注数据训练一个修辞分类 器, 构建带修辞标签的古诗数据集; 将原始数据 中的每一首绝句古诗中修辞类型、 关键词、 体裁 类型以及古诗内容序列化后进行训练, 得到具有 修辞手法创作能力的古诗生 成模型。 本发明在模 型中显式的引入 古诗的修辞因素, 可以让模型使 用特定修辞手 法来进行古诗的生成, 从而显著的 提高古诗质量。 权利要求书2页 说明书5页 附图2页 CN 114722829 A 2022.07.08 CN 114722829 A 1.一种基于语言模型的修辞 古诗自动生成方法, 其特 征在于包括以下步骤: 1)网上收集现存古诗数据, 进行数据清洗、 分词预处理过程, 以字为分词单位将数据处 理成以两句为单位的数据集, 仅保留五个字或七个字的句对; 2)选取步骤1)中的名篇数据进行人工修辞标注, 将每一条数据 标注为以下四类 中的一 种: 比喻、 拟人、 夸张、 其它; 3)查阅资料和对标注 的数据进行分析, 总结出每种修辞手法的词句特征, 写成正则表 达式, 之后利用正则表达式去匹配获得部分标注数据; 4)将步骤2)和步骤3)中获得的所有标注数据训练一个修辞分类器, 之后用该分类器对 剩余数据进行修辞 标注, 以此构建一个带修辞 标签的古 诗数据集; 5)将原始数据中的每一首绝句古诗中修辞类型、 关键词、 体裁类型、 古诗内容按照规定 格式序列化形成一个长句 子, 然后以此去训练语言模型, 得到具有修辞手法创作能力的古 诗生成模型。 2.按权利要求1所述的基于语言模型的修辞古诗自动生成方法, 其特征在于: 在步骤1) 中, 对收集到的古诗数据进行清洗和分词, 对数据中的标点符号进行统一, 只保留逗号、 句 号、 顿号三种标点符号, 经过去重之后以字为分词单位, 之后 将数据处理成以两句为单位的 数据集, 其中仅保留五个字或七个字的句对。 3.按权利要求1所述的基于语言模型的修辞古诗自动生成方法, 其特征在于: 在步骤2) 中人工标注收集到的古诗数据中的名篇, 以擅长使用修辞手法的诗人作品作为标注目标, 将每一条 数据标注为以下四类中的一种: 比喻、 拟人、 夸张、 其它。 4.按权利要求1所述的基于语言模型的修辞古诗自动生成方法, 其特征在于: 在步骤3) 利用每种修辞手法的词句特 征来提取出部分标注数据, 具体如下: 301)通过查阅相关资料和对已标注数据的分析, 总结出各类修辞手法中常用的模式, 并将这些模式写成正则表达式; 302)在步骤1)中处理好的数据中去掉已经人工标注过的句对, 之后使用这些正则表达 式去分别匹配以自动提取 出修辞诗句。 5.按权利要求1所述的基于语言模型的修辞古诗自动生成方法, 其特征在于: 在步骤4) 训练一个修辞分类 器对剩余数据进行修辞 标注, 具体为: 401)从步骤2)和步骤3)中得到的标注数据中随机抽取规定阈值数量的数据作为验证 集, 剩下的作为训练集; 402)使用BERT来作为分类器模型, 以BERT ‑CCPoem来进行模型参数初始化, 取其顶层 CLS位置的表示送到分类层中进行训练; 403)在验证集上进行参数调优得到一个优化后的修辞分类器, 之后使用该分类器对剩 余数据进行修辞 标注。 6.按权利要求1所述的基于语言模型的修辞古诗自动生成方法, 其特征在于: 在步骤5) 中按照规定格式将古诗序列化形成一个长句子, 然后以此去训练语言模型得到具有修辞手 法创作能力的古 诗生成模型, 具体为: 501)使用关键词提取工具对每一首绝句进行关键词提取, 之后随机从中选取1 ‑2个作 为写作意图; 502)把一首古诗中的内容、 写作意图、 体裁类型和修辞类型四部分信息按照 “体裁类型权 利 要 求 书 1/2 页 2 CN 114722829 A 2+修辞类型+关键词+分 隔符+古诗内容 ”的格式拼接形成一个长序列, 如果有多个 关键词, 则 每个关键词之间以分隔符隔开; 503)将上述处理好的训练数据使用Transformer Decoder模型来进行语言模型任务的 训练, 待模型收敛后即可 得到具有修辞手法创作能力的古 诗生成模型; 504)在使用阶段, 用户给定想要生成的古诗的体裁、 修辞手法、 关键词, 按照训练时的 方式进行预处理后送入 古诗生成模型中, 古诗生 成模型以Top‑K算法来进 行解码, 以保证生 成内容的多样性。权 利 要 求 书 2/2 页 3 CN 114722829 A 3
专利 一种基于语言模型的修辞古诗自动生成方法
文档预览
中文文档
10 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 17:45:57
上传分享
举报
下载
原文档
(457.8 KB)
分享
友情链接
GB-T 38249-2019 信息安全技术 政府网站云计算服务安全指南.pdf
KSME2001_Adaptive compensation control of vehicle automatic transmissions for smooth shift transients based on intelligent supervisor.pdf
GB-T 43236-2023 城市生态风险评价技术指南.pdf
GB-T 29871-2013 能源计量仪表通用数据接口技术协议.pdf
GB-T 41505-2022 电子信息制造企业绿色供应链管理规范.pdf
上海市公共数据共享实施办法(试行)3.2发布.pdf
DB43-T 2299-2022 矿山生态保护修复工程质量验收规范 湖南省.pdf
安全管理制度体系文件.pdf
GB-T 12230-2023 通用阀门 不锈钢铸件技术条件.pdf
GB-T 19831.3-2023 石油天然气工业 套管扶正器 第3部分:刚性和半刚性扶正器.pdf
SL-T 799-2020 水利数据目录服务规范.pdf
T-CATSI 05002—2020 高压液化气体管束式集装箱专项技术要求.pdf
GB-T 34566-2017 汽车用热冲压钢板及钢带.pdf
GB-T 17445-2022 铸造磨球.pdf
数据安全及备份恢复测评指导书-三级V1.0.doc
GM-T 0114-2021 诱骗态BB84量子密钥分配产品检测规范.pdf
GM T 0127-2023 移动终端密码模块应用接口规范.pdf
GB-T 24405.2-2010 - ISO IEC 20000-2-2005 信息技术 服务管理 第2部分:实践规则.pdf
GB-T 28827.2-2012 信息技术服务 运行维护 第2部分:交付规范.pdf
GB-T 42855-2023 氢燃料电池车辆加注协议技术要求.pdf
1
/
3
10
评价文档
赞助2.5元 点击下载(457.8 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
点击进入官方售后微信群
支付 完成后 如未跳转 点击这里下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。