(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210200923.6 (22)申请日 2022.03.03 (71)申请人 沈阳雅译网络技 术有限公司 地址 110004 辽宁省沈阳市和平区三 好街 78号东软电脑城C座1 1层 (72)发明人 杜权 田丰宁  (74)专利代理 机构 沈阳新科知识产权代理事务 所(特殊普通 合伙) 21117 专利代理师 李晓光 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/295(2020.01) G06F 40/205(2020.01) G06F 16/35(2019.01) G06K 9/62(2022.01)G06N 20/00(2019.01) (54)发明名称 一种基于语言模型的修辞古诗自动生成方 法 (57)摘要 本发明公开一种基于语言模型的修辞古诗 自动生成方法, 步骤为: 网上收集现存古诗数据, 数据处理形成以两句为单位的数据集, 仅保留五 个字或七个字的句对; 选取名篇数据进行人工修 辞标注, 将每一条数据标注为以下四类中的一 种: 比喻、 拟人、 夸张、 其它; 总结出每种修辞手 法 的词句特征, 写成正则表达式, 并匹配获得部分 标注数据; 将所有标注数据训练一个修辞分类 器, 构建带修辞标签的古诗数据集; 将原始数据 中的每一首绝句古诗中修辞类型、 关键词、 体裁 类型以及古诗内容序列化后进行训练, 得到具有 修辞手法创作能力的古诗生 成模型。 本发明在模 型中显式的引入 古诗的修辞因素, 可以让模型使 用特定修辞手 法来进行古诗的生成, 从而显著的 提高古诗质量。 权利要求书2页 说明书5页 附图2页 CN 114722829 A 2022.07.08 CN 114722829 A 1.一种基于语言模型的修辞 古诗自动生成方法, 其特 征在于包括以下步骤: 1)网上收集现存古诗数据, 进行数据清洗、 分词预处理过程, 以字为分词单位将数据处 理成以两句为单位的数据集, 仅保留五个字或七个字的句对; 2)选取步骤1)中的名篇数据进行人工修辞标注, 将每一条数据 标注为以下四类 中的一 种: 比喻、 拟人、 夸张、 其它; 3)查阅资料和对标注 的数据进行分析, 总结出每种修辞手法的词句特征, 写成正则表 达式, 之后利用正则表达式去匹配获得部分标注数据; 4)将步骤2)和步骤3)中获得的所有标注数据训练一个修辞分类器, 之后用该分类器对 剩余数据进行修辞 标注, 以此构建一个带修辞 标签的古 诗数据集; 5)将原始数据中的每一首绝句古诗中修辞类型、 关键词、 体裁类型、 古诗内容按照规定 格式序列化形成一个长句 子, 然后以此去训练语言模型, 得到具有修辞手法创作能力的古 诗生成模型。 2.按权利要求1所述的基于语言模型的修辞古诗自动生成方法, 其特征在于: 在步骤1) 中, 对收集到的古诗数据进行清洗和分词, 对数据中的标点符号进行统一, 只保留逗号、 句 号、 顿号三种标点符号, 经过去重之后以字为分词单位, 之后 将数据处理成以两句为单位的 数据集, 其中仅保留五个字或七个字的句对。 3.按权利要求1所述的基于语言模型的修辞古诗自动生成方法, 其特征在于: 在步骤2) 中人工标注收集到的古诗数据中的名篇, 以擅长使用修辞手法的诗人作品作为标注目标, 将每一条 数据标注为以下四类中的一种: 比喻、 拟人、 夸张、 其它。 4.按权利要求1所述的基于语言模型的修辞古诗自动生成方法, 其特征在于: 在步骤3) 利用每种修辞手法的词句特 征来提取出部分标注数据, 具体如下: 301)通过查阅相关资料和对已标注数据的分析, 总结出各类修辞手法中常用的模式, 并将这些模式写成正则表达式; 302)在步骤1)中处理好的数据中去掉已经人工标注过的句对, 之后使用这些正则表达 式去分别匹配以自动提取 出修辞诗句。 5.按权利要求1所述的基于语言模型的修辞古诗自动生成方法, 其特征在于: 在步骤4) 训练一个修辞分类 器对剩余数据进行修辞 标注, 具体为: 401)从步骤2)和步骤3)中得到的标注数据中随机抽取规定阈值数量的数据作为验证 集, 剩下的作为训练集; 402)使用BERT来作为分类器模型, 以BERT ‑CCPoem来进行模型参数初始化, 取其顶层 CLS位置的表示送到分类层中进行训练; 403)在验证集上进行参数调优得到一个优化后的修辞分类器, 之后使用该分类器对剩 余数据进行修辞 标注。 6.按权利要求1所述的基于语言模型的修辞古诗自动生成方法, 其特征在于: 在步骤5) 中按照规定格式将古诗序列化形成一个长句子, 然后以此去训练语言模型得到具有修辞手 法创作能力的古 诗生成模型, 具体为: 501)使用关键词提取工具对每一首绝句进行关键词提取, 之后随机从中选取1 ‑2个作 为写作意图; 502)把一首古诗中的内容、 写作意图、 体裁类型和修辞类型四部分信息按照 “体裁类型权 利 要 求 书 1/2 页 2 CN 114722829 A 2+修辞类型+关键词+分 隔符+古诗内容 ”的格式拼接形成一个长序列, 如果有多个 关键词, 则 每个关键词之间以分隔符隔开; 503)将上述处理好的训练数据使用Transformer  Decoder模型来进行语言模型任务的 训练, 待模型收敛后即可 得到具有修辞手法创作能力的古 诗生成模型; 504)在使用阶段, 用户给定想要生成的古诗的体裁、 修辞手法、 关键词, 按照训练时的 方式进行预处理后送入 古诗生成模型中, 古诗生 成模型以Top‑K算法来进 行解码, 以保证生 成内容的多样性。权 利 要 求 书 2/2 页 3 CN 114722829 A 3

.PDF文档 专利 一种基于语言模型的修辞古诗自动生成方法

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于语言模型的修辞古诗自动生成方法 第 1 页 专利 一种基于语言模型的修辞古诗自动生成方法 第 2 页 专利 一种基于语言模型的修辞古诗自动生成方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:45:57上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。