专利一种基于语言模型的修辞古诗自动生成方法 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210200923.6 (22)申请日 2022.03.03 (71)申请人沈阳雅译网络技术有限公司地址 110004 辽宁省沈阳市和平区三好街 78号东软电脑城C座1 1层 (72)发明人杜权　田丰宁　 (74)专利代理机构沈阳新科知识产权代理事务所(特殊普通合伙) 21117 专利代理师李晓光 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/295(2020.01) G06F 40/205(2020.01) G06F 16/35(2019.01) G06K 9/62(2022.01)G06N 20/00(2019.01) (54)发明名称一种基于语言模型的修辞古诗自动生成方法 (57)摘要本发明公开一种基于语言模型的修辞古诗自动生成方法，步骤为：网上收集现存古诗数据，数据处理形成以两句为单位的数据集，仅保留五个字或七个字的句对；选取名篇数据进行人工修辞标注，将每一条数据标注为以下四类中的一种：比喻、拟人、夸张、其它；总结出每种修辞手法的词句特征，写成正则表达式，并匹配获得部分标注数据；将所有标注数据训练一个修辞分类器，构建带修辞标签的古诗数据集；将原始数据中的每一首绝句古诗中修辞类型、关键词、体裁类型以及古诗内容序列化后进行训练，得到具有修辞手法创作能力的古诗生成模型。本发明在模型中显式的引入古诗的修辞因素，可以让模型使用特定修辞手法来进行古诗的生成，从而显著的提高古诗质量。权利要求书2页说明书5页附图2页 CN 114722829 A 2022.07.08 CN 114722829 A 1.一种基于语言模型的修辞古诗自动生成方法，其特征在于包括以下步骤： 1)网上收集现存古诗数据，进行数据清洗、分词预处理过程，以字为分词单位将数据处理成以两句为单位的数据集，仅保留五个字或七个字的句对； 2)选取步骤1)中的名篇数据进行人工修辞标注，将每一条数据标注为以下四类中的一种：比喻、拟人、夸张、其它； 3)查阅资料和对标注的数据进行分析，总结出每种修辞手法的词句特征，写成正则表达式，之后利用正则表达式去匹配获得部分标注数据； 4)将步骤2)和步骤3)中获得的所有标注数据训练一个修辞分类器，之后用该分类器对剩余数据进行修辞标注，以此构建一个带修辞标签的古诗数据集； 5)将原始数据中的每一首绝句古诗中修辞类型、关键词、体裁类型、古诗内容按照规定格式序列化形成一个长句子，然后以此去训练语言模型，得到具有修辞手法创作能力的古诗生成模型。 2.按权利要求1所述的基于语言模型的修辞古诗自动生成方法，其特征在于：在步骤1) 中，对收集到的古诗数据进行清洗和分词，对数据中的标点符号进行统一，只保留逗号、句号、顿号三种标点符号，经过去重之后以字为分词单位，之后将数据处理成以两句为单位的数据集，其中仅保留五个字或七个字的句对。 3.按权利要求1所述的基于语言模型的修辞古诗自动生成方法，其特征在于：在步骤2) 中人工标注收集到的古诗数据中的名篇，以擅长使用修辞手法的诗人作品作为标注目标，将每一条数据标注为以下四类中的一种：比喻、拟人、夸张、其它。 4.按权利要求1所述的基于语言模型的修辞古诗自动生成方法，其特征在于：在步骤3) 利用每种修辞手法的词句特征来提取出部分标注数据，具体如下： 301)通过查阅相关资料和对已标注数据的分析，总结出各类修辞手法中常用的模式，并将这些模式写成正则表达式； 302)在步骤1)中处理好的数据中去掉已经人工标注过的句对，之后使用这些正则表达式去分别匹配以自动提取出修辞诗句。 5.按权利要求1所述的基于语言模型的修辞古诗自动生成方法，其特征在于：在步骤4) 训练一个修辞分类器对剩余数据进行修辞标注，具体为： 401)从步骤2)和步骤3)中得到的标注数据中随机抽取规定阈值数量的数据作为验证集，剩下的作为训练集； 402)使用BERT来作为分类器模型，以BERT ‑CCPoem来进行模型参数初始化，取其顶层 CLS位置的表示送到分类层中进行训练； 403)在验证集上进行参数调优得到一个优化后的修辞分类器，之后使用该分类器对剩余数据进行修辞标注。 6.按权利要求1所述的基于语言模型的修辞古诗自动生成方法，其特征在于：在步骤5) 中按照规定格式将古诗序列化形成一个长句子，然后以此去训练语言模型得到具有修辞手法创作能力的古诗生成模型，具体为： 501)使用关键词提取工具对每一首绝句进行关键词提取，之后随机从中选取1 ‑2个作为写作意图； 502)把一首古诗中的内容、写作意图、体裁类型和修辞类型四部分信息按照 “体裁类型权　利　要　求　书 1/2 页 2 CN 114722829 A 2+修辞类型+关键词+分隔符+古诗内容 ”的格式拼接形成一个长序列，如果有多个关键词，则每个关键词之间以分隔符隔开； 503)将上述处理好的训练数据使用Transformer Decoder模型来进行语言模型任务的训练，待模型收敛后即可得到具有修辞手法创作能力的古诗生成模型； 504)在使用阶段，用户给定想要生成的古诗的体裁、修辞手法、关键词，按照训练时的方式进行预处理后送入古诗生成模型中，古诗生成模型以Top‑K算法来进行解码，以保证生成内容的多样性。权　利　要　求　书 2/2 页 3 CN 114722829 A 3

专利 一种基于语言模型的修辞古诗自动生成方法

专利一种基于语言模型的修辞古诗自动生成方法