(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210375235.3 (22)申请日 2022.04.11 (71)申请人 北京信息科技大 学 地址 100192 北京市海淀区小营东路12号 (72)发明人 施运梅 李源华  (74)专利代理 机构 北京市诚辉律师事务所 11430 专利代理师 耿慧敏 朱伟军 (51)Int.Cl. G06F 40/166(2020.01) G06F 40/242(2020.01) G06F 40/289(2020.01) G06F 40/30(2020.01) (54)发明名称 一种公文自动写作方法 (57)摘要 本发明公开一种公文自动写作方法。 该方法 包括: 构建自动写作语料库; 根据写作内容确定 公文包含的模块, 并针对每个模块执行: 获取用 户输入参数, 所述输入参数包括公文的文种、 主 题词和发文机关; 根据用户输入的主题词关联到 相关领域的公文语料库, 并在句子库中搜索符合 当前模块的候选句子, 得到候选句子集; 根据主 题关联度、 领域词汇、 陈述 短语、 句子所属发文机 关以及句子连贯度, 对候选句子评价并计算各项 特征的得分; 利用经训练的权重计算模型, 为候 选句子的各项特征计算相应的权重值, 并计算每 个候选句子的总评分; 选取评分高的候选句子插 入当前模块中, 直到当前模块字数达到设定的字 数范围上限。 本发明可准确高效的实现自动公文 写作。 权利要求书2页 说明书10页 附图4页 CN 115099197 A 2022.09.23 CN 115099197 A 1.一种公文自动写作方法, 包括以下步骤: 构建公文自动写作语料库, 包括构建领域公文语料库、 带 标签的句子库和领域词典; 用户根据写作内容确定公文中包 含的模块, 并设置各模块的字数限制范围; 针对所确定的每 个模块, 执 行: 获取用户输入参数, 所述输入参数包括公文的文种 、 主题词和发文机关; 根据用户输入的主题词关联到相关领域的公文语料库, 并在句子库中搜索 符合当前模 块的候选句子, 得到候选句子集; 根据主题关联度、 领域词汇、 陈述短语、 句子所属发文机关以及句子连贯度中的多项特 征, 对候选句子进行评价并计算各项特 征的得分, 进 而获得候选句子的特 征值; 利用基于公文语料库训练的权重计算模型, 为候选句子的各项特征计算相应的权重 值, 并计算每 个候选句子的总评分; 选取评分高的候选句子插入当前模块中, 并将被选中的句子从候选句子集中移除, 直 到当前模块字数达 到用户设定的字数 范围上限。 2.根据权利要求1所述的方法, 其特征在于, 根据以下步骤构建所述公文自动写作语料 库: 按照公文涉及的不同领域将公文 进行文本分类, 建立各 领域公文语料库; 根据句子语义信息, 为各 领域公文语料库中的每 个句子打标签, 得到各 领域的句子库; 识别并提取 出各领域公文语料库中的领域词汇, 得到领域词典。 3.根据权利要求2所述的方法, 其特 征在于, 所述文本分类包括: 构建文本数据集, 该文本数据集包含多个样本, 每个样本反映文本与类别之间对应关 系; 利用所述文本数据集训练分类 器; 将目标公文输入到经训练的分类 器, 获得该目标公文的类别。 4.根据权利要求2所述的方法, 其特征在于, 所述句子库是由句子、 句子所属发文机关 以及标签组成的集 合, 表示为: 其中, Texti是公文中表达完整语义信息的句子, Agencyi是句子所属的发文机关, Labeli是句子对应的标签。 5.根据权利要求2所述的方法, 其特 征在于, 根据以下步骤构建所述领域词典: 以各领域的公文语料库作为数据集, 该数据集的每条样本反映领域类别与 领域词汇之 间的对应关系; 利用所述数据集训练深度学习模型; 将目标领域输入到经训练的深度学习模型, 获得对应的领域词汇, 构建为领域词典。 6.根据权利要求1所述的方法, 其特征在于, 通过以下步骤计算所述候选句子的特征 值: 基于语言模型计算所有候选句子与主题词的关联度; 选择主题关联度得分最高的句子作为当前模块 正文的第一个句子;权 利 要 求 书 1/2 页 2 CN 115099197 A 2利用所构建的领域词典识别候选句子中的领域词汇; 计算候选句子与上一句的领域词汇表重合率, 并根据与重合率阈值的比较确定两个句 子之间的内容关联性; 利用句法依存分析技术, 找到句子的中心动词以及动 宾关系, 进而识别出候选句子中 陈述短语; 识别出其余候选句子和上一句中的陈述短语后, 计算它们的陈述短语语义相似度, 选 取相似度更高的候选句子; 计算候选句子所属发文机关与用户输入的发文机关的相似度; 计算候选句子与上一句的连贯度。 7.根据权利要求6所述的方法, 其特 征在于, 利用以下公式计算句子之间的连贯度: hp=f(WALBERT.[hc1,hc2]+bALBERT) 其中, WALBERT表示基于ALBERT预训练语言模型, [hc1,hc2]代表对两个句子向量进行拼接, f()是一个tanh 激活函数, hp数值越大代 表句子之间连贯度越高。 8.根据权利要求6所述的方法, 其特征在于, 所述利用基于公文语料库训练的权重计算 模型, 为候选句子的各项特 征计算相应的权 重值, 并计算每 个候选句子的总评分包括: 以模块作为标注单位, 对公文语料库中的公文句子进行标注, 获得训练数据集, 该训练 数据集反映模块所包含句子与主题关联度、 领域词汇、 陈述短语、 句子所属发文机 关以及句 子连贯度五项特 征之间的对应关系; 针对模块所包 含的句子构造多个 检索实例, 每 个实例反映各句子对应的检索结果; 利用基于多个 检索实例训练的权 重计算模型为句子的各项特 征分配权 重值; 除模块的第一个句子, 其 余候选句子的总得分根据以下公式计算: 其中, Score1是所有候选句子与公文主题词的关联度得分, Score2和Score3分别是与上 一句的领域词汇表重合率以及陈述短语语义相似度, Score4是与用户输入的发文机关的相 似度, Score5是与上一句的句子连贯度得分, ω1~ω5是每项特 征分配的权 重。 9.一种计算机可读存储介质, 其上存储有计算机程序, 其中, 该计算机程序被处理器执 行时实现根据权利要求1至8中任一项所述方法的步骤。 10.一种计算机设备, 包括存储器和处理器, 在所述存储器上存储有能够在处理器上运 行的计算机程序, 其特征在于, 所述处理器执行所述计算机程序时实现权利要求1至8 中任 一项所述的方法的步骤。权 利 要 求 书 2/2 页 3 CN 115099197 A 3

.PDF文档 专利 一种公文自动写作方法

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种公文自动写作方法 第 1 页 专利 一种公文自动写作方法 第 2 页 专利 一种公文自动写作方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:44:28上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。