(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210375235.3
(22)申请日 2022.04.11
(71)申请人 北京信息科技大 学
地址 100192 北京市海淀区小营东路12号
(72)发明人 施运梅 李源华
(74)专利代理 机构 北京市诚辉律师事务所
11430
专利代理师 耿慧敏 朱伟军
(51)Int.Cl.
G06F 40/166(2020.01)
G06F 40/242(2020.01)
G06F 40/289(2020.01)
G06F 40/30(2020.01)
(54)发明名称
一种公文自动写作方法
(57)摘要
本发明公开一种公文自动写作方法。 该方法
包括: 构建自动写作语料库; 根据写作内容确定
公文包含的模块, 并针对每个模块执行: 获取用
户输入参数, 所述输入参数包括公文的文种、 主
题词和发文机关; 根据用户输入的主题词关联到
相关领域的公文语料库, 并在句子库中搜索符合
当前模块的候选句子, 得到候选句子集; 根据主
题关联度、 领域词汇、 陈述 短语、 句子所属发文机
关以及句子连贯度, 对候选句子评价并计算各项
特征的得分; 利用经训练的权重计算模型, 为候
选句子的各项特征计算相应的权重值, 并计算每
个候选句子的总评分; 选取评分高的候选句子插
入当前模块中, 直到当前模块字数达到设定的字
数范围上限。 本发明可准确高效的实现自动公文
写作。
权利要求书2页 说明书10页 附图4页
CN 115099197 A
2022.09.23
CN 115099197 A
1.一种公文自动写作方法, 包括以下步骤:
构建公文自动写作语料库, 包括构建领域公文语料库、 带 标签的句子库和领域词典;
用户根据写作内容确定公文中包 含的模块, 并设置各模块的字数限制范围;
针对所确定的每 个模块, 执 行:
获取用户输入参数, 所述输入参数包括公文的文种 、 主题词和发文机关;
根据用户输入的主题词关联到相关领域的公文语料库, 并在句子库中搜索 符合当前模
块的候选句子, 得到候选句子集;
根据主题关联度、 领域词汇、 陈述短语、 句子所属发文机关以及句子连贯度中的多项特
征, 对候选句子进行评价并计算各项特 征的得分, 进 而获得候选句子的特 征值;
利用基于公文语料库训练的权重计算模型, 为候选句子的各项特征计算相应的权重
值, 并计算每 个候选句子的总评分;
选取评分高的候选句子插入当前模块中, 并将被选中的句子从候选句子集中移除, 直
到当前模块字数达 到用户设定的字数 范围上限。
2.根据权利要求1所述的方法, 其特征在于, 根据以下步骤构建所述公文自动写作语料
库:
按照公文涉及的不同领域将公文 进行文本分类, 建立各 领域公文语料库;
根据句子语义信息, 为各 领域公文语料库中的每 个句子打标签, 得到各 领域的句子库;
识别并提取 出各领域公文语料库中的领域词汇, 得到领域词典。
3.根据权利要求2所述的方法, 其特 征在于, 所述文本分类包括:
构建文本数据集, 该文本数据集包含多个样本, 每个样本反映文本与类别之间对应关
系;
利用所述文本数据集训练分类 器;
将目标公文输入到经训练的分类 器, 获得该目标公文的类别。
4.根据权利要求2所述的方法, 其特征在于, 所述句子库是由句子、 句子所属发文机关
以及标签组成的集 合, 表示为:
其中, Texti是公文中表达完整语义信息的句子, Agencyi是句子所属的发文机关,
Labeli是句子对应的标签。
5.根据权利要求2所述的方法, 其特 征在于, 根据以下步骤构建所述领域词典:
以各领域的公文语料库作为数据集, 该数据集的每条样本反映领域类别与 领域词汇之
间的对应关系;
利用所述数据集训练深度学习模型;
将目标领域输入到经训练的深度学习模型, 获得对应的领域词汇, 构建为领域词典。
6.根据权利要求1所述的方法, 其特征在于, 通过以下步骤计算所述候选句子的特征
值:
基于语言模型计算所有候选句子与主题词的关联度;
选择主题关联度得分最高的句子作为当前模块 正文的第一个句子;权 利 要 求 书 1/2 页
2
CN 115099197 A
2利用所构建的领域词典识别候选句子中的领域词汇;
计算候选句子与上一句的领域词汇表重合率, 并根据与重合率阈值的比较确定两个句
子之间的内容关联性;
利用句法依存分析技术, 找到句子的中心动词以及动 宾关系, 进而识别出候选句子中
陈述短语;
识别出其余候选句子和上一句中的陈述短语后, 计算它们的陈述短语语义相似度, 选
取相似度更高的候选句子;
计算候选句子所属发文机关与用户输入的发文机关的相似度;
计算候选句子与上一句的连贯度。
7.根据权利要求6所述的方法, 其特 征在于, 利用以下公式计算句子之间的连贯度:
hp=f(WALBERT.[hc1,hc2]+bALBERT)
其中, WALBERT表示基于ALBERT预训练语言模型, [hc1,hc2]代表对两个句子向量进行拼接,
f()是一个tanh 激活函数, hp数值越大代 表句子之间连贯度越高。
8.根据权利要求6所述的方法, 其特征在于, 所述利用基于公文语料库训练的权重计算
模型, 为候选句子的各项特 征计算相应的权 重值, 并计算每 个候选句子的总评分包括:
以模块作为标注单位, 对公文语料库中的公文句子进行标注, 获得训练数据集, 该训练
数据集反映模块所包含句子与主题关联度、 领域词汇、 陈述短语、 句子所属发文机 关以及句
子连贯度五项特 征之间的对应关系;
针对模块所包 含的句子构造多个 检索实例, 每 个实例反映各句子对应的检索结果;
利用基于多个 检索实例训练的权 重计算模型为句子的各项特 征分配权 重值;
除模块的第一个句子, 其 余候选句子的总得分根据以下公式计算:
其中, Score1是所有候选句子与公文主题词的关联度得分, Score2和Score3分别是与上
一句的领域词汇表重合率以及陈述短语语义相似度, Score4是与用户输入的发文机关的相
似度, Score5是与上一句的句子连贯度得分, ω1~ω5是每项特 征分配的权 重。
9.一种计算机可读存储介质, 其上存储有计算机程序, 其中, 该计算机程序被处理器执
行时实现根据权利要求1至8中任一项所述方法的步骤。
10.一种计算机设备, 包括存储器和处理器, 在所述存储器上存储有能够在处理器上运
行的计算机程序, 其特征在于, 所述处理器执行所述计算机程序时实现权利要求1至8 中任
一项所述的方法的步骤。权 利 要 求 书 2/2 页
3
CN 115099197 A
3
专利 一种公文自动写作方法
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:44:28上传分享