专利一种公文自动写作方法 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210375235.3 (22)申请日 2022.04.11 (71)申请人北京信息科技大学地址 100192 北京市海淀区小营东路12号 (72)发明人施运梅　李源华　 (74)专利代理机构北京市诚辉律师事务所 11430 专利代理师耿慧敏　朱伟军 (51)Int.Cl. G06F 40/166(2020.01) G06F 40/242(2020.01) G06F 40/289(2020.01) G06F 40/30(2020.01) (54)发明名称一种公文自动写作方法 (57)摘要本发明公开一种公文自动写作方法。该方法包括：构建自动写作语料库；根据写作内容确定公文包含的模块，并针对每个模块执行：获取用户输入参数，所述输入参数包括公文的文种、主题词和发文机关；根据用户输入的主题词关联到相关领域的公文语料库，并在句子库中搜索符合当前模块的候选句子，得到候选句子集；根据主题关联度、领域词汇、陈述短语、句子所属发文机关以及句子连贯度，对候选句子评价并计算各项特征的得分；利用经训练的权重计算模型，为候选句子的各项特征计算相应的权重值，并计算每个候选句子的总评分；选取评分高的候选句子插入当前模块中，直到当前模块字数达到设定的字数范围上限。本发明可准确高效的实现自动公文写作。权利要求书2页说明书10页附图4页 CN 115099197 A 2022.09.23 CN 115099197 A 1.一种公文自动写作方法，包括以下步骤：构建公文自动写作语料库，包括构建领域公文语料库、带标签的句子库和领域词典；用户根据写作内容确定公文中包含的模块，并设置各模块的字数限制范围；针对所确定的每个模块，执行：获取用户输入参数，所述输入参数包括公文的文种、主题词和发文机关；根据用户输入的主题词关联到相关领域的公文语料库，并在句子库中搜索符合当前模块的候选句子，得到候选句子集；根据主题关联度、领域词汇、陈述短语、句子所属发文机关以及句子连贯度中的多项特征，对候选句子进行评价并计算各项特征的得分，进而获得候选句子的特征值；利用基于公文语料库训练的权重计算模型，为候选句子的各项特征计算相应的权重值，并计算每个候选句子的总评分；选取评分高的候选句子插入当前模块中，并将被选中的句子从候选句子集中移除，直到当前模块字数达到用户设定的字数范围上限。 2.根据权利要求1所述的方法，其特征在于，根据以下步骤构建所述公文自动写作语料库：按照公文涉及的不同领域将公文进行文本分类，建立各领域公文语料库；根据句子语义信息，为各领域公文语料库中的每个句子打标签，得到各领域的句子库；识别并提取出各领域公文语料库中的领域词汇，得到领域词典。 3.根据权利要求2所述的方法，其特征在于，所述文本分类包括：构建文本数据集，该文本数据集包含多个样本，每个样本反映文本与类别之间对应关系；利用所述文本数据集训练分类器；将目标公文输入到经训练的分类器，获得该目标公文的类别。 4.根据权利要求2所述的方法，其特征在于，所述句子库是由句子、句子所属发文机关以及标签组成的集合，表示为：其中， Texti是公文中表达完整语义信息的句子， Agencyi是句子所属的发文机关， Labeli是句子对应的标签。 5.根据权利要求2所述的方法，其特征在于，根据以下步骤构建所述领域词典：以各领域的公文语料库作为数据集，该数据集的每条样本反映领域类别与领域词汇之间的对应关系；利用所述数据集训练深度学习模型；将目标领域输入到经训练的深度学习模型，获得对应的领域词汇，构建为领域词典。 6.根据权利要求1所述的方法，其特征在于，通过以下步骤计算所述候选句子的特征值：基于语言模型计算所有候选句子与主题词的关联度；选择主题关联度得分最高的句子作为当前模块正文的第一个句子；权　利　要　求　书 1/2 页 2 CN 115099197 A 2利用所构建的领域词典识别候选句子中的领域词汇；计算候选句子与上一句的领域词汇表重合率，并根据与重合率阈值的比较确定两个句子之间的内容关联性；利用句法依存分析技术，找到句子的中心动词以及动宾关系，进而识别出候选句子中陈述短语；识别出其余候选句子和上一句中的陈述短语后，计算它们的陈述短语语义相似度，选取相似度更高的候选句子；计算候选句子所属发文机关与用户输入的发文机关的相似度；计算候选句子与上一句的连贯度。 7.根据权利要求6所述的方法，其特征在于，利用以下公式计算句子之间的连贯度： hp＝f(WALBERT.[hc1,hc2]+bALBERT) 其中， WALBERT表示基于ALBERT预训练语言模型， [hc1,hc2]代表对两个句子向量进行拼接， f()是一个tanh 激活函数， hp数值越大代表句子之间连贯度越高。 8.根据权利要求6所述的方法，其特征在于，所述利用基于公文语料库训练的权重计算模型，为候选句子的各项特征计算相应的权重值，并计算每个候选句子的总评分包括：以模块作为标注单位，对公文语料库中的公文句子进行标注，获得训练数据集，该训练数据集反映模块所包含句子与主题关联度、领域词汇、陈述短语、句子所属发文机关以及句子连贯度五项特征之间的对应关系；针对模块所包含的句子构造多个检索实例，每个实例反映各句子对应的检索结果；利用基于多个检索实例训练的权重计算模型为句子的各项特征分配权重值；除模块的第一个句子，其余候选句子的总得分根据以下公式计算：其中， Score1是所有候选句子与公文主题词的关联度得分， Score2和Score3分别是与上一句的领域词汇表重合率以及陈述短语语义相似度， Score4是与用户输入的发文机关的相似度， Score5是与上一句的句子连贯度得分， ω1～ω5是每项特征分配的权重。 9.一种计算机可读存储介质，其上存储有计算机程序，其中，该计算机程序被处理器执行时实现根据权利要求1至8中任一项所述方法的步骤。 10.一种计算机设备，包括存储器和处理器，在所述存储器上存储有能够在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8 中任一项所述的方法的步骤。权　利　要　求　书 2/2 页 3 CN 115099197 A 3

专利 一种公文自动写作方法

专利一种公文自动写作方法