(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210323625.6 (22)申请日 2022.03.29 (71)申请人 火星语盟 (深圳) 科技有限公司 地址 518000 广东省深圳市南 山区桃源街 道丽山路大学城创业园5 05室 (72)发明人 符甜 李柏潍  (74)专利代理 机构 深圳市江凌专利代理事务所 (普通合伙) 44814 专利代理师 左涛 (51)Int.Cl. G06F 40/194(2020.01) G06F 40/103(2020.01) G06F 40/40(2020.01) G06F 40/30(2020.01) G06F 16/33(2019.01) (54)发明名称 一种文本内容质量评估方法及系统 (57)摘要 本发明公开了一种文本内容质量评估系统, 属于自然语言处理技术领域, 包括翻译转换模 块, 所述翻译转换模块耦合有词性文本生成模 块, 所述词性文本生成模块耦合有概率求取模 块, 所述概率求取模块耦合有参考文本特征向量 转化模块, 所述概率求取模块同时与特征项确定 模块相耦合, 所述参考文本特征向量转化模块耦 合有二分类器训练模块, 所述二 分类器训练模块 耦合有待评估文本特征向量转化模块; 本发明通 过设置翻译转换模块, 可对选取的文本进行统一 格式的操作, 并可对文本中的特殊字符和乱码进 行记录和删除, 且可将不同语言转化为简体中文 进行记录, 提高文本有用信息的获取量, 保证文 本分析的精度。 权利要求书2页 说明书5页 附图2页 CN 114818647 A 2022.07.29 CN 114818647 A 1.一种文本内容质量评估系统, 包括翻译转换模块(1), 其特征在于: 所述翻译转换模 块(1)耦合有词性文本生成模块(2), 所述词性文本生成模块(2)耦合有概率求取模块(3), 所述概率求取模块(3)耦合有参考文本特征向量转化模块(4), 所述概率求取模块(3)同时 与特征项确定模块(6)相耦合, 所述参考文本特征向量转化模块(4)耦合有二分类器训练模 块(5), 所述二分类器训练模块(5)耦合有待评估文本特征向量转化模块(7), 所述翻译转换 模块(1)包括文本输入模块(11)、 语句翻译模块(12)、 格式设定模块(14)和文本输出模块 (16), 其中, 所述文本输入模块(11)耦合有格式设定模块(14), 所述格式设定模块(14)耦合 有语句翻译模块(12), 所述语句翻译模块(12)耦合有 文本输出模块(16); 所述文本输入模块(11)用于参考文本的输入, 并可根据设定对无关文本与相关文本进 行分类, 同时统计各个文本的页数、 字数和格式数据, 便于进行对比管理; 所述语句翻译模 块(12)可对参考文本中的英语、 法语及非汉语进 行识别和翻译, 并对翻译处进 行标注记录; 所述格式设定模块(14)可将翻译后的文本格式自动与 原参考文本同步, 同时将翻译后的文 本返回原参考文本的对应位置并替换非汉语部 分; 所述文本输出模块(16)可将完成翻译的 新参考文本输出进行 下一次操作。 2.根据权利要求1所述的一种 文本内容质量评估系统, 其特征在于: 所述语句翻译模块 (12)还耦合有字符识别模块(13), 所述字符识别模块(13)可对参考文本全篇进行浏览, 并 对数学符号、 罗 马符号及特殊符号进行标注并删除, 同时可检测 参考文本中的图片及插入 文件并标注。 3.根据权利要求2所述的一种 文本内容质量评估系统, 其特征在于: 所述语句翻译模块 (12)与字 符识别模块(13)还耦合有数据暂存模块(15), 所述数据暂存模块(15)可对删除的 符号及翻译的文本进行缓存记录, 便于后续对比寻找, 同时可对原参考文本及翻译校正后 的新参考文本进行储 存, 并按时间顺序进行排列。 4.根据权利要求1所述的一种 文本内容质量评估系统, 其特征在于: 所述二分类器训练 模块(5)和待评估文本特征向量转化模块(7)耦合有记录复查模块(8), 所述记录复查模块 (8)包括评估结果记录模块(81)、 复查文本输入模块(82)、 对比评估模块(83)、 复查结果记 录模块(84)和综合输出模块(85), 所述评估结果记录模块(81)可对待评估文本和新参考文 本的对比数据进行记录, 同时对待评估文本中与无关文本重合的特征进行标注, 并根据设 定阈值对待评估文本进行判定合格与否 。 5.根据权利要求4所述的一种 文本内容质量评估系统, 其特征在于: 所述复查文本输入 模块(82)可对需要复查的待评估文本进 行输入并排版, 同时对文本进 行自动缓存便于随时 取用。 6.根据权利要求4所述的一种 文本内容质量评估系统, 其特征在于: 所述对比评估模块 (83)可将复查的待评估文本与参考文本进 行再次对比评估, 并可同时对已存储的初次对比 文本进行二次比较, 并对二次比较的修改点进行标注, 当复查的待评估文本判定为合格时 自动标记并留存根, 在复查的待评估文本判定不 合格时则单独进行存 储保存。 7.根据权利要求4所述的一种 文本内容质量评估系统, 其特征在于: 所述复查结果记录 模块(84)可对复查的待评估文本与参考文本对比结果进 行记录, 并可对复查的待评估文本 与初次对比文本对比结果进行记录, 若复查的待评估文本不合格, 则在完成记录后同时只 将结果并列展示, 若复查的待评估文本合格过审, 则另单独对复查的待评估文本进行记录权 利 要 求 书 1/2 页 2 CN 114818647 A 2保存。 8.根据权利要求4所述的一种 文本内容质量评估系统, 其特征在于: 所述综合输出模块 (85)可选择将对比结果并列输出, 或将复查的待评估文本及标注处进行输出, 复查的待评 估文本合格的情况 下则可选择 单独输出并清除记录 。 9.基于权利要求1 ‑8任意所述的一种文本内容质量评估系统 的使用方法, 其特征在于: 包括以下步骤: ①用户通过文本输入模块(11)将选定的无关文本与相关文本进行输入, 统一编辑为参 考文本并做区分, 然后通过格式设定模块(14)对参考文本的格式进行统一设定, 在格式设 定完成后通过字符识别模块(13)对参考文本中的特殊字 符和乱码进 行记录和删除, 并保留 特殊字符 的位置信息, 数据则由数据暂存模块(15)进行保存, 特殊字符和乱码删除后可对 参考文本中的英语、 法语等不同语言进行翻译, 使其转化为简体中文的同时对翻译处的位 置信息和原文本信息进 行记录, 防止丢失, 便于后续复查, 然后由数据暂存模块(15)对处理 后的参考文本、 翻译文本、 特殊字符分别存储, 并记录位置信息, 最后可通过文本输出模块 (16)将处 理后的参 考文本输出。 ②通过词性文本生成模块(2)获取参考文本中的词性, 然后由概率求取模块(3)求取参 考文本所对应的每个词性文本的每个字节片段在所有字节片段中出现的概率, 通过特征项 确定模块(6)可设定词性文本中字节片段的特征项, 然后参考文本特征向量转化模块(4)将 特征项转化为特征向量, 并将特征向量输入二分类器训练模块(5)中进 行训练, 同时将待评 估文本转 化为词性本体, 并将待评估文本词性文本中的字节片段转 化为第二特 征向量。 ③由评估结果记录模块(81)将参考文本训练后的特征向量与第二特征向量进行对比 记录, 并可标注出待评估文本与参考文本中无关文本的重合部分, 在需要对修改后的待评 估文本进 行复查时, 通过复查文本输入模块(82)输入新的待评估文本并读取参考文本训练 后的特征向量对其进行对比, 同时新的待评估文本与第二特征向量再次对比找寻差异, 由 对比评估模块(8 3)对新的评估 结果进行输出并通过复查结果记录模块(84)进 行记录, 若新 的待评估文本不合格, 则在完成记录后对新的待评估文本、 初版待评估文本及参考文本对 比差异并列展示, 若新的待评估文本合格过审, 则另单独对新的待评估文本进行记录保存 并通过综合输出模块(85)输出。权 利 要 求 书 2/2 页 3 CN 114818647 A 3

.PDF文档 专利 一种文本内容质量评估方法及系统

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种文本内容质量评估方法及系统 第 1 页 专利 一种文本内容质量评估方法及系统 第 2 页 专利 一种文本内容质量评估方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:46:27上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。