(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210289993.3 (22)申请日 2022.03.22 (71)申请人 中国经济信息社有限公司 地址 100052 北京市西城区宣武门西大街 57号 (72)发明人 苏宇 秦玉芳 成鹏 靳博 王越  吕微 史峰霖  (74)专利代理 机构 北京市鼎立 东审知识产权代 理有限公司 1 1751 专利代理师 李芙蓉 朱慧娟 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/258(2020.01) G06F 40/194(2020.01) G06F 40/279(2020.01)G06F 16/33(2019.01) (54)发明名称 新闻稿件首发认定方法、 装置和设备 (57)摘要 本公开提出了一种新闻稿件 首发认定方法、 装置和设备, 该方法包括: 获取待分析新闻稿件, 提取出待分析新闻稿件的标题; 根据标题, 由新 闻稿件集中进行相似稿件的筛选; 在由新闻稿件 集中筛选 出相似稿件时, 分别提取待分析新闻稿 件中的实体词以及相似稿件中的实体词; 对待分 析新闻稿件中的实体词与相似稿件中的实体词 进行匹配, 并根据匹配结果确认相似稿件与待分 析新闻稿件 是否为同一事件的稿件; 在相似稿件 与待分析新闻稿件为同一事件的稿件时, 由与待 分析新闻稿件为同一事件的稿件中确定出首发 稿件, 这样, 便可 以提高新闻稿件首发认定结果 的准确性。 权利要求书2页 说明书8页 附图2页 CN 114638233 A 2022.06.17 CN 114638233 A 1.一种新闻稿件首发认定方法, 其特征在于, 用于对新闻稿件中事件的首发稿件进行 认定, 所述方法包括: 获取待分析新闻稿件, 提取 出所述待分析新闻稿件的标题; 根据所述标题, 由新闻稿件集中进行相似稿件的筛 选; 在由所述新闻稿件集中筛选出所述相似稿件时, 分别提取所述待分析新闻稿件中的实 体词以及所述相似稿件中的实体词; 对所述待分析新闻稿件中的实体词与所述相似稿件中的实体词进行匹配, 并根据匹配 结果确认所述相似稿件与所述待分析新闻稿件是否为同一事 件的稿件; 在相似稿件与待分析新闻稿件为同一事件的稿件时, 由与待分析新闻稿件为同一事件 的稿件中确定出 首发稿件。 2.根据权利要求1所述的方法, 其特征在于, 在由所述新闻稿件集中未筛选出所述相似 稿件时, 直接认定所述待分析新闻稿件为首发稿件。 3.根据权利要求1所述的方法, 其特征在于, 在由所述新闻稿件集中筛选出所述相似稿 件时, 还包括: 计算并判断所述待分析新闻稿件与所述相似稿件的相似度; 在判断出所述待分析新闻稿件与 所述相似稿件的相似度超过预设阈值 时, 再执行分别 提取所述待分析新闻稿件中的实体词以及所述相似稿件中的实体词的操作。 4.根据权利要求3所述的方法, 其特征在于, 在判断出所述待分析新闻稿件与 所述相似 稿件的相似度未超过 所述预设阈值时, 认定所述待分析新闻稿件为首发稿件。 5.根据权利要求3所述的方法, 其特征在于, 在计算所述待分析新闻稿件与 所述相似稿 件的相似度时, 基于词向量模型进行。 6.根据权利要求1 ‑5中任一项所述的方法, 其特征在于, 在提取所述待分析新闻稿件中 的实体词以及所述相似稿件中的实体词时, 基于序列标注模型实现。 7.根据权利要求1 ‑5中任一项所述的方法, 其特征在于, 在对所述待分析新闻稿件中的 实体词与所述相似稿件中的实体词进 行匹配, 并根据匹配结果确认所述相似稿件与所述待 分析新闻稿件是否为同一事 件的稿件时, 包括: 在所述待分析新闻稿件的实体词和所述相似稿件的实体词中提取出同类型的实体词, 并进行一 致性匹配; 在存在同类型实体词且同类型实体词中存在一致的实体词时, 则确 认所述相似稿件与 所述待分析新闻稿件为同一事 件的稿件。 8.根据权利要求1所述的方法, 其特征在于, 在各所述相似稿件均与 所述待分析新闻稿 件不属于同一事 件的稿件时, 认定所述待分析新闻稿件为首发稿件。 9.一种新闻稿件首发认定装置, 其特征在于, 用于对新闻稿件中事件的首发稿件进行 认定, 所述装置包括: 待分析新闻稿件获取模块, 用于获取待分析新闻稿件, 提取出所述待分析新闻稿件的 标题; 相似稿件筛 选模块, 用于根据所述标题, 由新闻稿件集中进行相似稿件的筛 选; 实体词提取模块, 用于在由所述新闻稿件集中筛选出所述相似稿件时, 分别提取所述 待分析新闻稿件中的实体词以及所述相似稿件中的实体词;权 利 要 求 书 1/2 页 2 CN 114638233 A 2同一事件稿件认定模块, 用于对所述待分析新闻稿件中的实体词与 所述相似稿件中的 实体词进 行匹配, 并根据匹配结果确认所述相似稿件与所述待分析新闻稿件是否为同一事 件的稿件; 首发稿件认定模块, 用于在所述相似稿件与所述待分析新闻稿件为同一事件的稿件 时, 由与所述待分析新闻稿件为同一事 件的稿件中确定出 首发稿件。 10.一种新闻稿件首发认定设备, 其特征在于, 用于对新闻稿件中事件的首发稿件进行 认定, 所述设备包括: 处理器; 用于存储处理器可执行指令的存 储器; 其中, 所述处理器被配置为执行所述可执行指令时实现权利要求1至8中任意一项所述 的方法。权 利 要 求 书 2/2 页 3 CN 114638233 A 3

.PDF文档 专利 新闻稿件首发认定方法、装置和设备

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 新闻稿件首发认定方法、装置和设备 第 1 页 专利 新闻稿件首发认定方法、装置和设备 第 2 页 专利 新闻稿件首发认定方法、装置和设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:51:21上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。