(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210495448.X
(22)申请日 2022.05.07
(71)申请人 北京有竹居网络技 术有限公司
地址 101299 北京市平谷区林荫北街13号
信息大厦802室
(72)发明人 曹军 孙泽维 王明轩 欧阳宇星
程亦曲 庞赛康 胡凯
(74)专利代理 机构 北京英创嘉友知识产权代理
事务所(普通 合伙) 11447
专利代理师 温易娜
(51)Int.Cl.
G06F 16/31(2019.01)
G06F 40/289(2020.01)
G06F 40/30(2020.01)
(54)发明名称
文本处理方法、 装置、 存储介质、 电子设备及
系统
(57)摘要
本公开涉及一种文本处理方法、 装置、 存储
介质、 电子设备及系统, 方法包括: 获取需要改写
的目标示例文本与所述目标示例文本对应的目
标短语改写示例对, 所述目标短语改写示例对包
括目标示例改写短语和与所述目标示例改写短
语对应的目标示例替换短语; 根据所述目标示例
文本和所述目标短语改写示例对, 生成索引关
系; 将所述索引关系存储至索引数据库; 根据所
述索引数据库中的索引关系, 对获取的输入文本
进行文本改写, 解决了因采用模 型进行文本改写
而模型需要离线更新进而影响文本在线改写的
实时性的问题。
权利要求书3页 说明书16页 附图4页
CN 114817447 A
2022.07.29
CN 114817447 A
1.一种文本处 理方法, 其特 征在于, 包括:
获取需要改写的目标示例文本与 所述目标示例文本对应的目标短语改写示例对, 所述
目标短语改写示例对包括目标示例改写短语和与所述目标示例改写短语对应的目标示例
替换短语;
根据所述目标示例文本和所述目标短语改写示例对, 生成索引关系;
将所述索引关系存 储至索引数据库;
根据所述索引数据库中的索引关系, 对获取的输入文本进行文本改写。
2.根据权利要求1所述的方法, 其特征在于, 所述获取需要改写的目标示例文本与 所述
目标示例文本对应的目标短语改写示例对, 包括:
获取输入的需要改写的示例文本和与所述示例文本对应的短语改写示例对, 所述短语
改写示例对 包括示例改写短语和与所述 示例改写短语对应的示例替换短语;
根据所述短语改写示例对中的示例改写短语, 在预构建的文本与短语的倒 排索引中召
回与所述 示例改写短语对 对应的召回文本;
将所述召回文本和所述示例文本确定为所述目标示例文本, 并将所述短语改写示例对
确定为所述目标短语改写示例对。
3.根据权利要求1所述的方法, 其特征在于, 所述根据所述目标示例文本和所述目标短
语改写示例对, 生成索引关系, 包括:
确定所述目标示例改写短语在所述目标示例文本中的第 一向量表示, 所述第 一向量表
示用于表征 所述目标示例改写短语在所述目标示例文本中的上 下文语义信息;
根据所述第一向量表示和所述目标短语改写示例对, 生成索引关系。
4.根据权利要求1所述的方法, 其特 征在于, 所述方法还 包括:
响应针对所述索引数据库的更新请求, 对所述索引数据库中的索引关系进行更新, 其
中, 所述更新请求包括删除请求和修改请求中的一种。
5.根据权利要求1 ‑4中任一所述的方法, 其特征在于, 所述根据 所述索引数据库中的索
引关系, 对获取的输入文本进行文本改写, 包括:
响应获取到的所述输入文本, 在所述输入文本中包括待改写短语的情况下, 根据所述
索引数据库中的索引关系, 确定所述输入文本是否为需要改写的文本;
在确定所述输入文本为需要改写的文本的情况下, 根据与所述输入文本对应的索引关
系对所述输入文本中的待改写短语进行改写处 理。
6.根据权利要求5所述的方法, 其特 征在于, 所述方法还 包括:
对所述输入文本进行分词, 得到多个短语结果;
针对每一所述短语结果, 在预构建的短语字典树中匹配与该短语结果匹配的短语, 所
述短语字典树 通过所述目标示例改写短语进行构建;
在成功匹配到与所述短语结果对应的短语的情况下, 确定所述输入文本包括所述待改
写短语。
7.根据权利要求5所述的方法, 其特征在于, 所述索引关系通过第 一向量表示和所述目
标短语改写示例对组成, 所述第一向量表示用于表征所述目标示例改写短语在所述目标示
例文本中的上下文语义信息, 所述根据所述索引数据库中的索引关系, 确定所述输入文本
是否为需要改写的文本, 包括:权 利 要 求 书 1/3 页
2
CN 114817447 A
2获取所述输入文本 中的待改写短语的第 二向量表示, 所述第 二向量表示用于表征所述
待改写短语在所述输入文本中的上 下文语义信息;
根据所述第二向量表示在所述索引数据库中查找与所述第二向量表示的距离最近的
目标向量表示;
在所述目标向量表示与所述第 二向量表示的距离小于预设距离 阈值的情况下, 确定所
述输入文本为需要改写的文本 。
8.根据权利要求7所述的方法, 其特征在于, 所述索引数据库的数据结构为图结构, 所
述根据所述第二向量表示在所述索引数据库中查找与所述第二向量表示的距离最近的目
标向量表示, 包括:
根据所述第 二向量表示, 采用朴素查找算法在所述索引数据库中查找与所述第 二向量
表示的距离最近的目标向量表示。
9.一种文本处 理装置, 其特 征在于, 包括:
第一获取模块, 用于获取需要改写的目标示例文本与 所述目标示例文本对应的目标短
语改写示例对, 所述目标短语改写示例对包括目标示例改写短语和与所述目标示例改写短
语对应的目标示例替换短语;
生成模块, 用于根据所述目标示例文本和所述目标短语改写示例对, 生成索引关系;
存储模块, 用于将所述索引关系存 储至索引数据库;
改写模块, 根据所述索引数据库, 对获取的输入文本进行文本改写。
10.一种计算机可读介质, 其上存储有计算机程序, 其特征在于, 该程序被处理装置执
行时实现权利要求1 ‑8中任一项所述方法的步骤。
11.一种电子设备, 其特 征在于, 包括:
存储装置, 其上存 储有计算机程序;
处理装置, 用于执行所述存储装置 中的所述计算机程序, 以实现权利要求1 ‑8中任一项
所述方法的步骤。
12.一种文本处 理系统, 其特 征在于, 包括:
索引数据库;
索引服务器;
干预平台, 用于获取需要改写的目标示例文本与 所述目标示例文本对应的目标短语改
写示例对, 所述目标短语改写示例对包括目标示例改写短语和与所述目标示例改写短语对
应的目标示例替换短语;
所述索引服务器用于从所述干预平台获取所述目标示例文本和所述目标短语改写示
例对, 根据获取的所述目标示例文本和所述目标短语改写示例对, 生成索引关系, 并将所述
索引关系存储至所述索引数据库; 所述索引服务器还用于根据所述索引数据库中的索引关
系, 对获取的输入文本进行文本改写。
13.根据权利要求12所述的系统, 其特 征在于, 还 包括:
语料数据库, 用于存 储预构建的文本与短语的倒排索引;
所述干预平台还用于获取输入的需要改写的示例文本和与所述示例文本对应的短语
改写示例对, 在所述语料数据库中预构建的文本与短语的倒排索引中召回与示例改写短语
对对应的召回文本, 并将所述召回文本和所述示例文本确定为所述 目标示例文本, 并将所权 利 要 求 书 2/3 页
3
CN 114817447 A
3
专利 文本处理方法、装置、存储介质、电子设备及系统
文档预览
中文文档
24 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:51:02上传分享