(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210212423.4
(22)申请日 2022.03.04
(71)申请人 腾讯科技 (深圳) 有限公司
地址 518057 广东省深圳市南 山区高新区
科技中一路腾讯大厦3 5层
(72)发明人 刘昊岩 赵哲 侯成 毛伟权
刘伟杰 杨雪峰 鞠奇
(74)专利代理 机构 广州三环 专利商标代理有限
公司 44202
专利代理师 杜维
(51)Int.Cl.
G06F 40/232(2020.01)
G06F 40/253(2020.01)
G06F 40/211(2020.01)
G06F 40/284(2020.01)G06F 40/30(2020.01)
(54)发明名称
媒体数据修正方法、 装置、 计算机、 存储介质
及程序产品
(57)摘要
本申请实施例公开了一种媒体数据修正方
法、 装置、 计算机、 存储介质及程序产品, 涉及人
工智能领域的机器学习技术, 该方法包括: 获取
组成待修正媒体数据的初始字符串及初始字符
串之间的字符关联度, 基于初始字符串及字符关
联度, 确定待修正媒体数据的待修正数据特征;
获取第i轮预测中的输入字 符与待修正数据特征
之间的特征注 意力, 基于特征注 意力对待修正数
据特征进行数据预测, 得到位于第i轮预测中的
输入字符之后且相邻的预测字 符, 在预测字符不
为结束字符时, 将预测字符确定为第i+1轮预测
中的输入字符; 在预测字符为结束字符时, 将预
测出的预测字符组成参考媒体数据。 采用本申
请, 可以提高数据修 正的准确性及通用性。
权利要求书5页 说明书29页 附图11页
CN 114611493 A
2022.06.10
CN 114611493 A
1.一种媒体数据修 正方法, 其特 征在于, 所述方法包括:
获取待修 正媒体数据;
获取组成所述待修正媒体数据的初始字符串及所述初始字符串之间的字符关联度, 基
于所述初始字符串及所述字符关联度, 确定所述待修 正媒体数据的待修 正数据特 征;
获取第i轮预测中的输入字符与所述待修正数据特征之间的特征注意力, 基于所述特
征注意力对所述待修正数据特征进行数据预测, 得到位于所述第i轮预测中的输入字符之
后且相邻的预测字符, 在所述预测字 符不为结束字符时, 将所述预测字 符确定为第i +1轮预
测中的输入字符; i 为正整数;
在所述预测字符为所述结束字符时, 将已预测出的每个预测字符组成用于对所述待修
正媒体数据进行修 正的参考媒体数据。
2.如权利要求1所述的方法, 其特 征在于, 所述获取待修 正媒体数据, 包括:
获取初始检测媒体数据, 对所述初始检测媒体数据进行数据格式检测, 若所述初始检
测媒体数据中存在预修正格式, 则基于所述预修正格式对所述初始检测媒体数据进行格式
预修正处理, 得到待修 正媒体数据。
3.如权利要求2所述的方法, 其特征在于, 所述对所述初始检测媒体数据进行数据格式
检测, 包括:
对所述初始检测媒体数据进行分词处 理, 得到N个分词 词组; N为正整数;
对所述N个分词词组分别进行数据格 式检测, 得到所述N个分词词组分别对应的词组数
据格式;
若所述N个分词词组分别对应的词组数据格式中存在所述预修正格式, 则确定所述初
始检测媒体数据中存在所述预修 正格式。
4.如权利要求2所述的方法, 其特征在于, 所述若所述初始检测媒体数据中存在预修正
格式, 则基于所述预修正格式对所述初始检测 媒体数据进行格式预修正处理, 得到待修正
媒体数据, 包括:
若所述初始检测媒体数据中存在预修正格式, 则获取所述预修正格式所对应的待修正
词组;
若所述待修正词组的所述预修正格式为第 一书写字体, 则获取所述待修正词组在第 二
书写字体下的第一关联词组, 将所述初始检测媒体数据中的所述待修正词组替换为所述第
一关联词组, 得到待修 正媒体数据;
若所述待修正词组的所述预修正格式为第 一字符格式, 则获取所述待修正词组在所述
第一字符格式下所对应的第一标准编码, 基于所述第一标准编码, 确定所述待修正词组在
第二字符格式下所对应的第二标准编 码, 基于所述第二标准编 码确定所述待修正词组的第
二关联词组, 将所述初始检测媒体数据中的所述待修正词组替换为所述第二关联词组, 得
到所述待修 正媒体数据。
5.如权利要求2所述的方法, 其特征在于, 所述预修正格式包括字符数量大于 阈值的格
式; 所述若所述初始检测媒体数据中存在预修正格式, 则基于所述预修正格式对所述初始
检测媒体数据进行格式预修 正处理, 得到待修 正媒体数据, 包括:
若所述初始检测媒体数据中存在预修正格式, 则基于所述预修正格式, 获取所述初始
检测媒体数据中的语句间隔符, 基于所述语句间隔符对所述初始检测媒体数据进 行拆分处权 利 要 求 书 1/5 页
2
CN 114611493 A
2理, 得到待修 正媒体数据。
6.如权利要求1所述的方法, 其特 征在于, 所述初始字符串的数量 为M, M为正整数;
所述获取组成所述待修正媒体数据的初始字符串及所述初始字符串之间的字符关联
度, 基于所述初始字符串及所述字符关联度, 确定所述待修正媒体数据的待修正数据特征,
包括:
获取组成所述待修正媒体数据的M个初始字符串, 通过自注意力机制, 获取所述M个初
始字符串之间的字符关联度;
基于所述M个初始字符串之间的字符关联度, 对所述M个初始字符串的初始数据 特征进
行特征增强, 得到所述M个初始字符串的增强数据特 征;
将所述M个初始字符串的增强数据特征进行特征融合, 得到所述待修正媒体数据的待
修正数据特 征。
7.如权利要求6所述的方法, 其特征在于, 所述通过自注意力 机制, 获取所述M个初始字
符串之间的字符关联度, 包括:
通过自注意力机制, 对第j个初始字符串的初始数据特征与其他初始字符串的初始数
据特征进行点积处理, 得到所述第j个初始字符串与所述其他初始字符串之间的字符相似
度; j为小于或等于M的正整数; 所述其他初始字符串是指所述M个初始字符串中除所述第j
个初始字符串之外的初始字符串;
对所述第j个初始字符串与所述其他初始字符串之间的字符相似度进行归一化处理,
得到所述第j个初始字符串与所述 其他初始字符串之间的字符关联度;
所述基于所述M个初始字符串之间的字符关联度, 对所述M个初始字符串的初始数据 特
征进行特征增强, 得到所述M个初始字符串的增强数据特 征, 包括:
基于所述第j个初始字符串与所述其他初始字符串之间的字符关联度, 对所述其他初
始字符串的初始数据特 征进行加权处 理, 得到所述第j个初始字符串的待增强特 征;
基于所述第j个初始字符串的待增强特征对所述第j个初始字符串的初始数据特征进
行特征增强, 得到所述第j个初始字符串的增强数据特 征。
8.如权利要求1所述的方法, 其特 征在于, 所述初始字符串的数量 为M, M为正整数;
所述获取组成所述待修正媒体数据的初始字符串及所述初始字符串之间的字符关联
度, 基于所述初始字符串及所述字符关联度, 确定所述待修正媒体数据的待修正数据特征,
包括:
获取组成所述待修 正媒体数据的M个初始字符串;
获取第j个初始字符串 的初始数据特征, 获取所述第j个初始字符串与第(j+1)个初始
字符串之间的字 符关联度, 基于所述第 j个初始字符串与所述第(j+1)个初始字 符串之间的
字符关联度以及所述第 j个初始字符串的初始数据特征, 对所述第(j+1)个初始字 符串的初
始数据特征进行特征增强, 得到所述第(j+1)个初始字符串的隐藏特征, 直至得到第M个初
始字符串的隐藏特 征; j为小于 M的正整数;
将所述第M个初始字符串的隐藏特 征, 确定为所述待修 正媒体数据的待修 正数据特 征。
9.如权利要求1所述的方法, 其特 征在于, 所述初始字符串的数量 为M, M为正整数;
所述获取组成所述待修正媒体数据的初始字符串及所述初始字符串之间的字符关联
度, 基于所述初始字符串及所述字符关联度, 确定所述待修正媒体数据的待修正数据特征,权 利 要 求 书 2/5 页
3
CN 114611493 A
3
专利 媒体数据修正方法、装置、计算机、存储介质及程序产品
文档预览
中文文档
46 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共46页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:50:12上传分享