专利媒体数据修正方法、装置、计算机、存储介质及程序产品 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210212423.4 (22)申请日 2022.03.04 (71)申请人腾讯科技（深圳）有限公司地址 518057 广东省深圳市南山区高新区科技中一路腾讯大厦3 5层 (72)发明人刘昊岩　赵哲　侯成　毛伟权　刘伟杰　杨雪峰　鞠奇　 (74)专利代理机构广州三环专利商标代理有限公司 44202 专利代理师杜维 (51)Int.Cl. G06F 40/232(2020.01) G06F 40/253(2020.01) G06F 40/211(2020.01) G06F 40/284(2020.01)G06F 40/30(2020.01) (54)发明名称媒体数据修正方法、装置、计算机、存储介质及程序产品 (57)摘要本申请实施例公开了一种媒体数据修正方法、装置、计算机、存储介质及程序产品，涉及人工智能领域的机器学习技术，该方法包括：获取组成待修正媒体数据的初始字符串及初始字符串之间的字符关联度，基于初始字符串及字符关联度，确定待修正媒体数据的待修正数据特征；获取第i轮预测中的输入字符与待修正数据特征之间的特征注意力，基于特征注意力对待修正数据特征进行数据预测，得到位于第i轮预测中的输入字符之后且相邻的预测字符，在预测字符不为结束字符时，将预测字符确定为第i+1轮预测中的输入字符；在预测字符为结束字符时，将预测出的预测字符组成参考媒体数据。采用本申请，可以提高数据修正的准确性及通用性。权利要求书5页说明书29页附图11页 CN 114611493 A 2022.06.10 CN 114611493 A 1.一种媒体数据修正方法，其特征在于，所述方法包括：获取待修正媒体数据；获取组成所述待修正媒体数据的初始字符串及所述初始字符串之间的字符关联度，基于所述初始字符串及所述字符关联度，确定所述待修正媒体数据的待修正数据特征；获取第i轮预测中的输入字符与所述待修正数据特征之间的特征注意力，基于所述特征注意力对所述待修正数据特征进行数据预测，得到位于所述第i轮预测中的输入字符之后且相邻的预测字符，在所述预测字符不为结束字符时，将所述预测字符确定为第i +1轮预测中的输入字符； i 为正整数；在所述预测字符为所述结束字符时，将已预测出的每个预测字符组成用于对所述待修正媒体数据进行修正的参考媒体数据。 2.如权利要求1所述的方法，其特征在于，所述获取待修正媒体数据，包括：获取初始检测媒体数据，对所述初始检测媒体数据进行数据格式检测，若所述初始检测媒体数据中存在预修正格式，则基于所述预修正格式对所述初始检测媒体数据进行格式预修正处理，得到待修正媒体数据。 3.如权利要求2所述的方法，其特征在于，所述对所述初始检测媒体数据进行数据格式检测，包括：对所述初始检测媒体数据进行分词处理，得到N个分词词组； N为正整数；对所述N个分词词组分别进行数据格式检测，得到所述N个分词词组分别对应的词组数据格式；若所述N个分词词组分别对应的词组数据格式中存在所述预修正格式，则确定所述初始检测媒体数据中存在所述预修正格式。 4.如权利要求2所述的方法，其特征在于，所述若所述初始检测媒体数据中存在预修正格式，则基于所述预修正格式对所述初始检测媒体数据进行格式预修正处理，得到待修正媒体数据，包括：若所述初始检测媒体数据中存在预修正格式，则获取所述预修正格式所对应的待修正词组；若所述待修正词组的所述预修正格式为第一书写字体，则获取所述待修正词组在第二书写字体下的第一关联词组，将所述初始检测媒体数据中的所述待修正词组替换为所述第一关联词组，得到待修正媒体数据；若所述待修正词组的所述预修正格式为第一字符格式，则获取所述待修正词组在所述第一字符格式下所对应的第一标准编码，基于所述第一标准编码，确定所述待修正词组在第二字符格式下所对应的第二标准编码，基于所述第二标准编码确定所述待修正词组的第二关联词组，将所述初始检测媒体数据中的所述待修正词组替换为所述第二关联词组，得到所述待修正媒体数据。 5.如权利要求2所述的方法，其特征在于，所述预修正格式包括字符数量大于阈值的格式；所述若所述初始检测媒体数据中存在预修正格式，则基于所述预修正格式对所述初始检测媒体数据进行格式预修正处理，得到待修正媒体数据，包括：若所述初始检测媒体数据中存在预修正格式，则基于所述预修正格式，获取所述初始检测媒体数据中的语句间隔符，基于所述语句间隔符对所述初始检测媒体数据进行拆分处权　利　要　求　书 1/5 页 2 CN 114611493 A 2理，得到待修正媒体数据。 6.如权利要求1所述的方法，其特征在于，所述初始字符串的数量为M， M为正整数；所述获取组成所述待修正媒体数据的初始字符串及所述初始字符串之间的字符关联度，基于所述初始字符串及所述字符关联度，确定所述待修正媒体数据的待修正数据特征，包括：获取组成所述待修正媒体数据的M个初始字符串，通过自注意力机制，获取所述M个初始字符串之间的字符关联度；基于所述M个初始字符串之间的字符关联度，对所述M个初始字符串的初始数据特征进行特征增强，得到所述M个初始字符串的增强数据特征；将所述M个初始字符串的增强数据特征进行特征融合，得到所述待修正媒体数据的待修正数据特征。 7.如权利要求6所述的方法，其特征在于，所述通过自注意力机制，获取所述M个初始字符串之间的字符关联度，包括：通过自注意力机制，对第j个初始字符串的初始数据特征与其他初始字符串的初始数据特征进行点积处理，得到所述第j个初始字符串与所述其他初始字符串之间的字符相似度； j为小于或等于M的正整数；所述其他初始字符串是指所述M个初始字符串中除所述第j 个初始字符串之外的初始字符串；对所述第j个初始字符串与所述其他初始字符串之间的字符相似度进行归一化处理，得到所述第j个初始字符串与所述其他初始字符串之间的字符关联度；所述基于所述M个初始字符串之间的字符关联度，对所述M个初始字符串的初始数据特征进行特征增强，得到所述M个初始字符串的增强数据特征，包括：基于所述第j个初始字符串与所述其他初始字符串之间的字符关联度，对所述其他初始字符串的初始数据特征进行加权处理，得到所述第j个初始字符串的待增强特征；基于所述第j个初始字符串的待增强特征对所述第j个初始字符串的初始数据特征进行特征增强，得到所述第j个初始字符串的增强数据特征。 8.如权利要求1所述的方法，其特征在于，所述初始字符串的数量为M， M为正整数；所述获取组成所述待修正媒体数据的初始字符串及所述初始字符串之间的字符关联度，基于所述初始字符串及所述字符关联度，确定所述待修正媒体数据的待修正数据特征，包括：获取组成所述待修正媒体数据的M个初始字符串；获取第j个初始字符串的初始数据特征，获取所述第j个初始字符串与第(j+1)个初始字符串之间的字符关联度，基于所述第 j个初始字符串与所述第(j+1)个初始字符串之间的字符关联度以及所述第 j个初始字符串的初始数据特征，对所述第(j+1)个初始字符串的初始数据特征进行特征增强，得到所述第(j+1)个初始字符串的隐藏特征，直至得到第M个初始字符串的隐藏特征； j为小于 M的正整数；将所述第M个初始字符串的隐藏特征，确定为所述待修正媒体数据的待修正数据特征。 9.如权利要求1所述的方法，其特征在于，所述初始字符串的数量为M， M为正整数；所述获取组成所述待修正媒体数据的初始字符串及所述初始字符串之间的字符关联度，基于所述初始字符串及所述字符关联度，确定所述待修正媒体数据的待修正数据特征，权　利　要　求　书 2/5 页 3 CN 114611493 A 3

专利 媒体数据修正方法、装置、计算机、存储介质及程序产品

专利媒体数据修正方法、装置、计算机、存储介质及程序产品