(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210334325.8
(22)申请日 2022.03.30
(71)申请人 北京字节跳动网络技 术有限公司
地址 100041 北京市石景山区实兴大街3 0
号院3号楼 2层B-0035房间
申请人 脸萌有限公司
(72)发明人 王崇 郑琳
(74)专利代理 机构 北京英创嘉友知识产权代理
事务所(普通 合伙) 11447
专利代理师 温易娜
(51)Int.Cl.
G06F 17/18(2006.01)
G06F 40/30(2020.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
(54)发明名称
特征提取方法、 装置、 存 储介质及电子设备
(57)摘要
本公开涉及一种特征提取方法、 装置、 存储
介质及电子设备, 以捕捉查询向量之间更细粒度
的特征关联信息, 减少近似误差, 得到更能表征
数据语义的高层特征信息。 该方法包括: 确定待
提取特征的目标数据, 基于目标数据确定多个查
询向量、 多个键向量和多个值向量; 确定每一查
询向量对应的多个键值对信息, 每一键值对信息
是基于多个键向量、 多个值向量和一数据样本确
定的, 其中用于确定多个键值对信息的多个数据
样本是基于多个概率分布进行采样得到的, 多个
概率分布基于多个查询向量确定; 针对每一查询
向量, 基于查询向量和多个数据 样本进行随机映
射, 得到多个随机查询向量, 基于多个随机查询
向量和多个键值对信息, 确定查询向量对应的特
征信息。
权利要求书3页 说明书17页 附图3页
CN 114692085 A
2022.07.01
CN 114692085 A
1.一种特 征提取方法, 其特 征在于, 所述方法包括:
确定待提取特征的目标数据, 并基于所述目标数据确定多个查询向量、 多个键向量和
多个值向量;
确定每一所述查询向量对应的多个键值对信息, 其中, 每一所述键值对信息是基于所
述多个键 向量、 所述多个值向量和 一数据样本确定的, 且用于确定所述多个键值对信息的
多个所述数据样本是基于多个概率分布进 行采样得到的, 所述多个概率分布是基于所述多
个查询向量确定的;
针对每一所述查询向量, 基于所述查询向量和所述多个数据样本进行随机映射, 得到
多个随机查询向量, 并基于所述多个随机查询向量和所述多个键值对信息, 确定所述查询
向量对应的特 征信息。
2.根据权利要求1所述的方法, 其特征在于, 所述确定每一所述查询向量对应的多个键
值对信息, 包括:
根据每个查询向量确定一概率分布, 并按照第一预设数量, 基于每个查询向量对应的
所述概率分布进行采样, 得到每个所述查询向量对应的多个数据样本, 其中所述第一预设
数量用于表征期望的样本数量;
针对每个查询向量, 基于所述多个键向量、 所述多个值向量和所述查询向量对应的多
个数据样本, 确定多个键值对信息 。
3.根据权利要求1所述的方法, 其特征在于, 所述确定每一所述查询向量对应的多个键
值对信息, 包括:
按照第二预设数量将所述多个查询向量划分为多个查询向量组, 其中所述第 二预设数
量用于表征期望的查询向量组的数量, 且所述第二预设数量小于所述多个查询向量的数
量;
根据每个查询向量组确定一概率分布, 并根据每个查询向量组对应的所述概率分布采
样一数据样本, 得到多个数据样本;
根据每个数据样本、 所述多个键向量和所述多个值向量, 确定一键值对信息, 得到多个
共用键值对信息;
将所述多个共用键值对信息确定为每一所述 查询向量对应的多个键值对信息 。
4.根据权利要求3所述的方法, 其特征在于, 所述基于所述多个随机查询向量和所述多
个键值对信息, 确定所述 查询向量对应的特 征信息, 包括:
确定每个查询向量组对应的概率分布与多个查询向量组对应的概率分布之间的第一
相似度, 并针对每个查询向量, 确定所述查询向量与每个查询向量组的平均查询向量之间
的第二相似度;
根据所述第一相似度和所述第二相似度, 确定计算权 重;
根据所述计算权重, 将所述多个随机查询向量和所述多个键值对信息进行加权求和,
得到所述 查询向量对应的特 征信息。
5.根据权利要求 4所述的方法, 其特 征在于, 所述方法还 包括:
针对每个查询向量组对应的概率分布, 根据所述概率分布和标准正态分布, 确定所述
概率分布对应的重要性采样权 重;
所述根据 所述计算权重, 将所述多个随机查询向量和所述多个键值对信 息进行加权求权 利 要 求 书 1/3 页
2
CN 114692085 A
2和, 得到所述 查询向量对应的特 征信息, 包括:
将所述计算权 重和所述重要性采样权 重的乘积确定为目标计算权 重;
根据所述目标计算权重, 将所述多个随机查询向量和所述多个键值对信 息进行加权求
和, 得到所述 查询向量对应的特 征信息。
6.根据权利要求4或5所述的方法, 其特征在于, 所述根据所述第一相似度和所述第二
相似度, 确定计算权 重, 包括:
针对每个查询向量组, 将所述查询向量组对应的所述第 一相似度和所述第 二相似度之
和确定为计算权 重; 或
针对每个查询向量组, 将所述查询向量组对应的所述第 一相似度和所述第 二相似度之
和确定为总相似度, 基于每个查询向量组对应的所述第二相似度, 确定所述查询向量与多
个查询向量组的平均查询向量之间的平均相似度, 在所述总相似度的基础上减去 所述平均
相似度, 得到计算权 重。
7.根据权利要求1 ‑5任一项所述的方法, 其特征在于, 所述确定待提取特征的目标数
据, 包括:
将图片数据确定为待提取 特征的目标 数据;
相应地, 每一所述查询向量对应的特征信息被用于确定所述图片数据的图片分类结
果。
8.根据权利要求1 ‑5任一项所述的方法, 其特征在于, 所述确定待提取特征的目标数
据, 包括:
将视频数据确定为待提取 特征的目标 数据;
相应地, 每一所述查询向量对应的特征信 息被用于确定所述视频数据的视频动作识别
结果。
9.根据权利要求1 ‑5任一项所述的方法, 其特征在于, 所述确定待提取特征的目标数
据, 包括:
将文本数据确定为待提取 特征的目标 数据;
相应地, 每一所述 查询向量对应的特 征信息被用于确定所述文本数据的译 文。
10.一种特 征提取装置, 其特 征在于, 所述装置包括:
第一确定模块, 用于确定待提取特征的目标数据, 并基于所述目标数据确定多个查询
向量、 多个键向量和多个值向量;
第二确定模块, 用于确定每一所述查询向量对应的多个键值对信息, 每一所述键值对
信息是基于所述多个键 向量、 所述多个值向量和一数据样本确定的, 其中用于确定所述多
个键值对信息的多个所述数据样本是基于多个概率分布进 行采样得到的, 所述多个概率分
布基于所述多个查询向量确定;
第三确定模块, 用于针对每一所述查询向量, 基于所述查询向量和所述多个数据样本
进行随机映射, 得到多个随机查询向量, 并基于所述多个随机查询向量和所述多个键值对
信息, 确定所述 查询向量对应的特 征信息。
11.一种非临时性计算机可读介质, 其上存储有计算机程序, 其特征在于, 该程序被处
理装置执 行时实现权利要求1 ‑9中任一项所述方法的步骤。
12.一种电子设备, 其特 征在于, 包括:权 利 要 求 书 2/3 页
3
CN 114692085 A
3
专利 特征提取方法、装置、存储介质及电子设备
文档预览
中文文档
24 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:51:43上传分享