(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210689986.2
(22)申请日 2022.06.17
(71)申请人 京东科技信息技 术有限公司
地址 100176 北京市大兴区北京经济技 术
开发区科创十一街18号院2号楼6层
601
(72)发明人 潘滢炜 李业豪 姚霆 梅涛
(74)专利代理 机构 中国贸促会专利商标事务所
有限公司 1 1038
专利代理师 刘剑波 许蓓
(51)Int.Cl.
G06V 10/764(2022.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
G06N 20/00(2019.01)
(54)发明名称
机器学习模 型训练方法和装置、 视觉 关系检
测方法和装置
(57)摘要
本公开提供一种机器学习模型训练方法和
装置、 视觉关系检测方法和装置, 涉及人工智能
领域。 机器学习模型训练方法包括: 利用第一机
器学习模型对样本图像进行处理, 以获得目标关
系三元组中目标主体和目标客体的语义特征和
空间特征、 谓词概率分布结果、 包括目标主体和
目标客体的目标区域的视觉特征; 根据谓词概率
分布结果确定第一损失函数; 利用第二机器学习
模型预测目标主体的第一语义向量, 预测目标主
体的第一空间向量, 预测目标客体的第一语义向
量, 预测目标客体的第一空间向量; 根据预测结
果确定第二损失函数; 根据第一损失函数和第二
损失函数确定第一目标损失函数; 利用第一目标
损失函数对第一机器学习模型和第二机器学习
模型进行训练。
权利要求书5页 说明书14页 附图5页
CN 115035342 A
2022.09.09
CN 115035342 A
1.一种机器学习模型训练方法, 包括:
利用第一机器学习模型对样本图像进行处理, 以获得目标关系三元组中目标主体的语
义特征和空间特征、 目标客体的语义特征和空间特征、 谓词概率分布结果、 包括所述目标主
体和所述目标客体的目标区域的视 觉特征;
根据所述谓词概 率分布结果和谓词标注结果确定第一损失函数;
利用第二机器学习模型根据所述目标主体的空间特征预测所述目标主体的第一语义
向量, 根据所述目标主体的语义特征预测所述 目标主体的第一空间向量, 根据所述 目标客
体的空间特征预测所述目标客体的第一语义向量, 根据所述目标客体的语义特征预测所述
目标客体的第一空间向量;
根据预测结果确定第二损失函数;
根据所述第一损失函数和所述第二损失函数确定第一目标损失函数;
利用所述第一目标损失函数对所述第一机器学习模型和所述第二机器学习模型进行
训练。
2.根据权利要求1所述的方法, 其中, 所述 根据预测结果确定第二损失函数包括:
根据所述目标主体的第 一空间向量和所述目标主体的空间标注结果、 所述目标客体的
第一空间向量和所述目标客体的空间标注结果确定第一子损失函数;
根据所述目标主体的第 一语义向量和所述目标主体的语义标注结果、 所述目标客体的
第一语义向量和所述目标客体的语义标注结果确定第二子损失函数;
根据所述第一子损失函数和所述第二子损失函数确定所述第二损失函数。
3.根据权利要求2所述的方法, 其中,
所述第一子损失函数与所述目标主体的第一空间向量和所述目标主体的空间标注结
果的偏差与所述目标客体的第一空间向量和所述目标客体的空间标注结果的偏差之和 正
相关;
所述第二子损失函数与所述目标主体的第一语义向量和所述目标主体的语义标注结
果的交叉熵与所述目标客体的第一语义向量和所述目标客体的语义标注结果的交叉熵之
和负相关。
4.根据权利要求2所述的方法, 其中,
所述第二损失函数为所述第一子损失函数和所述第二子损失函数的加权和。
5.根据权利要求1所述的方法, 其中, 所述根据所述目标主体的空间特征预测所述目标
主体的第一语义向量包括:
将所述目标主体的空间特 征和所述视 觉特征进行融合, 以得到第一融合特 征;
将所述第一融合特 征进行压缩处 理, 以得到第一压缩特 征;
利用多层感知机对所述第一压缩特征进行处理, 以得到所述目标主体的第一语义向
量。
6.根据权利要求1所述的方法, 其中, 所述根据所述目标主体的语义特征预测所述目标
主体的第一空间向量包括:
利用所述目标主体的语义特征和所述视觉特征进行重构处理, 以得到所述目标主体的
第一空间向量。
7.根据权利要求1所述的方法, 其中, 所述根据所述目标客体的空间特征预测所述目标权 利 要 求 书 1/5 页
2
CN 115035342 A
2客体的第一语义向量包括:
将所述目标客体的空间特 征和所述视 觉特征进行融合, 以得到第二融合特 征;
将所述第二融合特 征进行压缩处 理, 以得到第二压缩特 征;
利用多层感知机对所述第二压缩特征进行处理, 以得到所述目标客体的第一语义向
量。
8.根据权利要求1所述的方法, 其中, 所述根据所述目标客体的语义特征获得所述目标
客体的第一空间向量包括:
利用所述目标客体的语义特征和所述视觉特征进行重构处理, 以得到所述目标客体的
第一空间向量。
9.根据权利要求1所述的方法, 其中,
所述第一损失函数与所述谓词概 率分布结果和所述谓词标注结果的交叉熵负相关。
10.根据权利要求1所述的方法, 其中,
所述第一目标损失函数为所述第一损失函数和所述第二损失函数的加权和。
11.根据权利要求1所述的方法, 还 包括:
根据所述谓词概 率分布结果确定所述目标关系三元组的谓词特 征。
12.根据权利要求1 1所述的方法, 还 包括:
利用所述第 二机器学习 模型将所述目标客体的语义特征和空间特征、 所述视觉特征进
行多模态融合以得到第一对象特 征;
利用所述第 二机器学习 模型根据所述谓词特征和所述第 一对象特征进行对象间重构,
以得到所述目标主体的第二语义向量和第二空间向量;
利用所述第 二机器学习 模型将所述目标主体的语义特征和空间特征、 所述视觉特征进
行多模态融合以得到第二对象特 征;
利用所述第 二机器学习 模型根据所述谓词特征和所述第 二对象特征进行对象间重构,
以得到所述目标客体的第二语义向量和第二空间向量;
根据对象间重构结果确定第三损失函数;
根据所述第 一损失函数、 所述第 二损失函数和所述第 三损失函数确定第 二目标损失函
数;
利用所述第二目标损失函数对所述第一机器学习模型和所述第二机器学习模型进行
训练。
13.根据权利要求12所述的方法, 其中, 所述根据对象间重构结果确定第 三损失函数包
括:
根据所述目标主体的第 二空间向量和所述目标主体的空间标注结果、 所述目标客体的
第二空间向量和所述目标客体的空间标注结果确定第三子损失函数;
根据所述目标主体的第 二语义向量和所述目标主体的语义标注结果、 所述目标客体的
第二语义向量和所述目标客体的语义标注结果确定第四子损失函数;
根据所述第三子损失函数和所述第四子损失函数确定所述第三损失函数。
14.根据权利要求13所述的方法, 其中,
所述第三子损失函数与所述目标主体的第二空间向量和所述目标主体的空间标注结
果的偏差与所述目标客体的第二空间向量和所述目标客体的空间标注结果的偏差之和 正权 利 要 求 书 2/5 页
3
CN 115035342 A
3
专利 机器学习模型训练方法和装置、视觉关系检测方法和装置
文档预览
中文文档
25 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共25页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:31:13上传分享