专利机器学习模型训练方法和装置、视觉关系检测方法和装置 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210689986.2 (22)申请日 2022.06.17 (71)申请人京东科技信息技术有限公司地址 100176 北京市大兴区北京经济技术开发区科创十一街18号院2号楼6层 601 (72)发明人潘滢炜　李业豪　姚霆　梅涛　 (74)专利代理机构中国贸促会专利商标事务所有限公司 1 1038 专利代理师刘剑波　许蓓 (51)Int.Cl. G06V 10/764(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) G06N 20/00(2019.01) (54)发明名称机器学习模型训练方法和装置、视觉关系检测方法和装置 (57)摘要本公开提供一种机器学习模型训练方法和装置、视觉关系检测方法和装置，涉及人工智能领域。机器学习模型训练方法包括：利用第一机器学习模型对样本图像进行处理，以获得目标关系三元组中目标主体和目标客体的语义特征和空间特征、谓词概率分布结果、包括目标主体和目标客体的目标区域的视觉特征；根据谓词概率分布结果确定第一损失函数；利用第二机器学习模型预测目标主体的第一语义向量，预测目标主体的第一空间向量，预测目标客体的第一语义向量，预测目标客体的第一空间向量；根据预测结果确定第二损失函数；根据第一损失函数和第二损失函数确定第一目标损失函数；利用第一目标损失函数对第一机器学习模型和第二机器学习模型进行训练。权利要求书5页说明书14页附图5页 CN 115035342 A 2022.09.09 CN 115035342 A 1.一种机器学习模型训练方法，包括：利用第一机器学习模型对样本图像进行处理，以获得目标关系三元组中目标主体的语义特征和空间特征、目标客体的语义特征和空间特征、谓词概率分布结果、包括所述目标主体和所述目标客体的目标区域的视觉特征；根据所述谓词概率分布结果和谓词标注结果确定第一损失函数；利用第二机器学习模型根据所述目标主体的空间特征预测所述目标主体的第一语义向量，根据所述目标主体的语义特征预测所述目标主体的第一空间向量，根据所述目标客体的空间特征预测所述目标客体的第一语义向量，根据所述目标客体的语义特征预测所述目标客体的第一空间向量；根据预测结果确定第二损失函数；根据所述第一损失函数和所述第二损失函数确定第一目标损失函数；利用所述第一目标损失函数对所述第一机器学习模型和所述第二机器学习模型进行训练。 2.根据权利要求1所述的方法，其中，所述根据预测结果确定第二损失函数包括：根据所述目标主体的第一空间向量和所述目标主体的空间标注结果、所述目标客体的第一空间向量和所述目标客体的空间标注结果确定第一子损失函数；根据所述目标主体的第一语义向量和所述目标主体的语义标注结果、所述目标客体的第一语义向量和所述目标客体的语义标注结果确定第二子损失函数；根据所述第一子损失函数和所述第二子损失函数确定所述第二损失函数。 3.根据权利要求2所述的方法，其中，所述第一子损失函数与所述目标主体的第一空间向量和所述目标主体的空间标注结果的偏差与所述目标客体的第一空间向量和所述目标客体的空间标注结果的偏差之和正相关；所述第二子损失函数与所述目标主体的第一语义向量和所述目标主体的语义标注结果的交叉熵与所述目标客体的第一语义向量和所述目标客体的语义标注结果的交叉熵之和负相关。 4.根据权利要求2所述的方法，其中，所述第二损失函数为所述第一子损失函数和所述第二子损失函数的加权和。 5.根据权利要求1所述的方法，其中，所述根据所述目标主体的空间特征预测所述目标主体的第一语义向量包括：将所述目标主体的空间特征和所述视觉特征进行融合，以得到第一融合特征；将所述第一融合特征进行压缩处理，以得到第一压缩特征；利用多层感知机对所述第一压缩特征进行处理，以得到所述目标主体的第一语义向量。 6.根据权利要求1所述的方法，其中，所述根据所述目标主体的语义特征预测所述目标主体的第一空间向量包括：利用所述目标主体的语义特征和所述视觉特征进行重构处理，以得到所述目标主体的第一空间向量。 7.根据权利要求1所述的方法，其中，所述根据所述目标客体的空间特征预测所述目标权　利　要　求　书 1/5 页 2 CN 115035342 A 2客体的第一语义向量包括：将所述目标客体的空间特征和所述视觉特征进行融合，以得到第二融合特征；将所述第二融合特征进行压缩处理，以得到第二压缩特征；利用多层感知机对所述第二压缩特征进行处理，以得到所述目标客体的第一语义向量。 8.根据权利要求1所述的方法，其中，所述根据所述目标客体的语义特征获得所述目标客体的第一空间向量包括：利用所述目标客体的语义特征和所述视觉特征进行重构处理，以得到所述目标客体的第一空间向量。 9.根据权利要求1所述的方法，其中，所述第一损失函数与所述谓词概率分布结果和所述谓词标注结果的交叉熵负相关。 10.根据权利要求1所述的方法，其中，所述第一目标损失函数为所述第一损失函数和所述第二损失函数的加权和。 11.根据权利要求1所述的方法，还包括：根据所述谓词概率分布结果确定所述目标关系三元组的谓词特征。 12.根据权利要求1 1所述的方法，还包括：利用所述第二机器学习模型将所述目标客体的语义特征和空间特征、所述视觉特征进行多模态融合以得到第一对象特征；利用所述第二机器学习模型根据所述谓词特征和所述第一对象特征进行对象间重构，以得到所述目标主体的第二语义向量和第二空间向量；利用所述第二机器学习模型将所述目标主体的语义特征和空间特征、所述视觉特征进行多模态融合以得到第二对象特征；利用所述第二机器学习模型根据所述谓词特征和所述第二对象特征进行对象间重构，以得到所述目标客体的第二语义向量和第二空间向量；根据对象间重构结果确定第三损失函数；根据所述第一损失函数、所述第二损失函数和所述第三损失函数确定第二目标损失函数；利用所述第二目标损失函数对所述第一机器学习模型和所述第二机器学习模型进行训练。 13.根据权利要求12所述的方法，其中，所述根据对象间重构结果确定第三损失函数包括：根据所述目标主体的第二空间向量和所述目标主体的空间标注结果、所述目标客体的第二空间向量和所述目标客体的空间标注结果确定第三子损失函数；根据所述目标主体的第二语义向量和所述目标主体的语义标注结果、所述目标客体的第二语义向量和所述目标客体的语义标注结果确定第四子损失函数；根据所述第三子损失函数和所述第四子损失函数确定所述第三损失函数。 14.根据权利要求13所述的方法，其中，所述第三子损失函数与所述目标主体的第二空间向量和所述目标主体的空间标注结果的偏差与所述目标客体的第二空间向量和所述目标客体的空间标注结果的偏差之和正权　利　要　求　书 2/5 页 3 CN 115035342 A 3

专利 机器学习模型训练方法和装置、视觉关系检测方法和装置

专利机器学习模型训练方法和装置、视觉关系检测方法和装置