专利 一种图像中对象位置关系的识别方法、装置及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210419351.0 (22)申请日 2022.04.20 (71)申请人中国科学院上海微系统与信息技术研究所地址 200050 上海市长宁区长宁路865号 (72)发明人陈南希　王旭　孙琦　李嘉茂　张晓林　 (74)专利代理机构广州三环专利商标代理有限公司 44202 专利代理师黄盼 (51)Int.Cl. G06T 7/73(2017.01) G06V 10/762(2022.01) G06V 10/774(2022.01) G06K 9/62(2022.01)G06N 20/00(2019.01) (54)发明名称一种图像中对象位置关系的识别方法、装置及存储介质 (57)摘要本发明涉及图像识别技术领域，本发明提供了一种图像中对象位置关系的识别方法、装置及存储介质。该识别方法通过是获取包含多个待识别对象的RGB图和深度图；深度图包含有与该 RGB 图中的每个像素点对应的深度信息；对RGB图进行检测和特征提取，可以得到包含多个目标图像对应的视觉特征和语义特征；通过对深度图中的每个像素点的深度进行聚类等处理，确定每个目标图像的目标对象的中心深度，以确定任意两个目标对象的深度差值，最后将上述每个目标图像对应的视觉特征、语义特征和任意两个目标对象的深度差值输入到训练好的位置关系分类模型，即可输出任意两个目标对象的位置结果。本申请提供的对象位置关系识别方法具有对位置结果识别的准确性高的特点。权利要求书2页说明书12页附图5页 CN 114820785 A 2022.07.29 CN 114820785 A 1.一种图像中对象位置关系的识别方法，其特征在于，包括：获取包含多个待识别对象的RGB图和深度图；所述深度图包含有与所述RGB图中的每个像素点对应的深度信息；对所述RGB图进行检测处理，得到目标图像集；所述目标图像集包括多个目标图像；所述多个目标图像中每个目标图像包含一个目标对象，所述目标对象为识别后的待识别对象；针对所述目标图像集中的每个目标图像，对所述目标图像进行特征提取操作，得到视觉特征和语义特征；对所述目标图像中多个像素点的深度信息进行聚类处理，得到目标聚类集合；基于所述目标聚类集中多个像素点的深度确定所述目标聚类集对应的目标对象的中心深度；根据所述目标图像集中各个目标图像对应的视觉特征、语义特征和目标对象的中心深度确定多个目标对象中任意两个目标对象之间的位置结果；所述位置结果表征两个目标对象之间相对位置关系。 2.根据权利要求1所述的识别方法，其特征在于，所述对所述目标图像中多个像素点的深度信息进行聚类处理，得到目标聚类集合，包括：基于像素点对应关系从所述深度图中确定出目标深度图；对所述目标深度图包含的多个像素点的深度信息进行聚类处理，得到所述目标聚类集。 3.根据权利要求2所述的识别方法，其特征在于，所述对所述目标深度图包含的多个像素点的深度信息进行聚类处理，得到所述目标聚类集，包括：对所述目标深度图包含的多个像素点的深度进行聚类处理，得到聚类集；所述聚类集包含多个子聚类集；所述多个子聚类集中每个聚类集对应目标图像中的一个对象；获取所述每个子聚类集中每个像素点的坐标；根据所述每个子聚类集中每个像素点的坐标确定所述每个子聚类集对应的占位值；将占位值最大的子聚类集确定为所述目标聚类集。 4.根据权利要求1所述的识别方法，其特征在于，所述基于所述目标聚类集中多个像素点的深度确定所述目标聚类集对应的目标对象的中心深度，包括：从所述目标聚类集中确定出第一深度集和第二深度集；所述第一深度集中任意一个深度的值小于所述第二深度集中的任一个深度的值；基于所述第一深度集中的多个深度确定第一目标深度；基于所述第二深度集中的多个深度确定第二目标深度；根据所述第一目标深度和所述第二目标深度确定所述目标聚类集对应的目标对象的中心深度。 5.根据权利要求4所述的识别方法，其特征在于，所述从所述目标聚类集中确定出第一深度集和第二深度集，包括：对所述目标聚类集中多个像素点的深度进行由小到大的排序处理，得到排序后的目标聚类集；所述排序后的目标聚类集包括多个像素点中每个像素点的深度和对应的排列序号；权　利　要　求　书 1/2 页 2 CN 114820785 A 2将所述排序后的目标聚类集中满足第一预设条件的深度形成的深度集确定为第一深度集；将所述排序后的目标聚类集中满足第二预设条件的深度形成的深度集确定为第二深度集。 6.根据权利要求5所述的识别方法，其特征在于，所述第一预设条件为：所述深度对应的排列序号小于等于第一阈值；所述第二预设条件为：所述深度对应的排列序号大于等于第二阈值。 7.根据权利要求1所述的识别方法，其特征在于，所述根据所述目标图像集中各个目标图像对应的视觉特征、语义特征和目标对象的中心深度确定多个目标对象中任意两个目标对象之间的位置结果，包括：根据所述目标图像集中任意两个目标图像对应的目标对象的中心深度的差值，得到深度差值集；利用已训练的位置关系分类模型对深度差值集、所述目标图像集中各个目标图像对应的视觉特征、语义特征进行处理，得到所述多个目标对象中任意两个目标对象之间的位置结果。 8.一种对象位置关系的识别装置，其特征在于，包括：图像获取模块，用于获取包含多个待识别对象的RGB图和深度图；所述深度图包含有与所述RGB图中的每个像素点对应的深度信息；目标图像集获取模块，用于对所述RGB图进行检测处理，得到目标图像集；所述目标图像集包括多个目标图像；所述多个目标图像中每个目标图像包含一个目标对象，所述目标对象为识别后的待识别对象；特征提取模块，用于针对所述目标图像集中的每个目标图像，对所述目标图像进行特征提取操作，得到视觉特征和语义特征；聚类处理模块，用于对所述目标图像中多个像素点的深度信息进行聚类处理，得到目标聚类集合；中心深度确定模块，用于基于所述目标聚类集中多个像素点的深度确定所述目标聚类集对应的目标对象的中心深度；位置结果确定模块，用于根据所述目标图像集中各个目标图像对应的视觉特征、语义特征和目标对象的中心深度确定多个目标对象中任意两个目标对象之间的位置结果；所述位置结果表征两个目标对象之间相对位置关系。 9.一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1 ‑7任一所述的识别方法。 10.一种计算机存储介质，其特征在于，所述计算机存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或至少一段程序由处理器加载并执行以实现如权利要求 1‑7任一项所述的识别方法。权　利　要　求　书 2/2 页 3 CN 114820785 A 3

专利 一种图像中对象位置关系的识别方法、装置及存储介质

专利一种图像中对象位置关系的识别方法、装置及存储介质