亚傅体育app官网入口下载

亚傅体育app官网入口下载

新闻
亚傅体育app官网入口下载而容易与配景混为一体-亚傅体育app官网入口下载

亚傅体育app官网入口下载而容易与配景混为一体-亚傅体育app官网入口下载

让机器东谈主精确持起透明物体,这个难题终于被不息了。

而且照旧仅靠一张图、单主义那种循序。

效果是这么的:

这即是由地瓜机器东谈主和中科院自动化所等单元共同提议的一项新商榷——

MODEST,一个针对透明物体的单目深度揣摸和语义分割的多任务框架。

MODEST 算法框架当作通用持取模子的前置模块,即插即用,生动高效,且无需依赖非凡传感器。

而且仅靠单张 RGB 图像,便可杀青透明物体的持取,效果上致使要优于其它双目和多视图的循序。

不错平庸期骗于智能工场、实验室自动化、智谋家居等场景,镌汰成就本钱并大幅晋升机器东谈主对透明物体的操作才智。

值得一提的是,这项商榷还是入选环球机器东谈主领域顶会ICRA 2025(IEEE 机器东谈主与自动化海外会议)。

怎么作念到的?

现时透明物体的持取中枢在于深度信息的获取,当今岂论是深度传感器照旧多视角重建的循序皆无法获取透明物体准确完满的深度信息。

透明物体复杂的折射和反射特质给机器东谈主感知变成了很大清苦。在大渊博 RGB 图像中的透明物体频频衰败泄露的纹理,而容易与配景混为一体。

此外,商用深度相机也难以准确捕捉这些物体的深度信息,导致深度图缺失或噪声过多,从而末端了机器东谈主在多个领域的平庸期骗。

为了不息透明物体感知难题,传统循序大多依赖极度传感成就或多视角图像,加多了时辰和经济本钱,并不时受限于期骗场景。

MODEST 单目框架初度羁系了传统传感器处理透明物体时的末端,镌汰了成就本钱和使用复杂度,提供了愈加高效、经济和浅陋的透明物体感知决议。

△单目透明物体感知框架与其他循序之间的对比

MODEST主要聚焦于透明物体的深度揣摸,通过缱绻的语义和几何招引的多任务框架,获取物体准确的深度信息,之后招引基于点云的持取集中杀青透明物体的持取。

终点于在通用持取集中前边加多一个针对透明物体的增强模块。

MODEST 模子的全体架构如图所示,输入为单目 RGB 图像,输出为透明物体的分割末端和场景深度量度。

集中主要由编码、重组、语义几何交融和迭代解码四个模块组成。

输入图像最初过程基于 ViT 的编码模块进行处理,随后重组为对应分割和深度两个分支的多圭表特征。

在交融模块中对两组特征进行搀杂和增强,临了通过屡次迭代冉冉更新特征,并赢得最终量度末端。

△基于语义几何交融和迭代计谋的透明物体单目多任务框架

关于透明物体来说,语义分割任务不错为深度揣摸提供语义和坎坷文信息,而一样深度揣摸不错为分割提供鸿沟、名义等几何信息。

为了充分挖掘两个任务间的互补信息,MODEST 算法框架构建了基于注重力机制的语义几何交融模块,旨在同期晋升两个任务的性能。

△语义几何交融模块结构

当东谈主类不雅察透明物体等不显耀物体时,咱们东谈主类会倾向于先注重物体的全体空洞,然后是局部细节。受东谈主眼启发,MODEST 框架提议了一种由粗到细的特征更新计谋,进一步晋升量度精度。

实验末端

为了测试 MODEST 全新算法框架的检测效果,团队登科了透明物体领域两个影响力平庸的公开仿真数据集 Syn-TODD和信得过数据集 ClearPose。

在其上与当今着手进的透明物体双目循序 SimNet、多视图循序 MVTran 以及多任务循序 InvPT 和 TaskPrompter 进行对比实验。

两个大鸿沟数据集皆领有跳动 100k 的邃密标注图像数据,而且包含了严重守秘等极点场景。

1、公开数据集上的定性和定量对比实验

△仿真数据集 Syn-TODD 上的定性对比末端

△信得过数据集 ClearPose 上的定性对比末端

通过在两个数据集上的定性对比末端不错看出,由于透明物体会失实地折射配景,而且在 RGB 图像中衰败纹理,因此 SimNet、MVTrans 等循序无法赢得令东谈主得志的量度,从而导致深度图和分割掩膜的大面积缺失。

然则,通过有用的交融和迭代,在某些即使东谈主眼皆难以分析和判断的场景,团队的循序依然概况产生完满和泄露的量度末端。

△仿真数据集 Syn-TODD 上的定量对比末端

△信得过数据集 ClearPose 上的定量对比末端

从表格中的定量对比不错看出,MODEST 算法框架在各神气标上皆要大幅跳动其他总计循序。

值得注重的是,尽管只使用单张 RGB 图像当作输入,MODEST 在深度揣摸和语义分割方面皆要显著优于其他双目致使多视图循序。

而且在 Syn-TODD 数据集上,与排行第二的循序比拟,MODEST 算法框架在 RMSE 和 REL 两神气标有着跳动 45% 的晋升,语义分割的精度也均跳动了 90%。

2、信得过平台持取实验

团队还将算法挪动到信得过机器东谈主平台,开展了透明物体持取实验。

平台主要由 UR 机械臂和深度相机组成,在借助 MODEST 循序进行透明物体精确感知的基础之上,接收 GraspNet 进行持取位姿的生成。

在多个透明物体上的实验末端标明,MODEST 循序在信得过平台上具有邃密的鲁棒性和泛化性。

One More Thing

值得一提的是,除了 MODEST 除外,地瓜机器东谈主主导研发的DOSOD 怒放词汇标的检测算法,也入选了 ICRA 2025。

MODEST 是通过动态语义分解框架晋升复杂场景识别准确率,而 DOSOD 则是招引几何建模与语义分析技能优化透明物体操作精度。

两项技能后果均已在鸿沟化交易场景中得到有用考据。

感酷爱酷爱的小伙伴不错戳下方招引了解笃定哦 ~

MODEST 著作地址:

https://arxiv.org/pdf/2502.14616

MODEST 代码地址:

https://github.com/D-Robotics-AI-Lab/MODEST

DOSOD 著作地址:

https://arxiv.org/abs/2412.14680

DOSOD 代码地址:

https://github.com/D-Robotics-AI-Lab/DOSOD?tab=readme-ov-file

—  完  —

学术投稿请于责任日发邮件到:

ai@qbitai.com

标题注明【投稿】,告诉咱们:

你是谁,从哪来,投稿执行‍

附上论文 / 神气主页招引,以及谈论面容哦

咱们会(尽量)实时回应你

一键怜惜 � � 点亮星标

科技前沿阐扬逐日见

一键三连「点赞」「转发」「小心心」

迎接在批驳区留住你的思法!亚傅体育app官网入口下载



友情链接: