广东科技向“新”力丨华南理工大学徐向民、贾奎：颠覆水下作业让机器人在浑浊水下也看得清_解决方案

广东科技向“新”力丨华南理工大学徐向民、贾奎：颠覆水下作业让机器人在浑浊水下也看得清

2024-10-24 10:30:40解决方案

近日，2023年度广东省科技奖揭晓，华南理工大学的视觉智能计算项目——基于认知机理与物理规律的视觉计算理论与方法，获得广东省自然科学奖一等奖。

据了解，为解决上述视觉计算难题，该项目在视觉计算模型中加入物理规律和认知机理的知识，限定模型优化边界，减少复杂度同时提升性能，为AI模型的发展提供借鉴，从而推动大模型的落地应用，目前，项目成果已进入示范应用与产业化推广阶段。在获奖之际，项目第一完成人、华南理工大学徐向民教授以及第二完成人贾奎教授接受了包括南方财经全媒体记者在内的媒体采访。

他们表示，视觉计算有众多应用前景，未来将在工业具身智能、远程医疗与健康服务、教育与数字文娱等领域发挥更大的作用。对的发展，建议接下来要加强基础研究，加大对AI基础理论和算法的研究投入，鼓励原创性研究，以推动AI技术的长期发展；同时，加强区域间的产学研合作，利用粤港澳大湾区的产业化和商业化，加速技术成果的转化。

徐向民：我们团队多年来一直专注于视觉计算，早期的视觉计算方式远不如人脑的视觉感知。因此，我们的思路就是借鉴人脑的认知机理来设计视觉计算方式，以期取得性能的突破。在研究过程中，也意识到借鉴认知机理的视觉计算本质上是融入认知相关的机理，而视觉数据在计算机中的呈现是受客观的物理规律限制的，因此，我们也把物理规律加进来。

该项目有三个主要的技术创新点。一是针对雾霾等多变环境导致成像质量退化，我们融入成像物理规律进行建模，让图像从“看不清”变成“看得清”。二是针对中层特征。中层特征是视觉计算中中间层次的信息，是进一步获取高层语义的中间步骤。海量的视觉数据分布差异巨大且噪声复杂，使得模型对不同环境条件的数据难以保持稳定性能。我们基于低复杂度的认知机理，添加低复杂度约束，使海量数据的中层特征从“难算”变得“易算”。三是针对图像、视频数据内容复杂，高层语义感知困难的问题，模拟人脑的多通路认知过程，建立高层语义感知模型，使得视觉语义从“难知”变成“可知”。

南方财经：在你看来，当前视觉数据处理面临的最大挑战是什么？团队是如何克服挑战的？

徐向民：当前，随着数据量的增加和模型表达能力的增强，各类视觉处理算法的性能持续在提升，我认为视觉数据处理面临的最大挑战是可靠性问题。很多时候，模型在已构建的数据集有很好的效果，但是在一些新的未知数据也许会出现意想不到的错误。这是由于数据驱动的方法是靠挖掘数据的统计规律，而数据覆盖不全面就非常有可能导致挖掘出来的统计规律只是局部正确。而人在应对不一样的情况时有很好的泛化性，这是由于人可以基于知识去进行迁移和泛化。因此，我们研究的特点是融入知识，也就是数据驱动和知识引导。项目所采用的物理规律和认知机理，都是某种形式的知识，提出成像物理规律认知约束下的底层图像恢复方法，是项目的一大亮点。该方法基于深度学习模型刻画物理规律的思想，深刻地影响了像素级图像增强领域的发展，启发了一系列基于深度学习的图像增强研究，如图像去雾、去雨、去模糊、去噪、超分、低光增强等，目前在部分行业龙头公司做示范应用。

徐向民：以水下作业机器人为例，水下成像存在模糊问题，影响水下作业效果。本项目技术可用于解决水下作业时看得清的问题。我们在水下环境光估计部分，通过深度模型估算透射率为零点的RGB三通道亮度值，作为环境光成分，同时实现水下成像的去模糊和白平衡。目前，该成果使得水下成像看得清，极大的提升了水下机器人的可靠性，也在行业龙头公司的水下作业机器人示范应用。

另外，服务机器人要与人互动，同样要解决看得清的问题。在光照条件不好的地方，成像质量下降，会影响机器人的决策判断。低光增强与大气成像具有相似的物理模型，其主要差别在于空气中雾的大气光使得画面变白，低光成像中环境光照低导致画面变黑。所以我们在项目中运用环境光估计方法，可通过深度模型估算的环境光照，以此来实现低光增强，使得服务机器人在光照条件不好的地方也能看得清。

贾奎：我们将本项目视觉感知技术与具身智能技术相结合，创立了跨维智能，实现通用机器人操作，已为工业、物流和医疗等行业提供了成熟、高性能、便于集成的标准化产品。跨维智能已完成战略轮融资。

徐向民：目前，此项目基于深度模型刻画物理规律的思想，解决了水下和低光环境的成像质量差的问题，有效提升成像效度，在相关行业龙头公司的水下作业机器人、服务机器人以及安防产品中示范应用。成果吸引了相关行业龙头公司开展产学研合作，实现了高效的跨模态人体特征提取方法。目前，视觉计算技术在日常生活中的应用已经很广泛。视觉增强能提高拍照效果和恶劣天气下的监控成像效果。视频智能安全监控可以实时监测和预警安全事件的发生。无人驾驶技术使用视觉计算来识别道路标志、红绿灯、行人和其他车辆，以确保安全驾驶。以图搜图的检索，让我们大家可以通过对一个物体拍照来找到购物网站上类似的商品。在医疗领域，视觉计算技术能辅助医生进行图像诊断，如分析X光、CT和MRI图像，提高诊断的准确性。

南方财经：展望未来，你希望这项技术还能在哪些领域发挥更大作用？对于大湾区乃至全国的产业发展有哪些建议？

徐向民：视觉计算有众多应用前景，未来将在远程医疗、娱乐中发挥更大的作用，如通过对表情、动作的识别分析人的心理健康状态，运动姿态辅助分析，虚拟现实交互中人体动作分析与内容生成等。推动粤港澳大湾区AI产业发展，一是要加强基础研究，加大对AI基础理论和算法的研究投入，鼓励原创性研究，以推动AI技术的长期发展。二是要进行跨学科合作，促进AI与其他学科如医学、材料、心理学等领域交叉融合，以解决更复杂的问题。第三，要建立完善的人才教育培训体系，从基础到高等教育，要培养不一样的层次的AI人才，适应各岗位对AI人才的需求。最后，要加强区域间的产学研合作，利用粤港澳大湾区的产业化和商业化，加速技术成果的转化。

上一篇:淄博：一枚陶瓷弹簧的“逆袭之路”

下一篇:健康管理新突破国内首款健康管理AI机器人——“小美”正式上线