小米汽车—自动驾驶与机器人多模态大模型算法研究专家（VLA方向）

北京

社招

全职

职位 ID：A210746

职位描述

负责VLA（视觉-语言-行动）多模态大模型在自动驾驶和机器人场景中的前沿算法研究，涵盖场景理解、语义引导决策、时空建模等核心能力；主导VLA模型预研，构建可泛化、高可解释性的多模态基座大模型，为未来6~12个月技术演进提供基础支撑；与高校及实习生协作，探索VLA的长期发展方向，包括表征学习，具身智能、慢系统蒸馏快系统等核心议题；撰写高水平论文、技术文档，推动VLA方向在CVPR、NeurIPS、ICLR、CoRL等会议中的学术影响力。

职位要求

教育背景：计算机科学、人工智能、机器人学、自动驾驶或相关领域的博士学位，或具备等效的研究经验；多模态研究经验：深入了解视觉-语言-行动（VLA）大模型的构建与优化方法，特别是在自动驾驶、机器人等领域的应用；理论与实践能力：扎实的机器学习、深度学习理论基础，具有视觉理解、自然语言处理与行为决策的交叉领域研究背景；编程能力：熟练掌握Python及主流深度学习框架（如PyTorch、TensorFlow等），有高效模型训练与大规模数据处理经验；学术能力：具有在国际顶级会议（NeurIPS、ICLR、CVPR、ICCV等）上发表过论文的经验，或参与过具有影响力的学术竞赛（如COCO、Kitti、nuScenes等）；跨学科能力：具备跨学科协作能力，能够有效将计算机视觉、自然语言处理与机器人学的知识融合，推动自动驾驶机器人领域的创新；加分项：在大规模预训练模型（如LLM、VLM、VLA等）微调、蒸馏等方面有深入研究；具有实际项目经验，尤其是涉及具身多模态大模型（如RT2、OpenVLA、Octo等）开发经验者优先；具有机器人或自动驾驶平台（如MuJoCo、CARLA、Waymo、nuScenes等）上的实验经验。

投递

小米汽车—自动驾驶与机器人多模态大模型算法研究专家（VLA方向）

Key skills

About this role