小米汽车—自动驾驶与机器人多模态大模型算法研究专家(VLA方向)
职位描述
负责VLA(视觉-语言-行动)多模态大模型在自动驾驶和机器人场景中的前沿算法研究,涵盖场景理解、语义引导决策、时空建模等核心能力;
主导VLA模型预研,构建可泛化、高可解释性的多模态基座大模型,为未来6~12个月技术演进提供基础支撑;
与高校及实习生协作,探索VLA的长期发展方向,包括表征学习,具身智能、慢系统蒸馏快系统等核心议题;
撰写高水平论文、技术文档,推动VLA方向在CVPR、NeurIPS、ICLR、CoRL等会议中的学术影响力。
职位要求
教育背景:计算机科学、人工智能、机器人学、自动驾驶或相关领域的博士学位,或具备等效的研究经验;
多模态研究经验:深入了解视觉-语言-行动(VLA)大模型的构建与优化方法,特别是在自动驾驶、机器人等领域的应用;
理论与实践能力:扎实的机器学习、深度学习理论基础,具有视觉理解、自然语言处理与行为决策的交叉领域研究背景;
编程能力:熟练掌握Python及主流深度学习框架(如PyTorch、TensorFlow等),有高效模型训练与大规模数据处理经验;
学术能力:具有在国际顶级会议(NeurIPS、ICLR、CVPR、ICCV等)上发表过论文的经验,或参与过具有影响力的学术竞赛(如COCO、Kitti、nuScenes等);
跨学科能力:具备跨学科协作能力,能够有效将计算机视觉、自然语言处理与机器人学的知识融合,推动自动驾驶机器人领域的创新;
加分项:
在大规模预训练模型(如LLM、VLM、VLA等)微调、蒸馏等方面有深入研究;
具有实际项目经验,尤其是涉及具身多模态大模型 (如RT2、OpenVLA、Octo等) 开发经验者优先;
具有机器人或自动驾驶平台(如MuJoCo、CARLA、Waymo、nuScenes等)上的实验经验。
投递