【27届暑期】具身大模型部署与优化实习生
职位描述
负责将大语言模型、多模态模型和具身智能模型高效部署到机器人端侧芯片和云端,实现低延迟实时推理。
1、负责VLA(操作模型)等大模型在自研芯片上的端侧部署,完成模型量化(INT8/INT4/FP8)、图优化和推理加速;
2、设计和优化模型推理服务(基于 vLLM/TensorRT-LLM),支撑 VLA 推理的低延迟需求;
3、建立模型部署的标准化流程:模型转换→量化→性能基准测试→端侧验证→上线发布;
4、模型优化,参与大模型的量化部署工作,探索模型在嵌入式端侧的高效运行;
5、与算法团队协作,从模型设计阶段介入,提供部署可行性评估和性能预估。
6、实验验证: 协助将算法部署至真实人形机器人平台,进行效果调试与性能评估。
职位要求
1、计算机、人工智能、自动化、机器人等相关专业在读硕士、博士、优秀本科生;
2、 具备扎实的深度学习基础,熟悉 Transformer 架构,对 VLA 等主流模型有深入理解;
3、熟悉 C++/Python,具备良好的代码风格和算法实现能力;
4、有以下至少一项经验:
-模型量化(PTQ/QAT/混合精度)与精度-速度 trade-off 调优;
-CUDA 编程与 GPU kernel 优化;
-嵌入式 NPU 部署(高通/联发科/NVIDIA Orin);
-熟悉至少一种推理框架:TensorRT / ONNX Runtime / vLLM / TensorRT-LLM;
5、具备优秀的逻辑思维和文献阅读能力,能够快速理解并实现推理框架中的核心思想;
6、实习时间: 每周可实习 4 天以上,持续时间不少于 4 个月(半年以上优先)。
【加分项】
1、有 LLM 推理服务的生产环境运维经验(vLLM/TGI/Triton);
2、有端侧大模型部署量化经验(手机/车载/机器人);
3、熟悉 KV-cache 优化、PagedAttention、投机解码等 LLM 推理加速技术;
4、有大型开源项目(如 vLLM / TensorRT-LLM 等)贡献经验者优先;
5、在知名 AI 竞赛或机器人挑战赛中取得优异成绩。
投递