【27届暑期】具身大模型部署与优化实习生

深圳

实习

互联网 / 电子 / 网游

职位描述

负责将大语言模型、多模态模型和具身智能模型高效部署到机器人端侧芯片和云端，实现低延迟实时推理。 1、负责VLA（操作模型）等大模型在自研芯片上的端侧部署，完成模型量化（INT8/INT4/FP8）、图优化和推理加速； 2、设计和优化模型推理服务（基于 vLLM/TensorRT-LLM），支撑 VLA 推理的低延迟需求； 3、建立模型部署的标准化流程：模型转换→量化→性能基准测试→端侧验证→上线发布； 4、模型优化，参与大模型的量化部署工作，探索模型在嵌入式端侧的高效运行； 5、与算法团队协作，从模型设计阶段介入，提供部署可行性评估和性能预估。 6、实验验证：协助将算法部署至真实人形机器人平台，进行效果调试与性能评估。

职位要求

1、计算机、人工智能、自动化、机器人等相关专业在读硕士、博士、优秀本科生； 2、具备扎实的深度学习基础，熟悉 Transformer 架构，对 VLA 等主流模型有深入理解； 3、熟悉 C++/Python，具备良好的代码风格和算法实现能力； 4、有以下至少一项经验： -模型量化（PTQ/QAT/混合精度）与精度-速度 trade-off 调优； -CUDA 编程与 GPU kernel 优化； -嵌入式 NPU 部署（高通/联发科/NVIDIA Orin）； -熟悉至少一种推理框架：TensorRT / ONNX Runtime / vLLM / TensorRT-LLM； 5、具备优秀的逻辑思维和文献阅读能力，能够快速理解并实现推理框架中的核心思想； 6、实习时间：每周可实习 4 天以上，持续时间不少于 4 个月（半年以上优先）。【加分项】 1、有 LLM 推理服务的生产环境运维经验（vLLM/TGI/Triton）； 2、有端侧大模型部署量化经验（手机/车载/机器人）； 3、熟悉 KV-cache 优化、PagedAttention、投机解码等 LLM 推理加速技术； 4、有大型开源项目（如 vLLM / TensorRT-LLM 等）贡献经验者优先； 5、在知名 AI 竞赛或机器人挑战赛中取得优异成绩。

投递

【27届暑期】具身大模型部署与优化实习生

Key skills

About this role