岗位职责:
1. 大模型架构设计
• 设计千亿参数级大模型架构,解决NLP/CV多模态业务场景问题
• 开发基于Transformer、MOE等架构的分布式模型系统
2. 高效训练优化
• 主导多卡分布式训练,应用ZeRO-3/梯度检查点/混合精度训练技术
• 优化DeepSpeed/Megatron-LM等框架的集群资源利用率
• 实现训练吞吐量提升与显存占用优化
3. 模型调优与部署
• 运用RLHF(Reinforcement Learning from Human Feedback)进行对齐优化
• 设计Prompt
Engineering策略提升zero-shot能力
• 开发模型量化/蒸馏方案,推动千亿模型端侧部署
4. 多模态技术研发
• 构建CLIP/BLIP/ViLT等跨模态对齐系统
• 开发多模态统一表征框架,支持图文/视频/3D多模态理解
• 优化多模态模型的跨域迁移能力
5. 技术前瞻研究
• 跟踪ICML/NeurIPS等顶会技术动态,主导关键技术预研
• 构建大模型技术中台,形成专利产出
任职要求:
1. 基础要求
• 本科及以上学历,计算机/数学相关专业
• 具有大模型研发经验,完整参与过亿级参数模型项目
2. 技术能力
• 精通PyTorch生态,掌握HuggingFace/ColossalAI等工具链
• 深入理解Transformer/BERT/GPT等架构及Attention机制
• 具备8卡以上分布式训练调优经验,熟悉NCCL通信优化
3. 专业能力
• 精通多模态表征学习,有跨模态检索/生成项目经验
• 掌握LoRA/Adapter等高效微调方法,具备RLHF实战经验
• 熟悉LLM评估体系(HELM/LongBench等)
4. 工程能力
• 熟练使用Python/C++,能进行CUDA层优化
北京 - 西城
北京 - 顺义
北京 - 昌平
北京 - 丰台
北京 - 丰台
北京 - 丰台
上智联,你更值3.74亿+ 职场人的选择 780万+ 高新职位精准推荐