岗位职责:
1.负责智算中心IT设施的交付,服务器上架与装机;
2.负责智算中心IT设施设备的验收与测试,bios、布线、接口等硬件参数调试;
3.负责服务器的故障处理和跟进、软硬件参数调优、软硬件性能测试与优化;
4.负责在硬件层面支持智算中心IT自动化运维平台的开发、部署、日常运行优化工作;
5.面向企业级AI计算和高性能计算应用场景,组织实施智能算力集群的建设、运维、优化工作:
6.评估各类异构AI计算芯片,在各类场景下的适配性,组织算力调度系统研发工作;
7.设计、优化、评估智算中心网络,测试、评估各类软、硬件及方案适配性;
8.支撑算力用户设计并实施个性化解决方案,配合用户完成算力增值服务。
任职要求:
1.熟悉主流GPU硬件架构,熟悉环境部署,有智算中心排障调优经验;
2.熟悉至少一种主流深度学习编程框架、熟悉智算底层架构和实现机制;
3.熟悉liuxn,网络设备、安全设备,有相关认证优先;
4.有全流程的LLM/多模态大模型部署应用经验,熟悉多机、多卡集群的部署、调优;
5.具备扎实的编程能力,良好的工程素养,团队合作能力和沟通能力强,抗压能力强,具有较强的自我驱动力;
6、有云计算,存储经验,有相关认证优先;
7、熟悉Docker和Kubernetes;
8、一定的脚本编写能力;
9、熟悉监控工具;
10、对服务器硬件及参数,硬件适配、排障有一定了解。