岗位职责:
1. 负责高性能集群的运行和日常维护、按时完成日常巡检工作;
2. 负责高性能集群的用户技术支持和集群系统管理软件的维护;
3. 管理高性能集群的计算资源和用户,部署管理策略,监控运营环境;
4. 带领团队进行故障排查和应急相应,特别是在GPU密集型应用和高性能计算场景下,确保系统快速恢复正常运行;
5. 对运维风险进行识别、评估和控制,特别关注GPU资源的稳定性和性能,确保公司信息安全和业务连续性;
6. 负责运维团队的技术培训和能力提升,培养具备云计算、GPU运维和高性能计算专业技能的运维工程师;
7. 参与公司重大项目的技术支持与决策,特别是在云计算和算力平台相关的项目中,为业务发展提供技术保障。
任职要求:
1. 本科或本科以上学历,计算机、电子信息、通信、物理等相关专业;
2. 具有1-3年相关工作经验,有大型超算中心实际运维经验者优先考虑;
3. 最好熟悉高性能计算集群中服务器、网络、存储实现原理;
4. 熟悉Ansible, Puppet, Kubernetes等基础系统软件;
5. 熟悉Linux操作系统;
6. 至少会一门语言;
7. 更够独立完成监控,报警等运维系统得搭建部署与设计;
8. 具备较强服务意识和良好的沟通能力,能够承受一定工作压力。