更新于 9月23日

智算IT运维工程师(怀柔机房)

6千-1.2万
  • 北京怀柔区
  • 经验不限
  • 大专
  • 全职
  • 招1人

职位描述

智算中心Docker硬件/设备运维
岗位职责:
1.负责智算中心IT设施的交付,服务器上架与装机;
2.负责智算中心IT设施设备的验收与测试,bios、布线、接口等硬件参数调试;
3.负责服务器的故障处理和跟进、软硬件参数调优、软硬件性能测试与优化;
4.负责在硬件层面支持智算中心IT自动化运维平台的开发、部署、日常运行优化工作;
5.面向企业级AI计算和高性能计算应用场景,组织实施智能算力集群的建设、运维、优化工作:
6.评估各类异构AI计算芯片,在各类场景下的适配性,组织算力调度系统研发工作;
7.设计、优化、评估智算中心网络,测试、评估各类软、硬件及方案适配性;
8.支撑算力用户设计并实施个性化解决方案,配合用户完成算力增值服务。

任职要求:
1.熟悉主流GPU硬件架构,熟悉环境部署,有智算中心排障调优经验;
2.熟悉至少一种主流深度学习编程框架、熟悉智算底层架构和实现机制;
3.熟悉liuxn,网络设备、安全设备,有相关认证优先;
4.有全流程的LLM/多模态大模型部署应用经验,熟悉多机、多卡集群的部署、调优;
5.具备扎实的编程能力,良好的工程素养,团队合作能力和沟通能力强,抗压能力强,具有较强的自我驱动力;
6、有云计算,存储经验,有相关认证优先;
7、熟悉Docker和Kubernetes;
8、一定的脚本编写能力;
9、熟悉监控工具;
10、对服务器硬件及参数,硬件适配、排障有一定了解。

工作地点

中国科学院计算机网络信息中心怀柔分中心

职位发布者

田秀明/人事

刚刚活跃
立即沟通
公司Logo北京北龙云海网络数据科技有限责任公司
北京北龙云海网络数据科技有限责任公司具备专业IDC/ISP资质,提供专业机房租赁、网络接入、服务器托管、IT运维服务;在ITIL、ITSS等运维服务管理体系的基础上,为各科研院所提供全面的IT支撑与服务,为政府机关、企事业单位提供运维、灾备、咨询等社会化IT技术服务。
公司主页