岗位职责
一、硬件选型与部署:
1、负责数据中心服务器、GPU算力卡、存储设备的选型论证及采购评测,输出硬件兼容性报告;
2、主导新服务器上架部署,包括RAID配置、BIOS/UEFI调优、硬件级故障诊断与备件更换。
二、算力集群运维
1、支持GPU服务器(含DeepSeek一体机)的硬件调优,监控GPU显存利用率及散热性能;
2、制定IDC机房硬件巡检标准,设计服务器生命周期管理方案(退役/扩容决策)。
三、技术支持与优化
1、协助AI研发团队完成大模型/深度学习模型(如pth模型)本地部署的算力验证,排查硬件资源瓶颈;
2、编写硬件运维手册及故障应急处理SOP,定期组织技术内部分享。
四、新技术研究
1、跟踪国产化服务器及AI加速芯片发展趋势,主导新硬件适配性测试(如华为昇腾系列);
2、进行服务器、存储的产品引进和技术评估,包括技术规格确定、技术测试的标准制定和实施、技术服务要求的制定。
任职要求:
1、本科及以上学历,计算机、电子工程或相关专业,5年以上服务器硬件运维经验;
2、精通Intel/AMD CPU体系架构,掌握主流GPU(NVIDIA/海光DCU,华为910B)的硬件特性及监测工具;
3、熟悉服务器BMC/iLO管理,能独立完成硬盘背板/电源模组,内存,显卡更换及固件升级;
4、具备Linux基础运维能力(Ubuntu/CentOS),了解基础脚本编写(Bash/Python);
优选条件(满足任意1项):
5、有AI算力集群(多卡集群)部署经验或HPC高性能计算项目背景;
6、熟悉国产化服务器(浪潮/华为)或DeepSeek LLM一体机运维逻辑。
因项目进度会有适当加班的情况,能参与加班。
薪资待遇面议。