更新于 6月28日

GPU云工程师(全栈式)

2万-3万·15薪
  • 北京朝阳区
  • 5-10年
  • 本科
  • 全职
  • 招1人

职位描述

全栈PythonGoLang
工作职责:
1.参与设计和开发智算产品,包括组件设计、开发、测试、上线等,搭建日志、监控、报警、链路跟踪等基础运维系统;
2.参与制定并执行运维流程、规范和标准化措施,提高运维效率,降低故障率; 3.与供应商协同,搭建和运维智算平台,包括云管、服务器、网络、存储等各个子系统;
4.诊断和解决客户问题,线上环境的维护,监控,调优,和故障定位,特别是在GPU密集型应用和高性能计算场景下,确保系统快速恢复正常运行;
任职资格:
1.本科及以上学历,3~5年工作经验;
2.熟悉常用的Linux操作系统,了解分布式系统的基础架构理论,如微服务和容器化等;
3.对云计算中计算、存储、网络、云管等一个或多个领域有比较深入的了解;
4.熟练掌握Go、Python等语言;
5.有云平台、GPU集群管理平台的研发运维经验,备大规模系统监控运维经验,熟悉kubernetes、Prometheus、Grafana、ELK、Loki等优先;
6.熟悉GPU、AI、3D渲染中的一个或多个领域者优先;
7.加分项:
- 有大规模分布式系统或云计算平台运维开发的经验
- 有深度学习、大模型训练、推理运维、故障处理和稳定性保障的经验
- 有系统化开发运维保障平台的经验

工作地点

启明国际大厦

职位发布者

李墨/人事经理

立即沟通
公司Logo北京数道智算科技有限公司
北京数道智算科技有限公司作为一家提供智能算力服务的企业,成立于2023年9月21日,注册资金13684.2105万元人民币,由广东中关村协同智算股权投资合伙企业(有限合伙)、摩尔线程智能科技(北京)有限责任公司、北京智谱华章科技有限公司等共同持股组建。公司致力于以算力基础设施需求为驱动,为上下游企业技术与应用创新赋能,助推区域产业转型升级。业务涵盖算力建设、算力平台研发和全栈算力服务。为AI、元宇宙、数字仿真等新兴数字经济的企业提供全方位的算力支撑。
公司主页