18504119150
官方公众号
手机做单
服务器硬件维护工程师 招1人

年薪:18-25

|

3年以上

|

本科及以上 统招

|

25-35岁

|

性别:不限

|

工作地: 杭州市

平均反馈 0天
推荐中 0  面试中 0  offer 0
50000 .00
总服务费约 最终赏金会根据成约候选年薪及悬赏方式,按猎头所在等级的分成比例扣除第三方10%服务费。
计算公式=最终成约总佣金 ÷ 1.06(增值税)× 会员等级对应的分成比例 × 90%(第三方服务费)

29天前更新

职位状态:职位暂停
岗位职责
岗位职责

岗位职责:
1、硬件维护
     负责GPU服务器的安装、调试、上架、故障诊断及维修。
     定期检查硬件状态(GPU、CPU、内存、硬盘、电源等),确保设备稳定运行。
    配合供应商处理硬件保修或更换(如GPU烧毁、显存故障等)。
2、集群与驱动管理
    管理大规模GPU集群(万卡级),支持算力网络架构(IB/RoCE/NVLink/PCIe),优化集群性能(HPL/HPCG基准测试),解决网络通信、存储(Lustre/CephFS)及算力调度(Slurm/PBS)问题。
    部署与维护监控系统(Prometheus/Grafana/Zabbix),实时跟踪GPU利用率、功耗及健康状态,构建故障预警机制,设计HA测试方案(故障注入/灾备切换)。
3、硬件与软件适配 
    执行服务器硬件改配(如GPU升级、液冷方案部署)及软件适配(驱动安装、BIOS/固件更新),确保与操作系统(Linux/CentOS)、虚拟化平台(Docker/Kubernetes)及AI框架(CUDA/TensorRT)的兼容性。 
参与智算中心交付,配合完成服务器上架、网络配置及压力测试,支持异构加速场景(大模型训练/推理)。
4、文档与协作
    编写运维手册、故障处理SOP及巡检报告,维护维修案例库,记录硬件生命周期(故障历史、配件更换)。
    与研发、售前团队协作,解决复杂技术问题(如硬件兼容性、性能瓶颈),提供客户技术培训及方案定制。 
    探索前沿技术(如Chiplet异构集成、存算一体架构),优化运维自动化工具(Ansible/Python脚本),提升故障处理效率。

任职资格:
1、专业背景
    计算机、电子工程、通信等相关专业,本科及以上学历;3年以上阿里云IDC机房、GPU服务器维护或数据中心运维经验,熟悉NVIDIA/AMD主流显卡架构(如Hopper/Ada Lovelace)者优先。 
2、核心技能 
    硬件能力:精通GPU服务器拆装、故障诊断(如错误代码解析),掌握焊接工具(热风枪、示波器)及备件管理,熟悉服务器BMC管理(IPMI/RedFish)。 
   软件与工具:熟练使用Linux命令行,掌握自动化工具(Ansible/Kubernetes)、监控平台(Prometheus)及集群管理工具(Slurm);熟悉Python/Shell脚本开发。 
   网络与架构:理解IB/RoCE网络协议、RDMA原理,掌握集群文件系统(Lustre/NFS)部署与调优,熟悉PCIe/CXL接口规范。  
3、软技能 
    具备快速故障定位能力(MTTR优化),能在7×24小时轮值中响应紧急事件;良好的客户沟通能力,适应定制化服务需求。

以下内容由HR发布
企业在招
泰国销售经理(急!!!)

年薪:7-12

|

3-5年

|

本科及以上

工作地:东南亚及南亚

|

招1人

27600.00
总赏金约
Hi,以下是当前职位的项目负责人
上市公司
集团化企业
行业领先
企业规模:1000人以上
企业性质:私营/民营企业

我要做单赚钱 我要国内/海外招聘

0411-84734065(工作日 9:00-18:00)
猎头交流群
官方微信