Article

Home

Published on 2022-12-25

AI Infra / Scheduling / Resource Management

君自强

当前重点负责 AI Infra 相关基础设施建设,覆盖大规模 GPU 集群的调度、资源管理与可视化平台能力。

有 10 万卡集群建设经验,持续关注训练集群的供给效率、资源利用率、系统稳定性与工程落地细节。

Engineering Snapshot

100K 卡集群建设经验
AI Infra 当前核心职责
20+ 年工程经验
  • 大规模 GPU 集群调度体系设计与演进
  • 训练资源管理、配额治理与利用率优化
  • 集群运维可视化、状态观测与平台化建设
Next: About