Article

About

Published on 2022-12-25

关于我

本人安宏奎,笔名君自强,拥有约 20 年工程经验。当前主要负责 AI Infra 方向的基础设施建设, 围绕超大规模 GPU 集群推进调度、资源管理、可视化与平台化能力落地,也长期参与服务端架构与基础设施工程体系建设。

当前重点 AI Infra 基础设施
规模经验 10 万卡集群建设
职责范围 调度、资源管理、可视化
集群建设 参与 10 万卡级别集群建设,关注从资源接入、容量规划到稳定交付的整体链路。
调度体系 持续优化训练任务调度策略,处理资源碎片、优先级、公平性和大规模任务编排问题。
资源管理 负责资源池、配额、容量规划和利用率治理,让算力供给、分配和回收都可管可控。
可视化平台 推动集群状态、任务运行与运营数据可视化,支撑运维、研发和管理侧高效协同。

我更关注的是把复杂算力基础设施做成真正可交付、可运营、可持续演进的工程系统。

君自强头像
Previous: Home Next: Contact