AI Infra / Scheduling / Resource Management

君自强

当前重点负责 AI Infra 相关基础设施建设,覆盖大规模 GPU 集群的调度、资源管理与可视化平台能力。

有 10 万卡集群建设经验,持续关注训练集群的供给效率、资源利用率、系统稳定性与工程落地细节。

Engineering Snapshot

100K 卡集群建设经验
AI Infra 当前核心职责
20+ 年工程经验
  • 大规模 GPU 集群调度体系设计与演进
  • 训练资源管理、配额治理与利用率优化
  • 集群运维可视化、状态观测与平台化建设

关于我

本人安宏奎,笔名君自强,拥有约 20 年工程经验。当前主要负责 AI Infra 方向的基础设施建设, 围绕超大规模 GPU 集群推进调度、资源管理、可视化与平台化能力落地,也长期参与服务端架构与基础设施工程体系建设。

当前重点 AI Infra 基础设施
规模经验 10 万卡集群建设
职责范围 调度、资源管理、可视化
集群建设 参与 10 万卡级别集群建设,关注从资源接入、容量规划到稳定交付的整体链路。
调度体系 持续优化训练任务调度策略,处理资源碎片、优先级、公平性和大规模任务编排问题。
资源管理 负责资源池、配额、容量规划和利用率治理,让算力供给、分配和回收都可管可控。
可视化平台 推动集群状态、任务运行与运营数据可视化,支撑运维、研发和管理侧高效协同。

我更关注的是把复杂算力基础设施做成真正可交付、可运营、可持续演进的工程系统。

君自强头像

联系我

如果你想交流安全研发、基础设施实践,或者只是对某篇文章有反馈,可以直接通过下面的方式联系我。

联系信息

地址 北京市大兴区

公众号

公众号二维码