AI Infra / Scheduling / Resource Management
当前重点负责 AI Infra 相关基础设施建设,覆盖大规模 GPU 集群的调度、资源管理与可视化平台能力。
有 10 万卡集群建设经验,持续关注训练集群的供给效率、资源利用率、系统稳定性与工程落地细节。
Engineering Snapshot
About
本人安宏奎,笔名君自强,拥有约 20 年工程经验。当前主要负责 AI Infra 方向的基础设施建设, 围绕超大规模 GPU 集群推进调度、资源管理、可视化与平台化能力落地,也长期参与服务端架构与基础设施工程体系建设。
我更关注的是把复杂算力基础设施做成真正可交付、可运营、可持续演进的工程系统。
Contact
如果你想交流安全研发、基础设施实践,或者只是对某篇文章有反馈,可以直接通过下面的方式联系我。