实战故事
5 天 3 次崩溃,每一次都比上一次更好
故事线
| 日期 | 事件 | 结果 |
|---|---|---|
| Feb 12 夜 | GLM-5 全网首部署 | 跑通了但太慢,次日弃用 |
| Feb 13 | M2.5 自转换 + CCR 诞生 | 三层架构上线 |
| Feb 14 | OOM 内核 Panic | 写安全等待脚本 |
| Feb 15 | 发现 oMLX,SSD cache 死锁 | Fork + PR #16 修复 |
| Feb 16 | GPU Hang 崩溃循环 | 确认是 Metal 驱动问题,唯一解 = 重启 |
三个关键战役
每一场都是真实的生产事故,有完整的根因分析和修复方案。