搞模型训练的朋友,估计都经历过这种崩溃瞬间:代码跑起来了,数据喂进去了,GPU也开始嗡嗡叫了,你美滋滋地泡杯咖啡,回来一看——损失曲线稳如一条死鱼,或者更刺激的,直接给你来个梯度爆炸,训练日志红得发慌...