最近在跟几个搞算法的朋友聊天,又聊到了模型层数这个老话题,有个哥们儿吐槽说,他们团队之前为了赶个热点,硬是把一个视觉模型的层数往上堆了快一倍,结果训练到一半,效果没上去,算力先崩了,最后只能回退版本,...