最近跟几个搞算法的朋友聊天,大家不约而同提到一个事儿:现在的大模型,真是越来越“能吃”了,参数动不动千亿起步,训练数据量更是以TB为单位往上窜,以前拿几块显卡拼个小型服务器还能勉强跑起来,没一台专门为...