1.导入必要的库（就像准备厨具）

2025-12-30 304 AI链物

从零开始，在阿里云上训练你的第一个AI模型：手把手实战指南

你是不是也曾经看着那些酷炫的AI应用,心里痒痒的，想着“要是我也能训练一个自己的模型就好了”？但一看到“机器学习”、“模型训练”、“GPU集群”这些词，又被硬生生劝退了？总觉得那是大厂工程师才能玩转的高端游戏？

别急着关掉页面,我就带你扔掉那些晦涩的理论，直接上手，在阿里云上实实在在地跑通你的第一个AI模型训练，咱们不搞空中楼阁，就从一个最经典、也最实用的图像分类模型开始，放心，我不假设你是数学天才或代码大神，你只需要有一台能上网的电脑，和一点点好奇心。

第一步：别想太多，先把“场子”搭起来

所有伟大工程的第一步,往往都是最枯燥的，在阿里云训练模型，你得先有个“工作台”，登录阿里云官网，找到 “PAI（Platform of Artificial Intelligence）平台”，这就像是阿里云给你准备好的一个AI实验室，锅碗瓢盆（计算资源）、油盐酱醋（算法框架）都备齐了。

开通PAI：如果是第一次用，跟着指引开通一下，通常有新用户优惠。
创建项目：在PAI控制台里，创建一个新项目，名字随你起，我的第一个AI试验田”。
选择计算资源：这里你会遇到第一个专业选择：选哪种GPU？ 对于入门，别纠结，直接选最便宜的 “GPU计算型（例如gn6i）” 按量付费，这就像租用一台超级游戏本，用几小时付几小时的钱，成本可控，设置一个“自动释放”时间，比如2小时后，防止忘了关机一直扣钱。

好了,“实验室”租好了，是不是比想象中简单？

第二步：准备“食材”——你的数据集

模型不是凭空变出来的,它需要“学习资料”，也就是数据集，我们这次做图像分类，最经典的入门数据集是 CIFAR-10（包含10个类别的6万张小图片，比如飞机、汽车、小鸟）。

好消息是：在PAI的示例项目或公开数据集里，经常能找到它，你可以直接加载，省去自己上传的麻烦，如果你想玩点不一样的，可以自己准备，你想训练一个模型区分“咖啡拉花”和“普通咖啡”，那就需要：

收集至少每类几百张图片。
把图片按类别放进不同的文件夹（./data/拉花/， ./data/普通/）。
压缩成一个ZIP包,通过PAI控制台上传到你的OSS（对象存储）桶里。

数据是AI的粮食，粮食的质量直接决定模型的身材。 图片尽量清晰、多样，别用10张一模一样的猫片就想让AI认识全世界的猫。

第三步：开火下锅——用代码“炒”模型

重头戏来了,但别怕，代码是现成的，PAI支持多种方式，我们选最直观的 “DSW（Data Science Workshop）”，它是一个在线的Jupyter Notebook环境，就像一个有魔力的记事本，既能写文字说明，又能直接运行代码。

在PAI控制台创建DSW实例,选择刚才租的GPU。
打开它,你会看到一个熟悉的文件界面，新建一个Python Notebook。
关键的代码来了，下面是一个基于PyTorch框架，训练CIFAR-10分类模型的极简核心代码块，你不需要完全理解每一行，可以把它当成食谱照着做：

import torch.nn as nn
import torch.optim as optim
import torchvision
import torchvision.transforms as transforms
# 2. 加载并准备数据（洗菜、切菜）
transform = transforms.Compose([transforms.ToTensor(), transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))])
trainset = torchvision.datasets.CIFAR10(root='./data', train=True, download=True, transform=transform)
trainloader = torch.utils.data.DataLoader(trainset, batch_size=32, shuffle=True)
# 3. 定义一个简单的神经网络模型（决定炒什么菜式）
class SimpleCNN(nn.Module):
    def __init__(self):
        super().__init__()
        self.conv1 = nn.Conv2d(3, 16, 3, padding=1)
        self.pool = nn.MaxPool2d(2, 2)
        self.fc1 = nn.Linear(16 * 16 * 16, 120)
        self.fc2 = nn.Linear(120, 84)
        self.fc3 = nn.Linear(84, 10)
    def forward(self, x):
        x = self.pool(torch.relu(self.conv1(x)))
        x = x.view(-1, 16 * 16 * 16)
        x = torch.relu(self.fc1(x))
        x = torch.relu(self.fc2(x))
        x = self.fc3(x)
        return x
net = SimpleCNN()
# 4. 定义损失函数和优化器（放什么调料，用多大火）
criterion = nn.CrossEntropyLoss()
optimizer = optim.SGD(net.parameters(), lr=0.001, momentum=0.9)
# 5. 开始训练！（开炒！）
for epoch in range(5):  # 把整个数据集“过”5遍
    running_loss = 0.0
    for i, data in enumerate(trainloader, 0):
        inputs, labels = data
        optimizer.zero_grad()  # 梯度清零
        outputs = net(inputs)  # 前向传播
        loss = criterion(outputs, labels)  # 计算误差
        loss.backward()  # 反向传播，计算梯度
        optimizer.step()  # 更新权重
        running_loss += loss.item()
    print(f'第{epoch+1}轮， 平均损失： {running_loss / len(trainloader):.3f}')
print('训练结束！')

把这段代码粘贴到Notebook的一个代码单元格里,然后按下 Shift+Enter，你会看到终端开始疯狂滚动日志，GPU开始发热，这意味着，你的模型正在学习了！

这个过程可能需要几分钟到十几分钟,你会看到那个“损失（loss）”的数值在逐渐下降，这就是模型在进步的表现，从一头雾水到慢慢找到规律。

第四步：尝尝咸淡——评估你的模型

训练完了,不能光说不练，我们需要看看这个模型到底学得怎么样，在Notebook里新建一个单元格，写评估代码：

# 加载测试集
testset = torchvision.datasets.CIFAR10(root='./data', train=False, download=True, transform=transform)
testloader = torch.utils.data.DataLoader(testset, batch_size=32, shuffle=False)
# 评估模式
net.eval()
correct = 0
total = 0
with torch.no_grad():  # 评估时不计算梯度
    for data in testloader:
        images, labels = data
        outputs = net(images)
        _, predicted = torch.max(outputs.data, 1)
        total += labels.size(0)
        correct += (predicted == labels).sum().item()
print(f'测试集准确率： {100 * correct / total:.2f}%')

运行它,对于一个只训练了5轮的简单模型，准确率可能在60%左右，别嫌低！这证明它已经比瞎猜（10%）强太多了，你可以尝试增加训练轮数（epoch=10）、调整网络结构、换更复杂的模型（如ResNet），准确率会蹭蹭往上涨。