Python 如何给图像分类(图像识别模型构建)

更新时间：2022年06月14日 09:33:04 作者：编程学习网

这篇文章主要介绍了Python 教你如何给图像分类,今天的文章主要是讲图像识别模型如何构建，本文通过实例代码给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下

在日常生活中总是有给图像分类的场景，比如垃圾分类、不同场景的图像分类等；今天的文章主要是基于图像识别场景进行模型构建。图像识别是通过 Python深度学习来进行模型训练，再使用模型对上传的电子表单进行自动审核与比对后反馈相应的结果。主要是利用 Python Torchvision 来构造模型，Torchvision 服务于Pytorch 深度学习框架，主要是用来生成图片、视频数据集以及训练模型。

模型构建

构建模型为了直观，需要使用 Jupyter notebook 进行模型的构建，

导入所需包

图像识别需要用到深度学习相关模块，所以需要导入相应的包，具体导入的包如下：

%reload_ext autoreload
%autoreload 2
import torch
from torch.utils.data import DataLoader
from torchvision.datasets import ImageFolder
from torchvision import transforms as tfs
from torchvision import models
from torch import nn
import matplotlib.pyplot as plt
%matplotlib inline
import os
os.environ["KMP_DUPLICATE_LIB_OK"]="TRUE"

是否使用 GPU

模型的训练主要方式是基于 GPU 或者 CPU 训练，在没有 GPU 的条件下就在 CPU 下进行训练，模型的训练需要花费一定的时间，训练时长根据训练集的数据和硬件性能而定，训练结果精确性根据数据的多少和准确性而且，深度学习需要大量的素材才能判断出精确的结果，所以需要申明使用 CPU 进行训练：

# 是否使用GPU
use_gpu = False

数据增强

将拿到的数据进行训练集的数据预处理并设置训练分层数，再将拿到的图片进行水平翻转后对图片进行剪裁，剪裁后将图片进行随机翻转，增强随机对比度以及图片颜色变化

# 数据增强
train_transform = tfs.Compose([
    # 训练集的数据预处理
    tfs.Resize([224, 224]),
    tfs.RandomHorizontalFlip(),
    tfs.RandomCrop(128),
    tfs.ToTensor(),
    tfs.Normalize([0.5,0.5,0.5], [0.5,0.5,0.5])
])
test_transform = tfs.Compose([
    tfs.Resize([224,224]),
#     tfs.RandomCrop(128),
    tfs.ToTensor(),
    tfs.Normalize([0.5,0.5,0.5], [0.5,0.5,0.5])
])
# 每一个batch的数据集数目
batch_size = 10

数据集和验证集准备

模型训练需要准备数据集和验证集，只有足够的照片才能得到更精准的答案。训练集和验证集部分代码如下：

# 构建训练集和验证集
# 
train_set = ImageFolder('./dataset1/train', train_transform)
train_data = DataLoader(train_set, batch_size, shuffle=True, num_workers=0)
valid_set = ImageFolder('./dataset1/valid', test_transform)
valid_data = DataLoader(valid_set, 2*batch_size, shuffle=False, num_workers=0)
train_set.class_to_idx
len(valid_data)
# 数据集准备
try:
    if iter(train_data).next()[0].shape[0] == batch_size and \
    iter(valid_data).next()[0].shape[0] == 2*batch_size:
        print('Dataset is ready!')
    else:
        print('Not success, maybe the batch size is wrong')
except:
    print('not success, image transform is wrong!')

模型构建并准备模型

# 构建模型
def get_model():
    model = models.resnet50(pretrained=True)
    model.fc = nn.Linear(2048, 3)
    return model
try:
    model = get_model()
    with torch.no_grad():
        scorce = model(iter(train_data).next()[0])
        print(scorce.shape[0], scorce.shape[1])
    if scorce.shape[0] == batch_size and scorce.shape[1] == 3:
        print('Model is ready!')
    else:
        print('Model is failed!')
except:
    print('model is wrong')
if use_gpu:
    model = model.cuda()

构建模型优化器

# 构建loss函数和优化器
criterion = nn.CrossEntropyLoss()
optimizer = torch.optim.Adam(model.parameters(), lr = 1e-4)
# 训练的epoches数目
max_epoch = 20

模型训练和训练结果可视化

数据集和训练集准备好后进行模型训练和训练结果可视化，部分代码如下：

def train(model, train_data, valid_data, max_epoch, criterion, optimizer):
    freq_print = int(len(train_data) / 3)
    metric_log = dict()
    metric_log['train_loss'] = list()
    metric_log['train_acc'] = list()
    if valid_data is not None:
        metric_log['valid_loss'] = list()
        metric_log['valid_acc'] = list()
    for e in range(max_epoch):
        model.train()
        running_loss = 0
        running_acc = 0
        for i, data in enumerate(train_data, 1):
            img, label = data
            if use_gpu:
                img = img.cuda()
                label = label.cuda()
            # forward前向传播
            out = model(img)
            # 计算误差
            loss = criterion(out, label.long())
            # 反向传播，更新参数
            optimizer.zero_grad()
            loss.backward()
            optimizer.step()
            # 计算准确率
            _, pred = out.max(1)
            num_correct = (pred == label.long()).sum().item()
            acc = num_correct/img.shape[0]
            running_loss += loss.item()
            running_acc +=acc
            if i % freq_print == 0:
                print('[{}]/[{}], train loss: {:.3f}, train acc: {:.3f}' \
                .format(i, len(train_data), running_loss / i, running_acc / i))
        metric_log['train_loss'].append(running_loss / len(train_data))
        metric_log['train_acc'].append(running_acc / len(train_data))
        if valid_data is not None:
            model.eval()
            running_loss = 0
            running_acc = 0
            for data in valid_data:
                img, label = data
                if use_gpu:
                    img = img.cuda()
                    label = label.cuda()
                # forward前向传播
                out = model(img)
                # 计算误差
                loss = criterion(out, label.long())
                # 计算准确度
                _, pred = out.max(1)
                num_correct = (pred==label.long()).sum().item()
                acc = num_correct/img.shape[0]

                running_loss += loss.item()
                running_acc += acc
            metric_log['valid_loss'].append(running_loss/len(valid_data))
            metric_log['valid_acc'].append(running_acc/len(valid_data))
            print_str = 'epoch: {}, train loss: {:.3f}, train acc: {:.3f}, \
            valid loss: {:.3f}, valid accuracy: {:.3f}'.format(
                        e+1, metric_log['train_loss'][-1], metric_log['train_acc'][-1],
                        metric_log['valid_loss'][-1], metric_log['valid_acc'][-1])
        else:
            print_str = 'epoch: {}, train loss: {:.3f}, train acc: {:.3f}'.format(
                e+1,
                metric_log['train_loss'][-1],
                metric_log['train_acc'][-1])
        print(print_str)
    # 可视化
    nrows = 1
    ncols = 2
    figsize= (10, 5)
    _, figs = plt.subplots(nrows, ncols, figsize=figsize)
    if valid_data is not None:
        figs[0].plot(metric_log['train_loss'], label='train loss')
        figs[0].plot(metric_log['valid_loss'], label='valid loss')
        figs[0].axes.set_xlabel('loss')
        figs[0].legend(loc='best')
        figs[1].plot(metric_log['train_acc'], label='train acc')
        figs[1].plot(metric_log['valid_acc'], label='valid acc')
        figs[1].axes.set_xlabel('acc')
        figs[1].legend(loc='best')
    else:
        figs[0].plot(metric_log['train_loss'], label='train loss')
        figs[0].axes.set_xlabel('loss')
        figs[0].legend(loc='best')
        figs[1].plot(metric_log['train_acc'], label='train acc')
        figs[1].axes.set_xlabel('acc')
        figs[1].legend(loc='best')

调参进行模型训练

# 用作调参
train(model, train_data, valid_data, max_epoch, criterion, optimizer)

保存模型

# 保存模型
torch.save(model.state_dict(), './model/save_model2.pth')

总结

今天的文章主要是讲图像识别模型如何构建。希望对大家有所帮助。

到此这篇关于Python 教你如何给图像分类的文章就介绍到这了,更多相关Python 图像分类内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

Python多线程编程（六）：可重入锁RLock
这篇文章主要介绍了Python多线程编程（六）：可重入锁RLock,本文直接给出使用实例,然后讲解如何使用RLock避免死锁,需要的朋友可以参考下
2015-04-04
python系统指定文件的查找只输出目录下所有文件及文件夹
这篇文章主要介绍了python系统指定文件的查找只输出目录下所有文件及文件夹,本文给大家介绍的非常详细，具有一定的参考借鉴价值，需要的朋友可以参考下
2020-01-01
Python对Excel不同的行分别复制不同的次数
这篇文章主要介绍了如何利用Python实现读取Excel表格文件数据，并将其中符合我们特定要求的那一行加以复制指定的次数，感兴趣的小伙伴可以学习一下
2023-07-07
Pandas中shift库的具体使用
shift函数是Pandas库中用于数据位移的函数,常用于时间序列数据的处理,本文主要介绍了Pandas中shift库的具体使用,具有一定的参考价值,感兴趣的可以了解一下
2024-06-06
Jupyter notebook中如何添加Pytorch运行环境
这篇文章主要介绍了Jupyter notebook中如何添加Pytorch运行环境，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
2023-02-02
Python对接 xray 和微信实现自动告警
xray 是从长亭洞鉴核心引擎中提取出的社区版漏洞扫描神器，支持主动、被动多种扫描方式，自备盲打平台、可以灵活定义 POC，功能丰富，这篇文章主要介绍了对接 xray 和微信实现自动告警,需要的朋友可以参考下
2019-09-09
基于OpenCV的直方图匹配的实现方法
这篇文章主要介绍了基于OpenCV的直方图匹配的实现方法，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2021-04-04
python实现对svn操作及信息获取
这篇文章主要介绍了python实现对svn的操作及信息获取示例过程，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步
2021-10-10
Django解决CORS跨域问题的方案
Cross-Origin Resource Sharing（CORS）跨域问题,在前后端后离项目,selenium , playweight 自动化测试代码中经常遇到,本文给大家介绍了Django解决CORS跨域问题的方案,文中有详细的代码讲解,需要的朋友可以参考下
2024-03-03
Django中使用ModelForm生成HTML标签的方法步骤
在 Django 中,使用 ModelForm 来生成 HTML 表单标签是一种常见且高效的做法,本文主要介绍了Django中使用ModelForm生成HTML标签的方法步骤,感兴趣的可以了解一下
2024-01-01