OpenVINO基本操作流程

环境配置：

conda env list:可以查看有哪些环境

conda activate intel:启动某个环境

pip list：可以查看此环境下都下载了哪些软件包

from openvino.inference_engine import IEcore#从OpenVINO推理引擎中导入IECore类
import numpy as np
import cv2


'''
1，初始化推理引擎
'''
ie = IECore()#创建一个IECore对象
for device in ie.available_devices:#遍历所有可用openVINO的计算机设备
    print(device)#打印每一个设备的名称




with open('imagenet_classes.txt') as f:#打开一个包含ImageNet类标签的文件，读取里面的每一行信息
    labels = [line.strip() for line in f.readlines()]#读取文件中的所有行并去除每行的空格
#readlines()可以把文件里的每一行信息保存在列表中，但是也会把换行符保存进去
#line.strip()可以去掉换行符
#最后把每一行信息都保存在labels(每一行是一个元素，100行则在labels列表中有100个元素)



'''
2，加载模型
'''
model_xml = "resnet18.xml"#指定模型的XML文件路径
model_bin = "resnet18.bin"#指定模型的二进制权重文件路径
#xml指明了这个模型中的层和参数，相当于搭了一个框架。而bin就是框架里的信息
#pytorch训练出来的是.pt文件，后续会通过程序先将.pt文件转为onnx，然后再转为.xml,.bin文件

net = ie.read_network(model=model_xml, weights=model_bin)#读取模型


'''
3，配置输入输出
'''
input_blob = next(iter(net.input_info))#获取模型输入层名称并保存在input_blob中
out_blob = next(iter(net.outputs))#获取模型的输出层名称

n,c,h,w = net.input_info[input_blob].input_data.shape#获取输入数据的形状
#n表示一个批次传入图片数量，c代表通道数
#通过print可以看出如果我们想要把图片传入到resnet18这个网络中，1次只能传一张，通道数为3(彩色)
#传入图片高宽需要是h w
print(n, c, h, w)

#为了匹配上述模型输入图片要求，就有了下面的对图片的处理
src = cv2.imread("1.jpg")#读取图片文件
image = cv2.resize(src, (w,h))#调整图片大小以匹配模型的输入大小
image = np.float32(image)/255.0$将图像数据归一化到[0,1]范围
#np.float32(image)将图片每一个像素值转换为浮点型，然后每个都除以255
image[:,:,] -= (np.float32(0.485), np.float32(0.456), np.float(0.406))#从图像中减去均值
image[:,:,] -= (np.float32(0.229), np.float32(0.224), np.float(0.225))#将图像数据除以标准#
#差
#image[:,:,]读取每一个像素值
image = image.transpose(2, 0, 1)#调整图像的维度顺序,将cv2读取的BGR(012)格式转换为RBG(2,0,1)


exec_net = ie.load_network(network = net, device_name = "CPU")#在CPU上加载模型
res = exec_net.infer(inputs={input_blob:[image]})#进行推断



'''
后处理
'''
res = res[out_blob]#获取推断结果
print(res.shape)#打印推断结果的形状.因为分类给的txt中有1000行，即1000个可能。所以输出的res有#1000个概率，我们只需要找到概率最大的那个即可
label_index = np.argmax(res, 1)[0]#获取最可能的类标签的索引
print(label_index, label[label_index])#打印类标签的索引和名称
cv2.putText(src, labels[label_index],(50,50),cv2.FONT_HERSHEY_SIMPLEX,1.0,(0,0,255),2,8)
#在原图上添加类标签文本
cv2.imshow("image classification", src)
cv2.waitKey(0)

图像分类案例

1，模型训练

使用OpenVINO进行实时图像分类，使用Pytorch训练一个自己的图形分类模型，然后将它部署在树莓派上，并用摄像头进行

训练自己的图形分类模型首先创建文件夹，文件夹内有自己的数据集文件夹(可以命名为Data)，Data文件夹中又有text和train文件夹，分别存放要训练的图片。除了数据集文件夹剩下的就是.py代码文件

训练模型.py

import os #os通常用来创建文件夹，遍历目录等更系统有关
import torch
import torch.nn as nn #nn用来修改网络参数
import torch.optim as optim #optim用来网络优化系统的
from torchvision import datasets, models, transforms
#datasets读取自定义数据，models用来导入预训练模型的，transforms用来数据增强等预处理

if __name__ == '__main__': #定义主函数
    #设置设备。判断当前显卡cuda能否使用，不能使用则使用cpu
    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
    
    #数据增强和归一化操作
    data_transforms = {
        'train':transforms.Compose(
            transforms.RandomResizedCrop(224), #对图片进行随机裁剪大小为224*224的大小
            transforms.RandomHorizontalFlip(), #随机对图片进行一个水平翻转
            transforms.ToTensor(), #把图片转变为tensor格式才能输入到网络中
            transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
            #对图片数据进行归一化，前面为均值，后面是标准差
        ]),
        'test':transforms.Compose([
            transforms.Resize(256),
            transforms.CenterCrop(224),
            transforms.ToTensor(),
            transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
        ]),
    }


    #加载数据集
    data_dir = r'data'#相对路径的写法，表示数据集在此.py文件同目录下的data文件中
    image_datasets = {x:datasets.ImageFolder(os.path.join(data_dir, x),
                                            data_transforms[x])
                            for x in ['train', 'test']}
    #os.path.join(data_dir,x)表示路径拼接将数据增强后的图片存入到data_dir中,data_dir称为根目            
    #录,x来自train或者test
    #此操作表示如果数据来自train则进行数据增强train里的方式，如果来自test则进行test的增强方式
    dataloaders = {x:torch.utils.data.DataLoader(image_datasets[x], batch_size=16,
                                                 shuffle=True, num_workers=4)
                            for x in ['train', 'test']}
    #dataloaders将图片传入到训练网络中，分批次传。batch_size表示一批传几张图片，shuffle表示每        
    #次传入数据前进行打乱。num_works表示用几个线程进行加载
    dataset_sizes = {x: len(image_datasets[x]) for x in ['train', 'test']}
    #dataset_sizes获取train,test中有多少张图片
    class_names = image_datasets['train'].classes
    #class_names获取每一个类别对应的名字    

    #加载预训练的ResNet18模型
    model = models.resnet18(pretrained = True)
    #用models获取预训练模型，pretrained=True表示拿到ResNet18框架之外，还把权重文件里面的数据也 
    #拿下来。在上述OpenVINO实例中我们知道ResNet18数据集有1000中，而这里我们的数据集只有cat和 
    #dog，所以输出是不一样的，所以我们要将输出的数量换为我们的数量，以下两行为替换方法
    num_ftrs = model.fc.in_features
    model.fc = nn.Linear(num_ftrs, len(class_names))
    #网络弄好了，通过下方一行代码转到设备里面进行运行
    model = model.to(device)


    criterion = nn.CrossEntropyLoss()#训练网络时用到的损失函数，分类问题用此损失函数即可
    optimizer = optim.Adam(model.parameters(), lr=0.001)
    #Adam优化器，要优化参数model.parameters()表示models的全部参数，lr表示学习率


    best_acc = 0.0#初始化最高准确率
    best_epoch = -1#初始化
    best_model_wts = None
    

    #训练模型
    num_epochs = 25 #训练轮数
    for epoch in range(num_epochs):
        #首先输出当前是第几轮
        print(f'Epoch {epoch}/{num_epochs - 1}')
        print('-' * 10)

        #如果当前过程是train则进入训练模式model.train(),否则进入到model.eval()验证模式
        for phase in ['train', 'test']:
            if phase == 'train':
                model.train()
            else:
                model.eval()

            #初始化
            running_loss = 0.0
            running_corrects = 0
            
            #读取dataloaders里面的参数
            for inputs, labels in dataloaders[phase]:
                inputs = inputs.to(device)
                labels = labels.to(device)
                   

                #每一个迭代开始之前都对梯度计算进行清零 
                optimizer.zero_grad()

                #如果是在训练阶段就打开计算梯度的工具
                with torch.set_grad_enabled(phase == 'train'):
                    outputs = model(inputs)
                    _,preds = torch.max(outputs, 1)#找到最大值并返回结果
                    loss = criterion(outputs, labels)
                
                    if phase == 'train':
                        loss.backward()#如果是在训练阶段就进行反向传播
                        optimizer.step()#并且更新优化器
                running_loss += loss.item() * inputs.size(0)#把loss值累加
                running_corrects += torch.sum(preds == labels.data)#统计正确个数
            #每一轮结束就统计一下loss值和正确率
            epoch_loss = running_loss / dataset_sizes[phase]
            epoch_acc = running_corrects.double() / dataset_sizes[phase]
            #并显示
            print(f'{phase} Loss: {epoch_loss:.4f} Acc: {epoch_acc:.4f}')
            #如果本轮正确率比以往的都高，则进行替换
            if phase == 'test' and epoch_acc >best_acc:
                best_acc = epoch_acc
                best_epoch = epoch
                best_model_wts = model.state_dict()
            
        print()
    print('Training complete!')
    print(f'Best test accuracy: {best_acc:.4f} at epoch {best_epoch}')
    torch.save(best_model_wts, f'models/best_resnet18_model_epoch_{best_epoch}.pth')

使用预训练的ResNet18对图片进行训练，并且将性能最好的权重保存在本地。如下文件

2，模型转换

先转到onnx,再转到openvino

pytorch转onnx.py

import torch
import torchvision.models as models

#指定要加载的模型权重文件的路径
model_weights_path = 'models/best_resnet18_model_epoch_17.pth'

#加载ResNet-18模型结构
model = models.resnet18()
model.fc = torch.nn.Linear(model.fc.in_features, 2)
#从文件中加载模型权重
model.load_state_dict(torch.load(model_weights_path))

#确保模型处于评估模式，关闭Dropout和BatchNorm层
model.eval()

#创建一个模拟输入，以便ONNX导出器能够确定输入/输出格式
#这个例子假设输入图像是224X224的三通道图像
x = torch.randn(1, 3, 224, 224, requires_grad = True)

#指定ONNX文件的输出路径
onnx_file_path = r'model\resnet18_catdog.onnx'


#将模型导出为ONNX格式
torch.onnx.export(model, #运行的模型
                  x, #模型输入（或者一个元组，如果有多个输入）
                  onnx_file_path,#保存模型的文件路径
                  export_params=True,#存储训练权重和偏置
                  opset_version=10,#ONNX版本
                  do_constant_folding=True#是否执行常量折叠优化
                )
print(f'Model saved in {onnx_file_path}')

netron工具可以查看onnx里的参数，如下

onnx转OpenVINO

先安装onnx ：pip install onnx==1.14.0

再用以下命令进行转换：mo --input_model .\resnet18_catdog.onnx

转换完成的文件路径会给标明(.bin .xml .mapping)

3，模型应用：单张图片分类

from openvino.inference_engine import IEcore
import numpy as np
import cv2


ie = IECore()#创建一个IECore对象
for device in ie.available_devices:
    print(device)

#animal.txt里面存放着分类类别名，一行为一种，此示例为分类cat和dog，所以此文件一共两行
#自己编写，并放在这些.py文件的同一目录下
with open('animal_classes.txt') as f:
    labels = [line.strip() for line in f.readlines()]


#之前文件未写r，是由于resnet.xml和resnet.bin就在当前目录下，这里用r并加上路径名来指定#resnet18_catdog.xml文件(因为此xml文件不直接在该目录下，而在该目录的文件夹中)
model_xml = r"models/resnet18_catdog.xml"
model_bin = r"models/resnet18_catdog.bin"

net = ie.read_network(model=model_xml, weights=model_bin)#读取模型


input_blob = next(iter(net.input_info))#获取模型输入层名称并保存在input_blob中
out_blob = next(iter(net.outputs))#获取模型的输出层名称

n,c,h,w = net.input_info[input_blob].input_data.shape
print(n, c, h, w)


src = cv2.imread(r"resources/85.jpg")#读取图片文件
image = cv2.resize(src, (w,h))#调整图片大小以匹配模型的输入大小
image = np.float32(image)/255.0$将图像数据归一化到[0,1]范围
image[:,:,] -= (np.float32(0.485), np.float32(0.456), np.float(0.406))#从图像中减去均值
image[:,:,] -= (np.float32(0.229), np.float32(0.224), np.float(0.225))#将图像数据除以标准#
#差
#image[:,:,]读取每一个像素值
image = image.transpose(2, 0, 1)#调整图像的维度顺序,将cv2读取的BGR(012)格式转换为RBG(2,0,1)


exec_net = ie.load_network(network = net, device_name = "CPU")#在CPU上加载模型
res = exec_net.infer(inputs={input_blob:[image]})#进行推断




res = res[out_blob]
print(res.shape)
label_index = np.argmax(res, 1)[0]
print(label_index, label[label_index])
cv2.putText(src, labels[label_index],(50,50),cv2.FONT_HERSHEY_SIMPLEX,1.0,(0,0,255),2,8)
cv2.imshow("image classification", src)
cv2.waitKey(0)

4，摄像头实时分类

摄像头实时分类.py

from openvino.inference_engine import IEcore
import numpy as np
import cv2
import time #导入time库以计算FPS


ie = IECore()#创建一个IECore对象
for device in ie.available_devices:
    print(device)

with open('animal_classes.txt') as f:
    labels = [line.strip() for line in f.readlines()]


model_xml = r"models/resnet18_catdog.xml"
model_bin = r"models/resnet18_catdog.bin"

net = ie.read_network(model=model_xml, weights=model_bin)#读取模型


input_blob = next(iter(net.input_info))#获取模型输入层名称并保存在input_blob中
out_blob = next(iter(net.outputs))#获取模型的输出层名称

n,c,h,w = net.input_info[input_blob].input_data.shape

exec_net = ie.load_network(network = net, device_name = "CPU")#在CPU上加载模型

cap = cv2.VideoCapture(0)
if not cap.isOpened():
    print("Error")
    exit()

prev_time = time.time() #在循环开始前初始化时间变量
frame_count = 0
fps = 0 #初始化fps

while True:
    ret, frame = cap.read()
    if not ret:
        print("Failed to grab frame.")
        break
    frame_count +=1
    curr_time = time.time()
    delta_time = curr_time - prev_time

    if delta_time >= 1.0: #每秒更新一次FPS
        fps = frame_count / delta_time
        frame_count = 0
        prev_time = curr_time

    image = cv2.resize(src, (w,h))
    image = np.float32(image)/255.0
    image[:,:,] -= (np.float32(0.485), np.float32(0.456), np.float(0.406))
    image[:,:,] -= (np.float32(0.229), np.float32(0.224), np.float(0.225))
    image = image.transpose(2, 0, 1)


    res = exec_net.infer(inputs={input_blob:[image]})#进行推断
    res = res[out_blob]
    print(res.shape)
    label_index = np.argmax(res, 1)[0]
    print(label_index, label[label_index])
    cv2.putText(frame, {fps:.2f},(50,100),cv2.FONT_HERSHEY_SIMPLEX,1.0,(0,0,255),2,8)
    cv2.putText(frame, labels[label_index],(50,50),cv2.FONT_HERSHEY_SIMPLEX,1.0,(0,0,255),2,8)
    cv2.imshow("image classification", src)
    if cv2.waitKey(1) & 0xFF == ord('q'):
        break
cap.release()
cv2.destroyAllWindows()

5，模型加速 (异步加速)

摄像头实时分类_异步加速.py

from openvino.inference_engine import IEcore
import numpy as np
import cv2
import time #导入time库以计算FPS


ie = IECore()#创建一个IECore对象
for device in ie.available_devices:
    print(device)

with open('animal_classes.txt') as f:
    labels = [line.strip() for line in f.readlines()]


model_xml = r"models/resnet18_catdog.xml"
model_bin = r"models/resnet18_catdog.bin"

net = ie.read_network(model=model_xml, weights=model_bin)#读取模型


input_blob = next(iter(net.input_info))#获取模型输入层名称并保存在input_blob中
out_blob = next(iter(net.outputs))#获取模型的输出层名称

n,c,h,w = net.input_info[input_blob].input_data.shape

exec_net = ie.load_network(network = net, device_name = "CPU")#在CPU上加载模型

cap = cv2.VideoCapture(0)
if not cap.isOpened():
    print("Error")
    exit()

prev_time = time.time() #在循环开始前初始化时间变量
frame_count = 0
fps = 0 #初始化fps

request_id = 0 #不同点
while True:
    ret, frame = cap.read()
    if not ret:
        print("Failed to grab frame.")
        break
    frame_count +=1
    curr_time = time.time()
    delta_time = curr_time - prev_time

    if delta_time >= 1.0: #每秒更新一次FPS
        fps = frame_count / delta_time
        frame_count = 0
        prev_time = curr_time

    image = cv2.resize(src, (w,h))
    image = np.float32(image)/255.0
    image[:,:,] -= (np.float32(0.485), np.float32(0.456), np.float(0.406))
    image[:,:,] -= (np.float32(0.229), np.float32(0.224), np.float(0.225))
    image = image.transpose(2, 0, 1)


    exec_net.start_async(request_id=request_id, inputs={input_blob:[image]})#不同点

    if exec_net.requests[request_id].wait(-1) == 0:
        res = exec_net.requests[request_id].outputs[out_blob]
        label_index = np.argmax(res, 1)[0]

        cv2.putText(frame, {fps:.2f},(50,100),cv2.FONT_HERSHEY_SIMPLEX,1.0,(0,0,255),2,8)
        cv2.putText(frame, labels[label_index],(50,50),cv2.FONT_HERSHEY_SIMPLEX,1.0,(0,0,255),2,8)

    cv2.imshow("image classification", src)
    if cv2.waitKey(1) & 0xFF == ord('q'):
        break
cap.release()
cv2.destroyAllWindows()