摘要
本文对图片分类任务中经典的深度学习模型VGG16进行了简要介绍,分析了其结构,并讨论了其优缺点。调用Keras中已有的VGG16模型测试其分类性能,结果表明VGG16对三幅测试图片均能正确分类。
前言
VGG是由Simonyan 和Zisserman在文献《Very Deep Convolutional Networks for Large Scale Image Recognition》中提出卷积神经网络模型,其名称来源于作者所在的牛津大学视觉几何组(Visual Geometry Group)的缩写。
该模型参加2014年的 ImageNet图像分类与定位挑战赛,取得了优异成绩:在分类任务上排名第二,在定位任务上排名第一。
结构
VGG中根据卷积核大小和卷积层数目的不同,可分为A
,A-LRN
,B
,C
,D
,E
共6个配置(ConvNet Configuration),其中以D
,E
两种配置较为常用,分别称为VGG16
和VGG19
。
下图给出了VGG的六种结构配置:
上图中,每一列对应一种结构配置。例如,图中绿色部分即指明了VGG16所采用的结构。
我们针对VGG16进行具体分析发现,VGG16
共包含:
- 13个卷积层(Convolutional Layer),分别用conv3-XXX表示
- 3个全连接层(Fully connected Layer),分别用FC-XXXX表示
- 5个池化层(Pool layer),分别用maxpool表示
其中,卷积层和全连接层具有权重系数,因此也被称为权重层
,总数目为13+3=16,这即是VGG16中16的来源。(池化层不涉及权重,因此不属于权重层,不被计数)。
特点
VGG16的突出特点是简单,体现在:
卷积层均采用相同的卷积核参数
卷积层均表示为
conv3-XXX
,其中conv3
说明该卷积层采用的卷积核的尺寸(kernel size)是3,即宽(width)和高(height)均为3,3*3
是很小的卷积核尺寸,结合其它参数(步幅stride=1,填充方式padding=same),这样就能够使得每一个卷积层(张量)与前一层(张量)保持相同的宽和高。XXX
代表卷积层的通道数。池化层均采用相同的池化核参数
池化层的参数均为2$\times$2,步幅stride=2,max的池化方式,这样就能够使得每一个池化层(张量)的宽和高是前一层(张量)的$\dfrac{1}{2}$。
模型是由若干卷积层和池化层堆叠(stack)的方式构成,比较容易形成较深的网络结构(在2014年,16层已经被认为很深了)。
综合上述分析,可以概括VGG的优点为: Small filters, Deeper networks
下图给出了VGG16的具体结构示意图:
块结构
我们注意图1右侧,VGG16的卷积层和池化层可以划分为不同的块(Block),从前到后依次编号为Block1~block5。每一个块内包含若干卷积层和一个池化层。例如:Block4
包含:
- 3个卷积层,conv3-512
- 1个池化层,maxpool
并且同一块内,卷积层的通道(channel)数是相同的,例如:
block2
中包含2个卷积层,每个卷积层用conv3-128
表示,即卷积核为:$3\times 3$,通道数都是128block3
中包含3个卷积层,每个卷积层用conv3-512
表示,即卷积核为:$3\times 3 $,通道数都是256
下面给出按照块划分的VGG16的结构图,可以结合图2进行理解:
VGG的输入图像是224$\times$224$\times$3的图像张量(tensor),随着层数的增加,后一个块内的张量相比于前一个块内的张量:
- 通道数翻倍,由64依次增加到128,再到256,直至512保持不变,不再翻倍
- 高和宽变减半,由224$\rightarrow$ 112$\rightarrow$ 56$\rightarrow$28$\rightarrow$ 14$\rightarrow$ 7
权重参数
尽管VGG的结构简单,但是所包含的权重数目却很大,达到了惊人的138 357 544 个参数。这些参数包括卷积核权重和全连接层权重。
例如,对于第一层卷积,由于输入图的通道数是3,网络必须学习大小为3$\times$3,通道数为3的的卷积核,这样的卷积核有64个,因此总共有(3$\times$3 $\times$ 3)$\times$ 64 = 1728个参数。
计算全连接层的权重参数数目的方法为:
。
因此,全连接层的参数分别为:
- 7 $\times$ 7 $\times$ 512 $\times$ 4096 = 1027,645,444
- 4096 $\times$ 4096 = 16,781,312
- 4096 $\times$ 1000 = 4,097 000
FeiFei Li在CS231的课件中给出了整个网络的全部参数的计算过程(不考虑偏置),如下图所示:
图中蓝色是计算权重参数数量的部分;红色是计算所需存储容量的部分。
VGG16具有如此之大的参数数目,可以预期它具有很高的拟合能力;但同时缺点也很明显:
- 即训练时间过长,调参难度大。
- 需要的存储容量大,不利于部署。例如存储VGG16权重值文件的大小为500多MB,不利于安装到嵌入式系统中。
实践
下面,我们应用Keras对VGG16的图像分类能力进行试验。
Keras是一个高层神经网络API,Keras由纯Python编写 ,是tensorflow和Theano等底层深度学习库的高级封装 。使用Keras时,我们不需要直接调用底层API构建深度学习网络,仅调用keras已经封装好的函数即可。
本次试验平台:python 3.6 + tensorflow 1.8 + keras 2.2
源代码如下:
1 | # -*- coding: utf-8 -*- |
上述程序的基本流程是:
- 载入相关模块,keras ,matplotlib,numpy
- 下载已经训练好的模型文件:
- 导入测试图像
- 应用模型文件对图像分类
需要额外说明的是:
程序运行过程中,语句
model = VGG16(weights='imagenet', include_top=True)
会下载已经训练好的文件到c:\<使用者>\.keras\models
文件夹下,模型的文件名为vgg16_weights_tf_dim_ordering_tf_kernels.h5
,大小为527MB语句
pred=decode_predictions(features, top=5)[0]
会下载分类信息文件到c:\<使用者>\.keras\models
文件夹下,模型的文件名为imagenet_class_index.json
,该文件指明了ImageNet大赛所用的1000个图像类的信息。(由于下载地址在aws上,需要科学上网,梯子请自备)程序运行结束,会在工作目录下生成测试图片的预测图,给出了最有可能的前5个类列。名称为:
测试文件名_pred.png
- 在程序中还可以查看模型的结构,语句为:
model.summary()
,命令行输出模型的结构配置为:
1 | _________________________________________________________________ |
可以看到总的训练参数为138,357,544。
代码及图片文件全部放在我的github
结果
分别对虎(tiger)
,贝果(bagel)
,树蛙(tree frog)
三张图片进行分类:
可以看到,VGG16对这三幅图片均分类正确,且具有较高的准确率。
结论
本文对VGG16深度学习模型的结构进行了介绍,介绍了结构特点,分析其优缺点。通过调用Keras中已有的模型对三幅测试图片进行测试,验证了VGG16在图片分类分类任务上的优异表现。