为了获取训练所需的图片,我们最常用的手段就是自己去写一个爬虫去获取相关图片。本文将重点围绕如何采用爬虫的方式获取训练所需的图片素材进行讲解,为了大家能够够直观的掌握相关技术,参考本文的相关过程和代码获取自己的数据图片素材,笔者将详细介绍实现过程。
1、确定图片获取来源
首先,我们要确定从什么地方获取图片。对于本文所述的电动自行车头盔佩戴场景而言,我们很难找到一个网站有大量的素材,最为常用的手段就是在百度等搜索引擎上去搜索,因此我们初步确定的思路是确定关键词,比如“电动车 头盔”,并使用这个关键词在搜索引擎上做图片检索,并将检索得到的图片结果进行爬取。
在确定的基本思路后,我们要做的就是确定从那个搜索引擎进行抓取。而这一点我们可以尝试比较一下百度和Bing这两个主流搜索引擎,确定一下那个自己去尝试构造爬虫脚本请求所需的url更简单便利。
(1)百度图片搜索
我们在百度图片页面尝试搜索“电动车 头盔”,我们可以看到如下结果页面。
我们虽然得到了很多搜索出来的图片,但这里我们虽然需要评估一下搜索引擎搜索出来的结果是否符合预期,但更重要的是关注他上面的链接地址,因为