有些数据是没有专门的数据集的,为了找到神经网络训练的数据,自然而然的想到了用爬虫的方法开始采集数据。一开始采用了网上的一个动态爬虫的代码,发现爬取的图片大多是重复的,有效图片很少。

动态爬虫:

from lxml import etree
import requests
import re
import urllib
import json
import time
import os local_path = '/home/path/'
if not os.path.exists(local_path):
os.makedirs(local_path)
keyword = input('请输入想要搜索图片的关键字:')
first_url = 'http://image.baidu.com/search/flip?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&fm=result&fr=&sf=1&fmq=1530850407660_R&pv=&ic=0&nc=1&z=&se=1&showtab=0&fb=0&width=&height=&face=0&istype=2&ie=utf-8&ctd=1530850407660%5E00_1651X792&word={}'.format(keyword)
want_download = input('请输入想要下载图片的张数:') global page_num
page_num = 1
global download_num
download_num = 0 #这个函数用来获取图片格式
def get_format(pic_url):
#url的末尾存着图片的格式,用split提取
#有些url末尾并不是常见图片格式,此时用jpg补全
t = pic_url.split('.')
if t[-1].lower() != 'bmp' and t[-1].lower() != 'gif' and t[-1].lower() != 'jpg' and t[-1].lower() != 'png':
pic_format = 'jpg'
else:
pic_format = t[-1]
return pic_format #这个函数用来获取下一页的url
def get_next_page(page_url):
global page_num
html = requests.get(page_url).text
with open('html_info.txt', 'w', encoding='utf-8') as h:
h.write(html)
selector = etree.HTML(html)
try:
msg = selector.xpath('//a[@class="n"]/@href')
print(msg[0])
next_page = 'http://image.baidu.com/' + msg[0]
print('现在是第%d页' % (page_num + 1))
except Exception as e:
print('已经没有下一页了')
print(e)
next_page = None
page_num = page_num + 1
return next_page #这个函数用来下载并保存图片
def download_img(pic_urls):
count = 1
global download_num
for i in pic_urls:
time.sleep(1)
try:
pic_format = get_format(i)
pic = requests.get(i, timeout=15)
#按照格式和名称保存图片
with open(local_path + 'page%d_%d.%s' % (page_num, count, pic_format), 'wb') as f:
f.write(pic.content)
#print('成功下载第%s张图片: %s' % (str(count), str(pic.url)))
count = count + 1
download_num = download_num + 1
except Exception as e:
#print('下载第%s张图片时失败: %s' % (str(count), str(pic.url)))
print(e)
count = count + 1
continue
finally:
if int(want_download) == download_num:
return 0 #这个函数用来提取url中图片的url
def get_pic_urls(web_url):
html = requests.get(web_url).text
#通过正则表达式寻找图片的地址,
pic_urls = re.findall('"objURL":"(.*?)",', html, re.S)
#返回图片地址,是一个list
return pic_urls if __name__ == "__main__":
while True:
pic_urls = get_pic_urls(first_url)
t = download_img(pic_urls)
if t==0:
break
next_url = get_next_page(first_url)
if next_url == None:
print('已经没有更多图片')
break
pic_urls = get_pic_urls(next_url)
t = download_img(pic_urls)
if t== 0:
break
first_url = next_url
#print('已经成功下载%d张图片' %download_num)

为了筛选出重复的图片又采用了哈希算法进行去重

 # -*- coding: utf-8 -*-

 import sys
reload(sys)
sys.setdefaultencoding('utf8') """
用dhash判断是否相同照片
基于渐变比较的hash
hash可以省略(本文省略)
By Guanpx
"""
import os
from PIL import Image
from os import listdir def picPostfix(): # 相册后缀的集合
postFix = set()
postFix.update(['bmp', 'jpg', 'png', 'tiff', 'gif', 'pcx', 'tga', 'exif',
'fpx', 'svg', 'psd', 'cdr', 'pcd', 'dxf', 'ufo', 'eps', 'JPG', 'raw', 'jpeg'])
return postFix def getDiff(width, high, image): # 将要裁剪成w*h的image照片
diff = []
im = image.resize((width, high))
imgray = im.convert('L') # 转换为灰度图片 便于处理
pixels = list(imgray.getdata()) # 得到像素数据 灰度0-255 for row in range(high): # 逐一与它左边的像素点进行比较
rowStart = row * width # 起始位置行号
for index in range(width - 1):
leftIndex = rowStart + index
rightIndex = leftIndex + 1 # 左右位置号
diff.append(pixels[leftIndex] > pixels[rightIndex]) return diff # *得到差异值序列 这里可以转换为hash码* def getHamming(diff=[], diff2=[]): # 暴力计算两点间汉明距离
hamming_distance = 0
for i in range(len(diff)):
if diff[i] != diff2[i]:
hamming_distance += 1 return hamming_distance if __name__ == '__main__': width = 32
high = 32 # 压缩后的大小
dirName = "/home/yourpath" # 相册路径
allDiff = []
postFix = picPostfix() # 图片后缀的集合 dirList = os.listdir(dirName)
cnt = 0
for i in dirList:
cnt += 1
# print('文件处理的数量是', cnt) # 可以不打印 表示处理的文件计数
if str(i).split('.')[-1] in postFix: # 判断后缀是不是照片格式
try:
im = Image.open(r'%s/%s' % (dirName, unicode(str(i), "utf-8")))
except OSError as err:
os.remove(r'%s/%s' % (dirName, unicode(str(i), "utf-8")))
print('OS error : {}'.format(err))
# continue except IndexError as err:
os.remove(r'%s/%s' % (dirName, unicode(str(i), "utf-8")))
print('OS error : {}'.format(err))
print('Index Error: {}'.format(err))
# continue except IOError as err:
os.remove(r'%s/%s' % (dirName, unicode(str(i), "utf-8"))) # 删除图片
# print('OS error : {}'.format(err))
print('IOError : {}'.format(err))
# continue # except:
# print ('Other error')
else:
diff = getDiff(width, high, im)
allDiff.append((str(i), diff)) for i in range(len(allDiff)):
for j in range(i + 1, len(allDiff)):
if i != j:
ans = getHamming(allDiff[i][1], allDiff[j][1])
if ans <= 5: # 判别的汉明距离,自己根据实际情况设置
print(allDiff[i][0], "and", allDiff[j][0], "maybe same photo...")
result = dirName + "/" + allDiff[j][0]
if os.path.exists(result):
os.remove(result)

用哈希算法筛选后又发现筛除的太多了,阈值不好控制。又尝试采用了静态爬虫的方法,发现结果还不错,重复的也不多,也就省了筛除的步骤。

静态爬虫:

 # -*- coding: utf-8 -*-
import sys
reload(sys)
sys.setdefaultencoding('utf8')
import time
# 导入需要的库
import requests
# import os
import json
import time # 爬取百度图片,解析页面的函数
def getManyPages(keyword, pages):
'''
参数keyword:要下载的影像关键词
参数pages:需要下载的页面数
'''
params = [] for i in range(30, 30 * pages + 30, 30):
params.append({
'tn': 'resultjson_com',
'ipn': 'rj',
'ct': 201326592,
'is': '',
'fp': 'result',
'queryWord': keyword,
'cl': 2,
'lm': -1,
'ie': 'utf-8',
'oe': 'utf-8',
'adpicid': '',
'st': -1,
'z': '',
'ic': 0,
'word': keyword,
's': '',
'se': '',
'tab': '',
'width': '',
'height': '',
'face': 0,
'istype': 2,
'qc': '',
'nc': 1,
'fr': '',
'pn': i,
'rn': 30,
'gsm': '1e',
'': ''
})
url = 'https://image.baidu.com/search/acjson'
urls = []
for i in params:
try:
urls.append(requests.get(url, params=i).json().get('data'))
# except json.decoder.JSONDecodeError:
# print("解析出错") except OSError as err:
print('OS error : {}'.format(err)) except IndexError as err:
print('Index Error: {}'.format(err)) except IOError as err:
print('IOError : {}'.format(err))
except:
print('Other error')
return urls # 下载图片并保存
def getImg(dataList, localPath):
'''
参数datallist:下载图片的地址集
参数localPath:保存下载图片的路径
'''
if not os.path.exists(localPath): # 判断是否存在保存路径,如果不存在就创建
os.mkdir(localPath)
x = 0
for list in dataList:
for i in list:
if i.get('thumbURL') != None:
# print('正在下载:%s' % i.get('thumbURL'))
ir = requests.get(i.get('thumbURL'))
open(localPath + '/' + '%d.jpg' % x, 'wb').write(ir.content) # 这里是新加的斜杠
x += 1
else:
print('图片链接不存在') # 根据关键词来下载图片
if __name__ == '__main__':
import os
father_path = "/home/yourpath/"
t0 = time.time()
for init in os.listdir(father_path):
print('init is{}'.format(str(init)))
for name in os.listdir(init):
print('name is{}'.format(str(name)))
t1 = time.time()
if not os.listdir(os.path.join(father_path, init, name)):
dataList = getManyPages(name, 30)
getImg(dataList, os.path.join(father_path, init, name))
t2 = time.time()
print('cost time is', t2 - t1)
t3 = time.time()
print('total time is', t3 - t0)
# t1 = time.time()
# dataList = getManyPages('keyword', page
_number) # 参数1:关键字,参数2:要下载的页数
# getImg(dataList, './file_path/') # 参数2:指定保存的路径
# t2 = time.time()
# print('cost time is', t2 - t1)
#
# parent_name = "/home/path" # 相册路径
# dirList = os.listdir(parent_name) # 所有文件夹的列表
# for one_file in dirList: # 其中的一个文件夹
# # son_list = os.listdir(one_file)
# son_list = os.path.join(parent_name, one_file)
# son_file = os.listdir(son_list)
# t1 = time.time()

Python爬虫小结的更多相关文章

  1. python爬虫小结1

    先看正则化,正则化就是描述命令和字符切分.查找.筛选等功能的方便方式. http://www.cnblogs.com/fnng/archive/2013/05/20/3089816.html 一个游戏 ...

  2. 【Python爬虫】爬虫利器 requests 库小结

    requests库 Requests 是一个 Python 的 HTTP 客户端库. 支持许多 HTTP 特性,可以非常方便地进行网页请求.网页分析和处理网页资源,拥有许多强大的功能. 本文主要介绍 ...

  3. Python爬虫 股票数据爬取

    前一篇提到了与股票数据相关的可能几种数据情况,本篇接着上篇,介绍一下多个网页的数据爬取.目标抓取平安银行(000001)从1989年~2017年的全部财务数据. 数据源分析 地址分析 http://m ...

  4. Python字典小结

      字典(dict)结构是Python中常用的数据结构,笔者结合自己的实际使用经验,对字典方面的相关知识做个小结,希望能对读者一些启发~ 创建字典   常见的字典创建方法就是先建立一个空字典,然后逐一 ...

  5. 0.Python 爬虫之Scrapy入门实践指南(Scrapy基础知识)

    目录 0.0.Scrapy基础 0.1.Scrapy 框架图 0.2.Scrapy主要包括了以下组件: 0.3.Scrapy简单示例如下: 0.4.Scrapy运行流程如下: 0.5.还有什么? 0. ...

  6. 路飞学城Python爬虫课第一章笔记

    前言 原创文章,转载引用务必注明链接.水平有限,如有疏漏,欢迎指正. 之前看阮一峰的博客文章,介绍到路飞学城爬虫课程限免,看了眼内容还不错,就兴冲冲报了名,99块钱满足以下条件会返还并送书送视频. 缴 ...

  7. Python爬虫视频教程

    ├─第1章_[第0周]网络爬虫之前奏 │ ├─第1节_"网络爬虫"课程内容导学 │ │ 第1部分_全课程内容导学.mp4 │ │ 第2部分_全课程内容导学(WS00单元)学习资料. ...

  8. Python爬虫之小试牛刀——使用Python抓取百度街景图像

    之前用.Net做过一些自动化爬虫程序,听大牛们说使用python来写爬虫更便捷,按捺不住抽空试了一把,使用Python抓取百度街景影像. 这两天,武汉迎来了一个德国总理默克尔这位大人物,又刷了一把武汉 ...

  9. Python 爬虫入门实战

    1. 前言 首先自我介绍一下,我是一个做 Java 的开发人员,从今年下半年开始,一直在各大技术博客网站发表自己的一些技术文章,差不多有几个月了,之前在 cnblog 博客园加了网站统计代码,看到每天 ...

随机推荐

  1. 导出 CVS

    function ExportStoreInfoAction() { set_time_limit(0); $table = "xd_store"; $res = [[...].. ...

  2. 图解 kubernetes scheduler 架构设计系列-初步了解

    资源调度基础 scheudler是kubernetes中的核心组件,负责为用户声明的pod资源选择合适的node,同时保证集群资源的最大化利用,这里先介绍下资源调度系统设计里面的一些基础概念 基础任务 ...

  3. centos7 编译安装 php7.4

    1. 下载安装编译工具 yum groupinstall 'Development Tools' 2.安装依赖包 yum install libxml2 libxml2-devel openssl o ...

  4. 使用PE启动盘清空电脑登入密码

    1.PE启动盘制作过程 要制作一个启动盘可以使用很多工具来制作,比如老毛桃.U深度.大白菜等软件都可以制作PE启动盘.此处就用老毛桃制作PE启动盘为例(http://www.laomaotao.tv/ ...

  5. 梳理js数组去重中代码比较简洁的方案

    一.es6 Set去重 function removal(arr) { return Array.from(new Set(arr)) } let arr=[1,2,1,3,4,5,5] remova ...

  6. JSON小记

    json: { "1" : "2", "1" : "3" } 在json中如果有重复的key,会取最后一个key的值,如 ...

  7. Spark 配置参数

    SparkConfiguration 这一章节来看看 Spark的相关配置. 并非仅仅能够应用于 SparkStreaming, 而是对于 Spark的各种类型都有支持. 各个不同. 其中中文参考链接 ...

  8. dp-01背包问题 (升级)

    The story happened long long ago. One day, Cao Cao made a special order called "Chicken Rib&quo ...

  9. W3C 带来了一个新的语言

    2019年12月5日,W3C 宣布: WebAssembly 核心规范 正式成为 Web 官方标准. 继 HTML, CSS, JavaScript 之后,WebAssembly 成为了第4个 Web ...

  10. Java入门 - 面向对象 - 01.继承

    原文地址:http://www.work100.net/training/java-inheritance.html 更多教程:光束云 - 免费课程 继承 序号 文内章节 视频 1 概述 2 继承的特 ...