1 技术栈

Python3.6 Python的版本

request 得到网页html、jpg等资源的lib

beautifulsoup 解析html的利器

html5lib 指定beautifulsoup按什么方式解析

os 创建文件夹需要用到系统操作lib

2 IDE

Anaconda Spider

3 如何正确的获取半次元网页内容

3.1 https请求的user head参数的设置

agent='Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36 OPR/46.0.2597.57'
user_head={
'Accept': "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",
'Accept-Encoding': "gzip, deflate, sdch, br",
'Accept-Language': "zh-CN,zh;q=0.8,en;q=0.6,zh-TW;q=0.4,ja;q=0.2",
'Cache-Control':'max-age=0',
"Connection": "keep-alive",
'Referer': 'https://bcy.net/start',
'User-Agent': agent
}

Accept 网络处理的类型

Accept-Encoding 编码方式

Accept-Language 编码语言

Cache-Control 控制缓存的生命周期

Connection 连接方式,选择keep-alive长期连接

Referer 从哪个页面发来的请求

User-Agent 浏览器标志,防止半次元服务器识别http请求为浏览器发起

3.2 cookie文件的读取

cookie_file = "bcy_cookie.txt"
if os.path.exists(cookie_file):
#如果cookies文件存在则直接读取cookie
bcy_cookies = {}
with open(cookie_file,'r',buffering = 4*1024) as fp:
for line in fp.read().split(';'):
name,value = line.strip().split('=',1)
bcy_cookies[name] = value
fp.flush()
print('load cookies is Success')
else:
print('you have no cookie')
print ("bcy cookies:" + str(bcy_cookies))

bcy_cookie是一个对象

bcy_cookie.txt中的内容为:

acw_tc=AQAAACHqkjHLZQcAtVPt3f8ifalDKgni;
PHPSESSID=vgeda76lj7339cov0n76390rl0;
lang_set=zh;
mobile_set=no

3.3 request 读取html内容并转为soup对象

   GALLERY_START_URL = 'https://bcy.net/coser/toppost100'
#浏览器打开首页
gallery_content = requests.get(GALLERY_START_URL,cookies=bcy_cookies,headers=user_head,timeout=9).text.encode('utf-8')
#得到首页的soup的对象
gallery_soup = BeautifulSoup(gallery_content,'html5lib')

requests.get 获取一个html对象,timeout是设置允许的最大时间延迟

BeautifulSoup 将html对象转为可以被解析的soup对象,采用html5lib解析

3.4 soup对象查找源代码中的连接



注意应该查找source(源代码)中作品连接入口,

elements是经过浏览器chrome加载js渲染后的dom,所以对应的css class可能不一样

	# 得到所有的作品入口
all_work = gallery_soup.findAll('li',class_ = 'l-work-thumbnail')

3.5 遍历每一个all_work对象获取标题和作品进入的连接

	# 得到所有的作品入口
for work in all_work:
work_a = work.find('div',class_ = 'work-thumbnail__topBd').find('a')
title = work_a['title']
#去掉保存到本地图片文件名中非法字符
unvalid_str = '<>,\/|,:,"",*,?'
for ch in unvalid_str:
title = title.replace(ch,'')
title = title.strip()
work_url = 'https://bcy.net' + work_a['href']

因为Windows系统不允许文件夹出现<>,\/|,:,"",*,?等字符,所以需要做delete处理

3.6 新建作品文件夹

专门写一个函数用于作品文件夹创建,并做是否创建的处理

# @创建gallery文件夹
# @input:GALLERY_NAME gallery保存的文件夹
# @output:
def mkdir(GALLERY_NAME):
GALLERY_NAME = GALLERY_NAME.strip()
GALLERY_NAME = GALLERY_NAME.rstrip("\\") if not os.path.exists(GALLERY_NAME): # 如果不存在则创建目录
print(GALLERY_NAME + ' Success') # 创建目录操作函数
os.makedirs(GALLERY_NAME)
return True
else: # 如果目录存在则不创建,并提示目录已存在
print(GALLERY_NAME + ' existence')
return False

主函数中的步骤

	#新建作品
WORK_FOLD_NAME = GALLERY_NAME + '\\' +str(top_index).zfill(3) + '_' + title
mkdir(WORK_FOLD_NAME)

3.7 点击进入作品连接,遍历读取所有的图片

	#得到作品html对象
image_content = requests.get(work_url,cookies=bcy_cookies,headers=user_head,timeout=20).text.encode('utf-8') #得到作品soup对象
image_group_soup = BeautifulSoup(image_content,'html5lib') #每一个图片的soup对象
image_group_div = image_group_soup.findAll('img',class_ = 'detail_std') #记录爬去图片的标号
image_index = 0 #遍历每一个有图片的image div
for image in image_group_div:
image_url = image['src'] #图片的URL
image_url = image_url[:-5] #图片URL去掉后缀得到真正的RAW图片 #获取图片图像,注意图片是资源所用 stream设置为True
pic = requests.get(image_url, stream=True,cookies=bcy_cookies, headers=user_head,timeout=12) #图片保存在本地的路径
file_local_url = WORK_FOLD_NAME + '\\' +str(image_index).zfill(2) +'.jpg' #图片已存在则直接continue
if os.path.exists(file_local_url):
print('pic has been downloaded!')
continue
else:
print('pic is downloaded, start to writing to local ')
# 推荐使用witho open,避免忘记进行fp.close()操作,buffering设置是为了IO加速
with open(file_local_url, 'wb',buffering = 4*1024) as fp:
fp.write(pic.content) #写入file_local_url内容到图片
fp.flush()
print(image_url +' download Successful') image_index = image_index +1

上面的buffering参数值得一说,如果不加则直接从pic读取持续写入磁盘中

如果图片很大,这种行为很伤磁盘

所以需要设置一个缓冲区,每从网络读取4K大小才从内存写入磁盘

完整代码,见我的Github

https://github.com/Kalafinaian/BcyTopSpider

如果你喜欢这个Python小程序,欢迎各位Start我这个repository

Author by : Kalafianian
本当は空を飞べると知っていたから
羽ばたくときが怖くて风を忘れた
Oblivious 何処へ行くの

[原创] Python3.6+request+beautiful 半次元Top100 爬虫实战,将小姐姐的cos美图获得的更多相关文章

  1. 爬虫小探-Python3 urllib.request获取页面数据

    使用Python3 urllib.request中的Requests()和urlopen()方法获取页面源码,并用re正则进行正则匹配查找需要的数据. #forex.py#coding:utf-8 ' ...

  2. 【转】python3 urllib.request 网络请求操作

    python3 urllib.request 网络请求操作 基本的网络请求示例 ''' Created on 2014年4月22日 @author: dev.keke@gmail.com ''' im ...

  3. Python3 urllib.request库的基本使用

    Python3 urllib.request库的基本使用 所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地. 在Python中有很多库可以用来抓取网页,我们先学习urlli ...

  4. Python爬虫入门教程 12-100 半次元COS图爬取

    半次元COS图爬取-写在前面 今天在浏览网站的时候,忽然一个莫名的链接指引着我跳转到了半次元网站 https://bcy.net/ 打开之后,发现也没有什么有意思的内容,职业的敏感让我瞬间联想到了 c ...

  5. python3 urllib.request 网络请求操作

    python3 urllib.request 网络请求操作 基本的网络请求示例 ''' Created on 2014年4月22日 @author: dev.keke@gmail.com ''' im ...

  6. Python爬虫入门教程: 半次元COS图爬取

    半次元COS图爬取-写在前面 今天在浏览网站的时候,忽然一个莫名的链接指引着我跳转到了半次元网站 https://bcy.net/ 打开之后,发现也没有什么有意思的内容,职业的敏感让我瞬间联想到了 c ...

  7. 自己动手,丰衣足食!Python3网络爬虫实战案例

    本教程是崔大大的爬虫实战教程的笔记:网易云课堂 Python3+Pip环境配置 Windows下安装Python: http://www.cnblogs.com/0bug/p/8228378.html ...

  8. python3.4学习笔记(十四) 网络爬虫实例代码,抓取新浪爱彩双色球开奖数据实例

    python3.4学习笔记(十四) 网络爬虫实例代码,抓取新浪爱彩双色球开奖数据实例 新浪爱彩双色球开奖数据URL:http://zst.aicai.com/ssq/openInfo/ 最终输出结果格 ...

  9. 使用Beautiful Soup编写一个爬虫 系列随笔汇总

    这几篇博文只是为了记录学习Beautiful Soup的过程,不仅方便自己以后查看,也许能帮到同样在学习这个技术的朋友.通过学习Beautiful Soup基础知识 完成了一个简单的爬虫服务:从all ...

随机推荐

  1. Elasticsearch学习随笔(一)--原理理解与5.0核心插件部署过程

    最近由于要涉及一些安全运维的工作,最近在研究Elasticsearch,为ELK做相关的准备.于是把自己学习的一些随笔分享给大家,进行学习,在部署常用插件的时候由于是5.0版本的Elasticsear ...

  2. MyBatis源码解析【3】生命周期

    经过之前的项目构建,我们已经得到了一个可以使用的最基本的项目. 其中已经包括整个执行的过程.但是我们在完成之后也遇到了很多问题,我们就要慢慢的一步步解决这些问题. 讲道理,今天我们其实应该直接开始看源 ...

  3. vijos1760题解

    题目: 现在有n个人,题目给出了他们每个人所在市县的编号.他们站在一个从左向右的队伍中.小L不在队列中.他想找到一个长度不超过D的区域,使他能够找到最多的不同地方的朋友.要求输出能找到的朋友所在不同市 ...

  4. Chrome浏览器扩展开发系列之十四:本地消息机制Native messaging

    通过将浏览器所在客户端的本地应用注册为Chrome浏览器扩展的“本地消息主机(native messaging host)”,Chrome浏览器扩展还可以与客户端本地应用之间收发消息. 客户端的本地应 ...

  5. SQL-结构化查询语言(1)

    一:数据查询语言(DQL),Data Query Language,用以从表中获取数据,确定数据怎样在程序中给出.SELECT是DQL中用的最多的! select user,host,password ...

  6. Java探秘之基本数据类型和包装类(int,Integer)(一)

    最近闲来无聊打算做一个博客网,没事记记笔记什么,可是网站不好做,需要点时间,就先写写笔记来练练手. 可是要写什么呢,太难的好像我也写不出来,万一写错了误导别人就不好了. 哈哈,不多说,直奔主题,要是写 ...

  7. 关于"模块计算机类型与目标计算机类型冲突"的解决

    问题描述:我的64位工程包含32位静态库之后报错(模块计算机类型"x86"与目标计算机类型"x64"冲突),将工程修改为32位之后,又报错(若干个无法解析的外部 ...

  8. Work 1(导游类)(2017.06.27)

  9. (转)Windows7下命令行使用MySQL

    1 安装 我在Win7下安装的MySQL版本是mysql-5.0.22-win32 1.在Win7环境下安装MySQL,关于安装方法可以参考文章: Win7系统安装MySQL5.5.21图解教程.wi ...

  10. android studio生成junitLibs

    apply plugin: 'com.android.application'android { compileSdkVersion 24 buildToolsVersion "25.0.0 ...