好久没有写爬虫文章了,今晚上得空看了一下陆金所登录密码加密,这个网站js加密代码不难,适合练手,篇幅有限,完整js代码我放在了这里从今天开始种树,不废话,直接开整. 前戏热身 打开陆金所网站,点击到登陆界面,长这样: 按F12打开工具,再登录随便输入一个号码和密码,点击登录按钮,查看发送的请求: 一共有3个,从请求名称上也看的出来哪个是登录请求(看不出来的话一个一个点击),拉下来,看看提交的FormData: 我输的密码是123,可以看出来这里把password加密了,既然加密了那我们就去js文…
Github: https://github.com/wangy8961/python3-concurrency-pics-02 ,欢迎star 爬虫系列: (1) 理论 Python3爬虫系列01 (理论) - I/O Models 阻塞 非阻塞 同步 异步 Python3爬虫系列02 (理论) - Python并发编程 Python3爬虫系列06 (理论) - 可迭代对象.迭代器.生成器 Python3爬虫系列07 (理论) - 协程 Python3爬虫系列08 (理论) - 使用async…
项目说明: 1.项目介绍   本项目使用Python提供的协程+scrapy中的选择器的使用(相当好用)实现爬取妹子图的(福利图)图片,这个学会了,某榴什么的.pow(2, 10)是吧! 2.用到的知识点   本项目中会用到以下知识点 ① Python的编程(本人使用版本3.6.2) ② 使用scrapy中的css选择器 ③ 使用async协程 ④ 使用aiohttp异步访问url ⑤ 使用aiofiles异步保存文件 3. 项目效果图 项目实现: 我们最终的目的是把图片的标题替换成需要保存的目…
妹子图网站爬取---前言 从今天开始就要撸起袖子,直接写Python爬虫了,学习语言最好的办法就是有目的的进行,所以,接下来我将用10+篇的博客,写爬图片这一件事情.希望可以做好. 为了写好爬虫,我们需要准备一个火狐浏览器,还需要准备抓包工具,抓包工具,我使用的是CentOS自带的tcpdump,加上wireshark ,这两款软件的安装和使用,建议你还是学习一下,后面我们应该会用到. 妹子图网站爬取---网络请求模块requests Python中的大量开源的模块使得编码变的特别简单,我们写爬…
前面介绍了爬虫框架的一个实例,那个比较简单,这里在介绍一个实例 爬取 煎蛋网 妹子图,遗憾的是 上周煎蛋网还有妹子图了,但是这周妹子图变成了 随手拍, 不过没关系,我们爬图的目的是为了加强实战应用,管他什么图了先爬下来再说. 言归正传 这个实例,主要是讲将图片爬了下来,保存到本地,这个在上周已经实现了,这周有进一步做了讲图片信息保存到了数据库中. 代码结构 如上图 common 用来存放共代码,如上篇对数据库的操作进行了封装,这里直接就放到了common 文件夹下,方便调用. 紧接着下面两个文件…
妹子图爬取 页面链接 感谢崔大佬: 原文链接 正则实现代码: import requests import re import os import random class mzitu(): def __init__(self): self.headers = { 'User-Agent': "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/53…
from bs4 import BeautifulSoupimport sys,os,requests,pymongo,timefrom lxml import etreedef get_fenlei(url,headers): """ 获取妹子图的分类链接,并创建相对应的分类文件夹 :param url: :param headers: :return: """ response = requests.get(url,headers=heade…
Scrapy这个成熟的爬虫框架,用起来之后发现并没有想象中的那么难.即便是在一些小型的项目上,用scrapy甚至比用requests.urllib.urllib2更方便,简单,效率也更高.废话不多说,下面详细介绍下如何用scrapy将妹子图爬下来,存储在你的硬盘之中.关于Python.Scrapy的安装以及scrapy的原理这里就不作介绍,自行google.百度了解学习. 一.开发工具Pycharm 2017Python 2.7Scrapy 1.5.0requests 二.爬取过程 1.创建mz…
一.参考文章 Python爬虫之——爬取妹子图片 上述文章中的代码讲述的非常清楚,我的基本能思路也是这样,本篇文章中的代码仅仅做了一些异常处理和一些日志显示优化工作,写此文章主要是当做笔记,方便以后查阅,修改的地方如下: 1.异常处理下面在代码中会单独标红 2.多线程版使用了multiprocessing这个库,需要在main函数开始调用freeze_support(),防止打包成exe之后,运行时创建线程失败 3.多线程版本加了一个命令行自定义线程个数功能 二.单线程版本 #coding=ut…
之前在鱼C论坛的时候,看到很多人都在用Python写爬虫爬煎蛋网的妹子图,当时我也写过,爬了很多的妹子图片.后来煎蛋网把妹子图的网页改进了,对图片的地址进行了加密,所以论坛里面的人经常有人问怎么请求的页面没有链接.这篇文章就来说一下煎蛋网OOXX妹子图的链接获取方式. 首先说明一下,之前煎蛋网之所以增加了反爬虫机制,应该就是因为有太多的人去爬他们的网站了.爬虫频繁的访问网站会给网站带来压力,所以,建议大家写爬虫简单的运行成功就适可而止,不要过分地去爬别人的东西. 爬虫思路分析 图片下载流程图 首…