代码: import time from io import BytesIO from PIL import Image from selenium import webdriver from selenium.webdriver import ActionChains from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.…
代码: Chaojiying.py: #!/usr/bin/env python # coding:utf-8 import requests from hashlib import md5 class Chaojiying(object): def __init__(self, username, password, soft_id): self.username = username self.password = md5(password.encode('utf-8')).hexdiges…
在进行python爬虫学习前,需要进行如下准备工作: python3+pip官方配置 1.Anaconda(推荐,包括python和相关库)   [推荐地址:清华镜像] https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/ [安装过程中注意选择自动添加path到环境变量中,未选择需要自己添加] 红色提示的意思是:自动添加的环境变量会处于最前面,自动成为默认,可能会使原本使用默认的软件报错,未防止以上问题,可以打开环境变量后,调整顺序将Ana…
本节我们将介绍新浪微博宫格验证码的识别.微博宫格验证码是一种新型交互式验证码,每个宫格之间会有一条 指示连线,指示了应该的滑动轨迹.我们要按照滑动轨迹依次从起始宫格滑动到终止宫格,才可以完成验证,如 下图所示. 鼠标滑动后的轨迹会以黄色的连线来标识,如下图所示. 访问新浪微博移动版登录页面,就可以看到如上验证码,链接为  https://passport.weibo.cn/signin/login 一.本节目标 我们的目标是用程序来识别并通过微博宫格验证码的验证. 二.准备工作 本次我们使用的P…
Cookies: 以抓取https://www.yaozh.com/为例 Test1(不使用cookies): 代码: import urllib.request # 1.添加URL url = "https://www.yaozh.com/" # 2.添加请求头 headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, l…
#-*- coding:utf-8 -*- import requests from bs4 import BeautifulSoup import html5lib import re import urllib url1 = 'http://accounts.douban.com/login' url2 = 'http://www.douban.com/people/*****/contacts' formdata={ "redir":"http://www.douban…
爬虫的分类 1.通用爬虫:通用爬虫是搜索引擎(Baidu.Google.Yahoo等)“抓取系统”的重要组成部分.主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份. 简单来讲就是尽可能的:把互联网上的所有的网页下载下来,放到本地服务器里形成备分,在对这些网页做相关处理(提取关键字.去掉广告),最后提供一个用户检索接口. 搜索引擎如何抓取互联网上的网站数据? 门户网站主动向搜索引擎公司提供其网站的url 搜索引擎公司与DNS服务商合作,获取网站的url 门户网站主动挂靠在一些知名…
Python作为爬虫语言非常受欢迎,近期项目需要,很是学习了一番Python,在此记录学习过程:首先因为是初学,而且当时要求很快速的出demo,所以首先想到的是框架,一番查找选用了Python界大名鼎鼎的Scrapy框架,这个框架历史悠久,直接pip安装,安装使用非常方便. 先介绍Python的安装windows去链接https://www.python.org/downloads/windows/下载Python的安装包,选择对应的版本,选择对应系统安装包再次说明,本文安装的是Python2.…
前言 还记得是大学2年级的时候,偶然之间看到了学长在学习python:我就坐在旁边看他敲着代码,感觉很好奇.感觉很酷,从那之后,我就想和学长一样的厉害,就想让学长教我,请他吃了一周的饭,他答应了.从此,我踏上了python编程的道路.在那之前,我成天到晚都是在打lol:但是从那天之后,几乎很少很少了. 然而到如今,这一学就是2年,我已经不再是一名小白.是的,我爱上了编程,爱上了python.如今,人工智能的时代已经来临,作为它的首选语言 python.我很自豪,今天给大家分享一下我当初学习爬虫的…
之前是不会想到登陆一个豆瓣会需要写三次博客,修改三次代码的. 本来昨天上午之前的代码用的挺好的,下午时候,我重新注册了一个号,怕豆瓣大号被封,想用小号爬,然后就开始出问题了,发现无法模拟登陆豆瓣了,开始想难道是账号的问题?就又修改成原来的账号和密码,发现仍然无法登陆 想不会这么衰吧,还没开始怕就被豆瓣封了?但是浏览器登录又没有任何问题,这个时候自己完全摸不着头脑,折腾了半天还是不能解决. 最后想起来有Fiddler 这个神器,就抓了一下request和response包,发现response h…