python爬虫笔记 - 相关文章

[Python爬虫笔记][随意找个博客入门(一)]

[Python爬虫笔记][随意找个博客入门(一)] 标签(空格分隔): Python 爬虫 2016年暑假来源博客:挣脱不足与蒙昧 1.简单的爬取特定url的html代码 import urllib.request url = "http://120.27.101.158/" response = urllib.request.urlopen(url) html = response.read() html = html.decode('utf-8'); print (html) u…

Python爬虫笔记一（来自MOOC） Requests库入门

Python爬虫笔记一(来自MOOC) 提示:本文是我在中国大学MOOC里面自学以及敲的一部分代码,纯一个记录文,如果刚好有人也是看的这个课,方便搬运在自己电脑上运行. 课程为:北京理工大学-嵩天-Python爬虫与信息提取提示:多多自我发挥更有助于学习语言逻辑哦! @ 目录 Python爬虫笔记一(来自MOOC) 前言一.嵩天老师课件给出的代码部分 1.京东商品页面的爬取 2.亚马逊商品页面的爬取 3.百度/360关键字提交 4.网络图片的爬取与储存 5.ip归属地的自动查询二.个人运行…

python爬虫笔记Day01

python爬虫笔记第一天 Requests库的安装先在cmd中pip install requests 再打开Python IDM写入import requests 完成requests在.py文件的安装和引入 Requests库的入门示例(爬取百度首页内容): >>> import requests >>> r = requests.get("http://www.baidu.com") >>> r.status_code…

Python爬虫笔记(一):爬虫基本入门

最近在做一个项目,这个项目需要使用网络爬虫从特定网站上爬取数据,于是乎,我打算写一个爬虫系列的文章,与大家分享如何编写一个爬虫.这是这个项目的第一篇文章,这次就简单介绍一下Python爬虫,后面根据项目进展会持续更新. 一.何谓网络爬虫网络爬虫的概念其实不难理解,大家可以将互联网理解为一张巨大无比的网(渔网吧),而网络爬虫就像一只蜘蛛(爬虫的英文叫spider,蜘蛛的意思,个人认为翻译为网络蜘蛛是不是更形象呢哈哈),而这只蜘蛛便在这张网上爬来爬去,如果它遇到资源,那么它就会抓取下来.至于想抓取…

Python爬虫笔记安装篇

目录爬虫三步请求库 Requests:阻塞式请求库 Requests是什么 Requests安装 selenium:浏览器自动化测试 selenium安装 PhantomJS:隐藏浏览器窗口 PhantomJS是什么 PhantomJS安装 PhantomJS使用 aiohttp:异步请求库 aiohttp是什么 aiohttp安装解析库 lxml:解析HTML和XML,支持XPath lxml是什么 lxml安装 BeautifulSoup:解析HTML和XML BeautifulSou…

Python爬虫笔记技术篇

目录前言 requests出现中文乱码使用代理 BeautifulSoup的使用 Selenium的使用基础使用 Selenium获取网页动态数据赋值给BeautifulSoup Selenium加载时间过长 Selenium使用Chrome,隐藏Chrome 多进程下无法退出exe scrapy 爬虫小Demo 爬取知乎发现页面的今日最热爬取某张图片爬取视频网页数量少的动态网站的爬虫网站介绍解决办法我的智障做法正确的做法 python爬虫代码爬虫爬本地HTML 前言本篇…

Python爬虫笔记【一】模拟用户访问之设置请求头（1）

学习的课本为<python网络数据采集>,大部分代码来此此书. 网络爬虫爬取数据首先就是要有爬取的权限,没有爬取的权限再好的代码也不能运行.所以首先要伪装自己的爬虫,让爬虫不像爬虫而是像人一样访问网页.废话不多说开始伪装. 1.修改请求头这里要用到python的requests的模块,首相介绍一下http请求头,它就是你每次在访问网页时,向服务器传输的一组属性和配置信息.下面有七个字段被大多数浏览器用来初始化网络请求. 属性内容 Host https://www.google.com/ C…

Python爬虫笔记（一）

个人笔记,仅适合个人使用(大部分摘抄自python修行路) 1.爬虫Response的内容便是所要获取的页面内容,类型可能是HTML,Json(json数据处理链接)字符串,二进制数据(图片或者视频) 2.请求方式主要有:GET/POST两种类型常用,另外还有HEAD/PUT/DELETE/OPTIONS GET和POST的区别就是:请求的数据GET是在url中,POST则是存放在头部 GET:向指定的资源发出“显示”请求.使用GET方法应该只用在读取数据,而不应当被用于产生“副作用”的操作…

Python 爬虫笔记（二）

个人笔记,仅适合个人使用(大部分摘抄自python修行路) 1.使用selenium(传送) selenium 是一套完整的web应用程序测试系统,包含了测试的录制(selenium IDE),编写及运行(Selenium Remote Control)和测试的并行处理(Selenium Grid).Selenium的核心Selenium Core基于JsUnit,完全由JavaScript编写,因此可以用于任何支持JavaScript的浏览器上. selenium可以模拟真实浏览器,自动化测试…

Python 爬虫笔记、多线程、xml解析、基础笔记（不定时更新）

1 Python学习网址:http://www.runoob.com/python/python-multithreading.html…

python爬虫笔记----4.Selenium库（自动化库）

4.Selenium库 (自动化测试工具,支持多种浏览器,爬虫主要解决js渲染的问题) pip install selenium 基本使用 from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.common.keys import Keys from selenium.webdriver.support import expected_condition…

PYTHON 爬虫笔记七:Selenium库基础用法

知识点一:Selenium库详解及其基本使用什么是Selenium selenium 是一套完整的web应用程序测试系统,包含了测试的录制(selenium IDE),编写及运行(Selenium Remote Control)和测试的并行处理(Selenium Grid). selenium的核心Selenium Core基于JsUnit,完全由JavaScript编写,因此可以用于任何支持JavaScript的浏览器上. selenium可以模拟真实浏览器,自动化测试工具,支持多种浏览器,…

PYTHON 爬虫笔记三:Requests库的基本使用

知识点一:Requests的详解及其基本使用方法什么是requests库 Requests库是用Python编写的,基于urllib,采用Apache2 Licensed开源协议的HTTP库,相比urllib库,Requests库更加方便,可以节约我们大量的工作,完全满足HTTP测试需求. Requests是用python语言基于urllib编写的,采用的是Apache2 Licensed开源协议的HTTP库如果你看过上篇文章关于urllib库的使用,你会发现,其实urllib还是非常不方便的…

python爬虫笔记之re.match匹配，与search、findall区别

为什么re.match匹配不到?re.match匹配规则怎样?(捕一下seo) re.match(pattern, string[, flags]) pattern为匹配规则,即输入正则表达式. string为,待匹配的文本或字符串. 网上的定义[ 从要匹配的字符串的头部开始,当匹配到string的尾部还没有匹配结束时,返回None; 当匹配过程中出现了无法匹配的字母,返回None.] 但我觉得要强调关键一句[仅从要匹配的字符串头部开始匹配!] 看看例子,你就明白了!!!想用的话,一定要看! 出…

Python爬虫笔记【一】模拟用户访问之设置处理cookie（2）

学习的课本为<python网络数据采集>,大部分代码来此此书. 做完请求头的处理,cookie的值也是区分用户和机器的一个方式.所以也要处理一下cookie,需要用requests模块,废话不多说开搞. 1.一般情况下python修改cookie 首先获得cookie import requests params = {'username': 'Ryan', 'password': 'password'} #设一个字典,输入用户名和密码,这个跟host请求差不多 r = requests.po…

Python 爬虫笔记（三）

from selenium import webdriver from selenium.webdriver.common.action_chains import ActionChains #ActionChains鼠标操作类 from selenium.webdriver.common.keys import Keys #keys类操作 # 打开浏览器: browser = webdriver.Chrome() # # 若未配置环境变量: # path = r'C:\Program File…

Python 爬虫笔记

urllib python3 与 python2 的urllib很不一样,之前urllib2的方法基本上都变成了python3里的urllib.request模块中 import urllib.request as urq import urllib.parse as urp import urllib.error as ure # 初始化 opener = urq.build_opener() # 序列化请求参数 urllib.parse.urlencode() url = "http://l…

PYTHON 爬虫笔记十一:Scrapy框架的基本使用

Scrapy框架详解及其基本使用 scrapy框架原理 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中.其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫.Scrapy用途广泛,可以用于数据挖掘.监测和自动化测试. Scrapy 使用了 Twisted异步网络库来处理网络通讯.…

PYTHON 爬虫笔记十:利用selenium+PyQuery实现淘宝美食数据搜集并保存至MongeDB（实战项目三）

利用selenium+PyQuery实现淘宝美食数据搜集并保存至MongeDB 目标站点分析淘宝页面信息很复杂的,含有各种请求参数和加密参数,如果直接请求或者分析Ajax请求的话会很繁琐.所以我们可以用Selenium来驱动浏览器模拟点击来爬取淘宝的信息.这样我们只要关系操作,不用关心后台发生了怎样的请求.这样有个好处是:可以直接获取网页渲染后的源代码.输出 page_source 属性即可. 这样,我们就可以做到网页的动态爬取了.缺点是速度相比之下比较慢. 流程框架爬虫实战 spider详…

PYTHON 爬虫笔记九:利用Ajax+正则表达式+BeautifulSoup爬取今日头条街拍图集（实战项目二）

利用Ajax+正则表达式+BeautifulSoup爬取今日头条街拍图集目标站点分析今日头条这类的网站制作,从数据形式,CSS样式都是通过数据接口的样式来决定的,所以它的抓取方法和其他网页的抓取方法不太一样,对它的抓取需要抓取后台传来的JSON数据, 先来看一下今日头条的源码结构:我们抓取文章的标题,详情页的图片链接试一下: 看到上面的源码了吧,抓取下来没有用,那么我看下它的后台数据:‘ 所有的数据都在后台的JSON展示中,所以我们需要通过接口对数据进行抓取提取网页JSON数据执行函数结…

PYTHON 爬虫笔记八:利用Requests+正则表达式爬取猫眼电影top100（实战项目一）

利用Requests+正则表达式爬取猫眼电影top100 目标站点分析流程框架爬虫实战使用requests库获取top100首页: import requests def get_one_page(url): response = requests.get(url) if response.status_code == 200: return response.text return None def main(): url = 'http://maoyan.com/board/4?off…

PYTHON 爬虫笔记四:正则表达式基础用法

知识点一:正则表达式详解及其基本使用方法什么是正则表达式正则表达式对子符串操作的一种逻辑公式,就是事先定义好的一些特定字符.及这些特定字符的组合,组成一个‘规则字符串’,这个‘规则字符串’用来表达对字符串的一种过滤逻辑. (非Python独有,re模块实现) 测试正则表达式的网站测试官网: 在线正则表达式测试学习教程:菜鸟教程RE模块详解基本对照表 (截的图,不清楚!可以看菜鸟教程正则表达式元字符页面) re库的用法详解 re.match()方法的使用re.match尝试从字符串的起始…

PYTHON 爬虫笔记二:Urllib库基本使用

知识点一:urllib的详解及基本使用方法一.基本介绍 urllib是python的一个获取url(Uniform Resource Locators,统一资源定址器)了,我们可以利用它来抓取远程的数据进行保存. 二.什么是Urllib Python内置的Http请求库,包含四个模块: urllib.request 请求模块 (模拟浏览器,可以用来发送request和获取request的结果) urllib.error 异常处理模块 (包含了urllib.request产生的异常) url…

PYTHON 爬虫笔记一:爬虫基本原理梳理

知识点一:爬虫的基本原理梳理一.什么是爬虫? 请求网站并提取数据的自动化程序二.爬虫的基本流程 1:向服务器发起请求通过HTTP库向目标站点发起请求,即发送一个Request,请求可以包含额外的headers等信息,等待服务器的响应. 2:获取响应内容如果服务器正常响应,会得到一个Response,Response的内容便是所要获取的页面内容,类型可能有HTML.JSON.二进制文件(如图片.视频等类型). 3:解析内容得到的内容可能是HTML,可以用正则表达式.网页解析库进行解析.可…

python爬虫笔记之爬取足球比赛赛程

目标:爬取某网站比赛赛程,动态网页,则需找到对应ajax请求(具体可参考:https://blog.csdn.net/you_are_my_dream/article/details/53399949) # -*- coding:utf-8 -*- import sys import re import urllib.request link = "https://***" r = urllib.request.Request(link) r.add_header('User-Agen…

python爬虫笔记之re.IGNORECASE

re.IGNORECASE有什么用?re.IGNORECASE是什么意思?(原谅我抓下seo..) 这里自己总结下: re.IGNORECASE是compile函数中的一个匹配模式. re.IGNORECASE的意思就是忽略大小写. example. 下图是没有添加re.IGNORECASE模式时,匹配则输出一段字符串,不匹配则输出None. 小写匹配,大写则不匹配,说明本身对大小写敏感. 下图是添加re.IGNORECASE模式时,大小写均匹配. 输出这种的话:<_sre.SRE_Match…

Python爬虫笔记【一】模拟用户访问之提交表单登入—第二次（7）

在第一次登入时遇到这个问题,页面验证码与下载下来需要识别的验证码不同的问题,从网上查寻说是叫验证码同步问题.发现是用cookie解决的,那次cookie介绍到通过cookie就可以实现时间戳同步问题,经过测试发现用同一个cookie打开上次的验证码网页是相同的.登入就是向后台服务器提交一个表单,那么我们就可以将cookie绑定(使验证码的post请求与验证码的请求时间戳相同,来解决验证码同步)然后以提交表单的方式来登入,所以下面来介绍这个方法(当然这个方法也没有解决).原因有点崩溃.先上代码,问…

Python爬虫笔记【一】模拟用户访问之Tesseract-ocr验证码训练（5）

验证码处理之后就需要对处理的验证码进行识别训练,这里用Tesseract-ocr工具进行识别,用jTessBoxeditor进行训练生成模板. 一,对图片进行处理利用上一篇代码对图片进行降噪处理,得到较为清晰地图片. 这里需要你在需要登入的网站中提取大量的验证码图片,在获取图片时,查看网站的登入框是否在iframe标签中,已经图片是否有需要点击输入框才会出现,若是如此,可以用selenium中driver来跳转iframe标签,用点击事件来显示验证码,然后再获取src属性进行下载. 二,生成t…

Python爬虫笔记【一】模拟用户访问之验证码清理（4）

清理图片,对图片进行二值化,去边框,去干扰线,去点 from PIL import Image from pytesseract import * from fnmatch import fnmatch from queue import Queue import matplotlib.pyplot as plt import cv2 import time import os def clear_border(img,img_name): '''去除边框 ''' h, w = img.shap…

Python爬虫笔记【一】模拟用户访问之表单处理（3）

学习的课本为<python网络数据采集>,大部分代码来此此书. 大多数网页表单都是由一些HTML 字段.一个提交按钮.一个在表单处理完之后跳转的“执行结果”(表单属性action 的值)页面构成.虽然这些HTML 字段通常由文字内容构成,但是也可以实现文件上传或其他非文字内容.这些都为抓取数据的阻碍所以放在了前面.废话不多说开搞. 1.HTTP基本接入认证在发明cookie 之前,处理网站登录最常用的方法就是用HTTP 基本接入认证(HTTP basicaccess authenticati…

【python爬虫笔记】的更多相关文章