爬虫,是我学习的比较多的,也是比较了解的.打算写一个系列教程,网上搜罗一下,感觉别人写的已经很好了,我没必要重复造轮子了. 爬虫不过就是访问一个页面然后用一些匹配方式把自己需要的东西摘出来. 而访问页面经常用到的几个库,一是urllib和urllib2结合使用,二是requests的使用.第一种方法可以让你了解http协议的一些原理,对于初学者应该从这个入手,但是所谓显得麻烦,第二种requests比较方便,但是由于它是对其他库(httplib等)的高级封装,所以灵活性会差点,功能稍微差点,但一…
---恢复内容开始--- python基础系列教程——Python的安装与测试:python的IDE工具PyDev和pycharm,anaconda 从头开启python的开发环境搭建.安装比较简单,很多步骤就是直接next下来就可以,主要是配置好环境变量. 一. 如何安装Python 在https://www.python.org/下载安装包. 下载下来一个exe文件,直接双击运行. 选择Install Now,立即安装. 配置环境变量:右键开始——控制面板——系统——高级系统配置——环境变量…
1. 爬取前的分析 mitmdump是mitmproxy的命令行接口,比Fiddler.Charles等工具方便的地方是它可以对接Python脚本. 有了它我们可以不用手动截获和分析HTTP请求和响应,只需写好请求和响应的处理逻辑即可. 它还可以实现数据的解析.存储等工作,这些过程都可以通过Python实现. 1.1 启动mitmdump 保存到文件 使用命令 mitmdump -w crawl.txt 其中 crawl.txt 可以为任意文件名,就可以保存相应的结果了 1.2 调用脚本文件 m…
python基础系列教程——Python库的安装与卸载 2.1 Python库的安装 window下python2.python3安装包的方法 2.1.1在线安装 安装好python.设置好环境变量后,在python安装目录下Script文件夹内会存在pip.exe和easy_install.exe两种在线安装工具. 只需要在cmd输入pip,可以查看pip是否可用 没有报错表示可用,在cmd中输入pip install xxx就可以在线安装包了,xxx为你要安装的包的名称.如在线安装numpy…
1. Python爬虫入门教程 爬取背景 2019年1月10日深夜,打开了百思不得姐APP,想了一下是否可以爬呢?不自觉的安装到了夜神模拟器里面.这个APP还是比较有名和有意思的. 下面是百思不得姐的简介 年度超好玩的搞笑内容平台,整个互联网能嗨翻宇宙的神级脑洞大神段子手们都在这.. 新鲜的视频,爆笑的段子,有趣的GIF囧图,承包所有你无聊的时间. 更有"姐夫"们毁天灭地"神评论",花式吐槽,脑洞大开,人人都是段子手-- 1500W的下载量,用户群体比较庞大. 2.…
  Python爬虫防封杀方法集合     mrlevo520 2016.09.01 14:20* 阅读 2263喜欢 38       Python 2.7 IDE Pycharm 5.0.3 前言 在爬取的过程中难免发生ip被封和403错误等等,这都是网站检测出你是爬虫而进行反爬措施,这里自己总结下如何避免 方法1:设置等待时间 有一些网站的防范措施可能会因为你快速提交表单而把你当做机器人爬虫,比如说以非常人的速度下载图片,登录网站,爬取信息. 常见的设置等待时间有两种,一种是显性等待时间(…
python基础系列教程——Python中的编码问题,中文乱码问题 如果不声明编码,则中文会报错,即使是注释也会报错. # -*- coding: UTF-8 -*- 或者 #coding=utf-8 就行了 . 在第一行不区分大小写. 文档编码是一种告诉程序——无论是计算机的操作系统还是Python 代码——读取文档的规则.正确读取一个文档,往往需要先知道文件的扩展名,因为编码方式往往与扩展名有很大的关系. (1)纯文本文档的获取与处理:直接用urlopen读取后,用read()函数获取文本内…
python基础系列教程——Python3.x标准模块库目录 文本 string:通用字符串操作 re:正则表达式操作 difflib:差异计算工具 textwrap:文本填充 unicodedata:Unicode字符数据库 stringprep:互联网字符串准备工具 readline:GNU按行读取接口 rlcompleter:GNU按行读取的实现函数 二进制数据 struct:将字节解析为打包的二进制数据 codecs:注册表与基类的编解码器 数据类型 datetime:基于日期与时间工具…
Python应用现在如火如荼,应用范围很广.因其效率高开发迅速的优势,快速进入编程语言排行榜前几名.本系列文章致力于可以全面系统的介绍Python语言开发知识和相关知识总结.希望大家能够快速入门并学习Python这门语言. 本文是在前一部分Python基础之上程序员带你十天快速入门Python,玩转电脑软件开发(四),再次进行的Python爬虫实战课程. 正则表达式实例简单详解 正则表达式干什么用? 就是在字符串中提取我们需要的内容的. 记得哦,要先引用正则表达式模块的哦. re就是正则表达式相…
妹子图网站爬取---前言 从今天开始就要撸起袖子,直接写Python爬虫了,学习语言最好的办法就是有目的的进行,所以,接下来我将用10+篇的博客,写爬图片这一件事情.希望可以做好. 为了写好爬虫,我们需要准备一个火狐浏览器,还需要准备抓包工具,抓包工具,我使用的是CentOS自带的tcpdump,加上wireshark ,这两款软件的安装和使用,建议你还是学习一下,后面我们应该会用到. 妹子图网站爬取---网络请求模块requests Python中的大量开源的模块使得编码变的特别简单,我们写爬…