一,安装编程工具并进入编程界面 首先去https://www.continuum.io/downloads/网站下载Anaconda工具并安装;打开cmd,输入jupyter notebook并回车(win7),他会自动帮你打开编辑界面(基于浏览器的):点击new按钮新建一个Python3的编辑框,他会弹出一个新窗口,好了现在可以敲代码了. 二,爬取整个页面 import requests          #导入requests模块 res = requests.get('http://stu…
Requests:Python HTTP Module学习笔记(一) 在学习用python写爬虫的时候用到了Requests这个Http网络库,这个库简单好用并且功能强大,完全可以代替python的标准库urllib2.在学习的同时把我的学习笔记记录下来,资料基本上都是从Requests官网翻译过来的,欢迎指出有错误或者有表述的不准确的地方. 1.介绍Requests: HTTP for Humans一句话:为地球人准备的网络库 python的标准库urllib2已经提供了大部分你所需要的HTT…
Python Built-in Function 学习笔记 1. 匿名函数 1.1 什么是匿名函数 python允许使用lambda来创建一个匿名函数,匿名是因为他不需要以标准的方式来声明,比如def语句 1.2 匿名函数优点 节省内存:如果不把它赋值给一个变量的话,由于是匿名的,不用分配栈空间 不会重名 可以嵌在推导式中,代码更简练 1.3 举例 lambda 参数列表:返回值 a = lambda x,y=2:x+y a(5) ==> 7 a(2,3)==> 5 2. 内置函数 2.1 a…
scrapy爬虫框架学习笔记(一) 1.安装scrapy pip install scrapy 2.新建工程: (1)打开命令行模式 (2)进入要新建工程的目录 (3)运行命令: scrapy startproject projectname 这个命令会在运行命令的目录下新建一个工程目录 这个目录有一个初始的目录结构: 一个以工程 名命名的文件夹和一个名为scrapy.cfg的文件 工程名命名的文件夹下有两个文件夹,和五个py文件:…
Python爬虫系统学习(2) 动态网页爬取 当网页使用Javascript时候,很多内容不会出现在HTML源代码中,所以爬取静态页面的技术可能无法使用.因此我们需要用动态网页抓取的两种技术:通过浏览器审查元素解析网页的真实地址和使用Selenium模拟浏览器的方法. 异步更新技术AJAX(Asynchronous Javascript And XML,异步Javascript 和XML):通过后台与服务器进行少量的数据交互实现异步更新. Selenium模块 百度解释:Selenium [1]…
Python爬虫系统化学习(1) 前言:爬虫的学习对生活中很多事情都很有帮助,比如买房的时候爬取房价,爬取影评之类的,学习爬虫也是在提升对Python的掌握,所以我准备用2-3周的晚上时间,提升自己对Python爬虫的掌握. Python爬取目标的三个流程: 1.获取页面: 基础技术:request,urllib,selenium 进阶技术:多线程多进程抓取,登陆抓取,突破IP封禁,使用服务器抓取 2.解析页面: 基础技术:re正则表达式,BeatuifulSoup和lxml 进阶技术:解决中文…
Python爬虫系统化学习(4) 在之前的学习过程中,我们学习了如何爬取页面,对页面进行解析并且提取我们需要的数据. 在通过解析得到我们想要的数据后,最重要的步骤就是保存数据. 一般的数据存储方式有两种:存储在文件或者数据库中.在本篇博客中我会细致的讲解从零基础到血会存储在txt或者csv文件,以及通过PHPstudy去保存数据. Python文件存储 首先我们来写一组最简单的代码,实现的功能是打开C盘目录下的a.txt,并且写入"hello python",然后关闭文件.代码如下:…
Python爬虫系统化学习(5) 多线程爬虫,在之前的网络编程中,我学习过多线程socket进行单服务器对多客户端的连接,通过使用多线程编程,可以大大提升爬虫的效率. Python多线程爬虫主要由三部分组成:线程的创建,线程的定义,线程中函数的调用. 线程的创建:多通过for循环调用进行,通过thread.start()唤醒线程,thread.join()等待线程自动阻塞 示例代码如下: for i in range(1,6): thread=MyThread("thread"+str…
大数据的时代,网络爬虫已经成为了获取数据的一个重要手段. 但要学习好爬虫并没有那么简单.首先知识点和方向实在是太多了,它关系到了计算机网络.编程基础.前端开发.后端开发.App 开发与逆向.网络安全.数据库.运维.机器学习.数据分析等各个方向的内容,它像一张大网一样把现在一些主流的技术栈都连接在了一起.正因为涵盖的方向多,因此学习的东西也非常零散和杂乱,很多初学者搞不清楚究竟要学习哪些知识,学习过程中遇到反爬也不知道用什么方法来解决,本篇我们来做一些归纳和总结. 很多人学习python,不知道从…
注:本学习笔记参考了廖雪峰老师的Python学习教程,教程地址为:http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000 使用dict和set dict dict(字典)是Python的内置类型,在其他高级语言中称为map,使用键-值(key-value)存储,具有极快的查找速度. dict的实现原理和查字典是一样的.假设字典包含了1万个汉字,我们要查某一个字,一个办法是把字典从第一页往…