Python爬虫笔记(一):爬虫基本入门

最近在做一个项目，这个项目需要使用网络爬虫从特定网站上爬取数据，于是乎，我打算写一个爬虫系列的文章，与大家分享如何编写一个爬虫。这是这个项目的第一篇文章，这次就简单介绍一下Python爬虫，后面根据项目进展会持续更新。

一、何谓网络爬虫

网络爬虫的概念其实不难理解，大家可以将互联网理解为一张巨大无比的网（渔网吧），而网络爬虫就像一只蜘蛛（爬虫的英文叫spider，蜘蛛的意思，个人认为翻译为网络蜘蛛是不是更形象呢哈哈），而这只蜘蛛便在这张网上爬来爬去，如果它遇到资源，那么它就会抓取下来。至于想抓取什么资源？这个由你自己来进行定义了，你想抓取什么就抓取什么，你具有绝对主宰能力，理论上讲你可以通过网络爬虫从互联网上获取任何你想要并且存在与互联网上的信息。

二、浏览网页的过程

为了理解爬虫，我们应该了解浏览网页的过程，其实说白了，爬虫其实就是利用计算机模拟人类浏览网页。那么浏览网页的过程是什么呢？

在用户浏览网页的过程中，我们可能会看到许多好看的图片，比如 http://image.baidu.com/ ，我们会看到几张的图片以及百度搜索框，这个过程其实就是用户输入网址之后，经过DNS服务器，找到服务器主机，向服务器发出一个请求，服务器经过解析之后，发送给用户的浏览器 HTML、JS、CSS 等文件，浏览器解析出来，用户便可以看到形形色色的图片了。

因此，用户看到的网页实质是由 HTML 代码构成的，爬虫爬来的便是这些内容，通过分析和过滤这些 HTML 代码，实现对图片、文字等资源的获取。

三、URL的含义

URL，即统一资源定位符，也就是我们说的网址，统一资源定位符是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示，是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL，它包含的信息指出文件的位置以及浏览器应该怎么处理它。

URL的格式由三部分组成：
    ①第一部分是协议(或称为服务方式)。
    ②第二部分是存有该资源的主机IP地址(有时也包括端口号)。
    ③第三部分是主机资源的具体地址，如目录和文件名等。

爬虫爬取数据时必须要有一个目标的URL才可以获取数据，因此，它是爬虫获取数据的基本依据，准确理解它的含义对爬虫学习有很大帮助。

四、环境的配置

理论上你可以采用任何一种语言编写网络爬虫，不过这里我给大家分享的是利用Python编写爬虫。因为Python的灵活、美丽以及对网络编程的强大支持，使之成为网络爬虫编程语言的首选。安装Python很简单，这里就不再赘述，从官网下载一个安装包自己安装就OK了、编辑器就用它自带的IDLE吧，安装完之后，右键数遍就会出现IDLE。如图：

五、爬虫初体验

说了这么多，先来感受下一个爬虫吧，这里我们直接抓取一个网页例如：http://www.cnblogs.com/ECJTUACM-873284962/

这个网页是我的官方博客，我们要将其内容抓取下来，其实只需要两句代码就能完成，需要使用urllib2库，代码如下：

然后打印结果如下:

可以看到，将我博客首页的网页内容全部抓取下来了，你可以点击链接访问我的博客，看是否与其内容一致。

其实爬虫就是这么简单，只要明白其中的原理，一切都不是问题。今天只是初步体验爬虫，后续会不断进阶，分享更多爬虫知识。

Python爬虫笔记(一):爬虫基本入门的更多相关文章

Python学习笔记之爬虫
爬虫调度端:启动爬虫,停止爬虫,监视爬虫运行情况 URL管理器:对将要爬取的和已经爬取过的URL进行管理:可取出带爬取的URL,将其传送给“网页下载器”网页下载器:将URL指定的网页下载,存储成一个字 ...
吴裕雄--python学习笔记：爬虫基础
一.什么是爬虫爬虫:一段自动抓取互联网信息的程序,从互联网上抓取对于我们有价值的信息. 二.Python爬虫架构 Python 爬虫架构主要由五个部分组成,分别是调度器.URL管理器.网页下载器.网 ...
python学习笔记："爬虫+有道词典"实现一个简单的英译汉程序
1.有道的翻译网页:www.youdao.com Fig1 Fig2 Fig3 Fig4 再次点击"自动翻译"->选中'Network'->选中'第一项',如下: F ...
Python学习笔记——与爬虫相关的网络知识
1 关于URL URL(Uniform / Universal Resource Locator):统一资源定位符,用于完整地描述Internet上网页和其他资源的地址的一种标识方法 URL是爬虫的入 ...
PYTHON 爬虫笔记一:爬虫基本原理梳理
知识点一:爬虫的基本原理梳理一.什么是爬虫? 请求网站并提取数据的自动化程序二.爬虫的基本流程 1:向服务器发起请求通过HTTP库向目标站点发起请求,即发送一个Request,请求可以包含额外的 ...
吴裕雄--python学习笔记：爬虫包的更换
python 3.x报错:No module named 'cookielib'或No module named 'urllib2' 1. ModuleNotFoundError: No module ...
吴裕雄--python学习笔记：爬虫
import chardet import urllib.request page = urllib.request.urlopen('http://photo.sina.com.cn/') #打开网 ...
Python学习笔记_爬虫数据存储为xlsx格式的方法
import requests from bs4 import BeautifulSoup import openpyxl wb=openpyxl.Workbook() sheet=wb.active ...
Python学习笔记 CH1-4：从入门到列表
Python CH1 环境准备因为已经有了C/C++.Java的基础,所以上手很快. 参考书:Eric Matthes -<Python编程从入门到实践> 环境准备:python3.P ...

随机推荐

4. sudo,PATH环境变量,修改字符集，ntpserver,加大文件描述符，隐藏内核版本，锁定关键系统文件
1 命令: visudo 98gg 98行 yy 复制当前行 p ...
JavaWeb项目之电话本，两个版本，以及总结反思
使用技术: Oracle 数据库前端后台: Servlet + jsp + JDBC + html + css + js 前端界面自定, 但一定实现需要的功能实现功能: 用户可以登录登录之后可以 ...
三菱Q系列PLC的io分配
1.系统基本配置 2.存储卡配置 3.外部IO标号 4.主基板IO模块的IO号分配 5.扩展基板IO口标号 6.标准配置实例 7. 一.输入采样阶段在输入采样阶段,可编程逻辑控制器以扫描方式依次地读 ...
MySQL 如何执行关联查询
本文同时发表在https://github.com/zhangyachen/zhangyachen.github.io/issues/51 当前mysql执行的策略很简单:mysql对任何关联都执行嵌 ...
HDFS租约实践
一.租约详解 Why租约 HDFS的读写模式为 "write-once-read-many",为了实现write-once,需要设计一种互斥机制,租约应运而生租约本质上是一个有时间 ...
C# new关键字和对象类型转换(双括号、is操作符、as操作符)
一.new关键字 CLR要求所有的对象都通过new来创建,代码如下: Object obj=new Object(); 以下是new操作符做的事情 1.计算类型及其所有基类型(一直到System.Ob ...
HMM Viterbi算法详解
HMM:隐式马尔可夫链 HMM的典型介绍就是这个模型是一个五元组: 观测序列(observations):实际观测到的现象序列隐含状态(states):所有的可能的隐含状态初始概率(start ...
sql查询化繁为简告别rs.getString("XX")，bean属性赋值setXX("XX")
一.在执行sql语句查询时候,查询的结果是set的map集合(ResultSet): 结果使用rs.getString("XX")获得对应属性的值,赋值到bean对象的相应的属性中 ...
Yii 框架学习--03 多应用多模块
本文以YII 2.0.7为例. 概述首先看看多应用和多模块的特点: 多应用的特点: 独立配置文件独立域名多模块的特点: 统一配置文件统一域名那么,实际该怎么决定使用多应用还是多模块呢? 对于 ...
[js高手之路]html5 canvas动画教程 - 边界判断与反弹
备注:本文后面的代码,如果加载了ball.js,那么请使用这篇文章[js高手之路] html5 canvas动画教程 - 匀速运动的ball.js代码. 边界反弹: 当小球碰到canvas的四个方向的 ...

Python爬虫笔记(一):爬虫基本入门

Python爬虫笔记(一):爬虫基本入门的更多相关文章

随机推荐

热门专题