Python 网络爬虫 001 (科普) 网络爬虫简介

1. 网络爬虫是干什么的

我举几个生活中的例子：

例子一：

我平时会将 学到的知识 和 积累的经验 写成博客发送到CSDN博客网站上，那么对于我写的Blender 3D 建模方面的博文，里面有很多的图片。如果我要发布一篇 Blender 3D 建模的博文的话，图片要一张一张的上传，上传的速度有时也是很慢，整个发表一遍这样的博文，我光 上传图片 就要操作半个多小时，这样效率太低了。

我能不能写一个程序，让它自动在后台帮我上传图片？

例子二：

我这个人比较懒，懒到什么程度呢：我不愿意出去吃饭，基本上 一日三餐 都是网上订外卖。其实我每次定的外卖都是那几道菜。（因为好吃的外卖太少了。）那我就是很懒，定外卖我都不愿意自己定，我就希望一到吃饭时间，就有人主动过来给我送饭。因为我有选择障碍，每次饿的时候，定外卖我都要选很久，最后还是定了经常吃的菜，不但浪费时间，而且重点是：我现在肚子是饿的，外卖最快的都要半个小时之后才送到。

我能不能写一个程序，它自动帮我订一日三餐的外卖？

例子三：

如果你开了一家淘宝网店，你想及时了解竞争对手们的商品价钱，好做相应的对策。我每天都要访问他们的淘宝网店，再与我自家的网店商品价钱做对比，如果发现竞争对手的商品的价钱有改动，我自家的网店里同样的商品的价钱也要跟着进行相应的改动。这是要发费大量的时间的。一个大写的 “烦” 字表达了我现在的心情。我都开网店了，大大小小也是个老板啊，老板的时间多宝贵啊，我要是每天都做这样的事情，那我一天都得损失好几个亿啊！

我能不能写一个程序，让它来实时监视竞争对手网店里面商品的价钱，并且自动对自家网店里的商品的价钱做相应的修改呢？

这些现实生活中的问题，最终的答案都是：是的，你可以写这样的程序，来帮助你提高工作效率。

通过本博客专栏的教程，你可以用网络爬虫技术实现这些重复性任务的自动化处理。

2. 网络爬虫是否合法

是的，对于像我这种懒人来说，网络爬虫真的是偶的救星啊！我不但可以帮助你提高工作效率，而且可以帮你爬取到任何一个网站上的所有信息。那么问题来了：网络爬虫是否合法？

怎么说呢，现在（2016-9-2 21:34:06）中国还没有相关的法律规定。

不过万事万物都要有一个度，如果你肆无忌惮的进行自己的抓取行为，你可能会犯法。

3. 网络爬虫官方介绍

最后，还是要贴出官方对网络爬虫的介绍：

网络爬虫（Web crawler）也叫网络蜘蛛（Web spider），蚂蚁（ant），自动检索工具（automatic indexer），或者（在FOAF软件概念中）网络疾走（WEB scutter），是一种“自动化浏览网络”的程序，或者说是一种网络机器人。它们被广泛用于互联网搜索引擎或其他类似网站，以获取或更新这些网站的内容和检索方式。它们可以自动采集所有其能够访问到的页面内容，以供搜索引擎做进一步处理（分检整理下载的页面），而使得用户能更快的检索到他们需要的信息。

总结：

这一节，我了解了什么是网络爬虫。下一节，我们来介绍：在爬取一个网站前，首先要对目标站点的规模和结果进行一定程度的了解。