用一个自动化的程序把网站背后的程序爬取下来. 在互联网上许许多多的网站,他们都是托管在服务器上的,这些服务器24小时运行着,刻刻 等待着别人的请求.所以,爬虫首先会模拟请求,就好像你在浏览器输入网址,然后回车那样,爬虫可以用到一些HTTp库指定的服务器偷偷摸摸的发起请求,这个时候爬虫可以家长自己是浏览器,大多数服务器以为是浏览器发送请求,就直接返回数据给爬虫了. 当然,有一些网站比较精明,所以他们会建立一些反爬虫机制. 不同的情况下,服务器返回给我们的数据格式不一样,有HTML,JSON,二进制…