python入门（二十讲）：爬虫

什么是爬虫？

按照一定的规则，自动地抓取万维网信息的程序或脚本。

爬虫目的：

从网上爬取出来大量你想获取类型的数据，然后用来分析大量数据的类似点或者其他信息来对你所进行的工作提供帮助。

为什么选择python做爬虫

1. 抓取网页本身的接口

相比与其他静态编程语言，如java，c#，C++，python抓取网页文档的接口更简洁；相比其他动态脚本语言，如perl，shell，python的urllib2包提供了较为完整的访问网页文档的API。（当然ruby也是很好的选择）此外，抓取网页有时候需要模拟浏览器的行为，很多网站对于生硬的爬虫抓取都是封杀的。这是我们需要模拟user agent的行为构造合适的请求，譬如模拟用户登陆、模拟session/cookie的存储和设置。在python里都有非常优秀的第三方包帮你搞定，如Requests，mechanize

2. 网页抓取后的处理

抓取的网页通常需要处理，比如过滤html标签，提取文本等。python的beautifulsoap提供了简洁的文档处理功能，能用极短的代码完成大部分文档的处理。

其实以上功能很多语言和工具都能做，但是用python能够干得最快，最干净。Life is short， u need python.

安装包

pip install beautifulsoup4

pip install lxml

pip install html5lib

python中的数字类型？

int,str,list,tuple,dict,set,bool,float,

前端页面的语言支撑：HTML,CSS,JS

html:标签，组成了页面结构

css:决定了字体的样式（加粗、下划线）

js：点击页面有跳转，和服务端有交互，做请求，解析数据

爬虫总体概括：

实践：

需求：拿到酷狗音乐网页中的新歌首发的所有数据，并将信息存储到本地。

from urllib import request #不用安装urllib

import time

import os

from bs4 import BeautifulSoup

url = "https://www.kugou.com/"

result = request.urlopen(url).read().decode("utf-8")

soup = BeautifulSoup(result,'lxml') #BeautifulSoup就是帮你分析html的结构，帮你拿数据#lxml指解析的模式

for i in soup.find_all("div"): #找到所有的div标签

if i.get("id")=="SongtabContent":

s = i.find_all("li")

with open("e:\\music.text","w",encoding = "utf-8") as f:

for i in s:

f.write("歌曲名称为：%s;"%i.a.select(".songName")[0].text) #.songName 等价于 class="songName",i.a.select(".songName")取出来的结果是列表的形式，需要用索引坐标取值，取第一个，".text"表示取出内容

f.write("歌曲播放连接为：%s;"%i.a.get("href")) #i.a.get("href")获取href属性的值

f.write("歌曲播放时间为：%s;"%i.a.select(".songTime")[0].text)

f.write(os.linesep)

注意：这不算真正意义上的爬虫，因为次级页面也会有很多链接，也需要爬一下。

.select表示找到这个标签。

.text表示取这个标签的值。

.get表示取出属性的值。

python入门（二十讲）：爬虫的更多相关文章

Java Web快速入门——全十讲
Java Web快速入门——全十讲这是一次培训的讲义,就是我在给学生讲的过程中记录下来的,非常完整,原来发表在Blog上,我感觉这里的学生可能更需要. 内容比较长,你可以先收藏起来,慢慢看. 第一讲 ...
python入门（十九讲）：多进程
1.进程概念进程(Process)是计算机中的程序关于某数据集合上的一次运行活动.是系统进行资源分配和调度的基本单位,是操作系统结构的基础. 狭义定义:进程是正在运行的程序的实例. 在早期面向进程设 ...
python入门（十二）：面向对象
1.场景:玩过游戏.主人公,进入了一个场景,有10个小怪物是一样的.有攻击力,血(100格).如果小怪物有多个数值需要管理,小怪物的血量.小怪物出现在屏幕的地点. 可以使用字典来进行记录: {&quo ...
Python学习二十八周（vue.js）
一.指令 1.一个例子简单实用vue: 下载vue.js(这里实用1.0.21版本) 编写html代码: <!DOCTYPE html> <html lang="en&qu ...
【Python实例二】BeautifulSoup爬虫简单实践
前言前面安装了BeautifulSoup库,现在就来实现一下吧. 目录一.Urllib库的使用二.BeautifulSoup的使用三. 一个示例 ----------------------- ...
笨办法学Python（二十九）
习题 29: 如果(if) 下面是你要写的作业,这段向你介绍了“if语句”.把这段输入进去,让它能正确执行.然后我们看看你是否有所收获. people = 20 cats = 30 dogs = 15 ...
Python入门二：函数
一.函数的定义和使用 1.基本结构: def 函数名(参数): """ 文档字符串 """ 函数体返回值 2.函数名: 和变量名命名规则一 ...
python入门（十）：XML和JSON解析
一.python解析XML 1.xml.dom.*模块,它是W3C DOM API的实现,若需要处理DOM API则该模块很适合,注意xml.dom包里面有许多模块,须区分它们间的不同: 2.xml. ...
Android入门(二十二)解析JSON
原文链接:http://www.orlion.ga/687/ 解析JSON的方式有很多,主要有官方提供的 JSONObject,谷歌的开源库 GSON.另外,一些第三方的开源库如 Jackson.Fa ...

随机推荐

刷题22. Generate Parentheses
一.题目说明这个题目是22. Generate Parentheses,简单来说,输入一个数字n,输出n对匹配的小括号. 简单考虑了一下,n=0,输出"";n=1,输出" ...
LeetCodeTwo Sum IV 树的遍历+Hash大法好
题意给定一颗二叉搜索树,返回是否存在两个节点的值之和为给定值K. 思路同Two Sum.使用Hash表解决.只是要写个树的遍历而已,选取DFS. 源码 class Solution { publi ...
java面试记录一：跳表、判断二叉树相同、冒泡排序、cookie和session的区别、设计模式（单例、工厂、模板方法、原型、代理、策略）、抽象类与接口的区别
1.什么是跳表? 跳表实际上就是多层链表跳表可用在让链表的元素查询接近线性时间代码结构及java实现参考博客园随笔 2.判断两棵二叉树是否相同?(结构相同,内容相同) 思路:(1)先定义树节点Tr ...
[CF527D] Clique Problem - 贪心
数轴上有n 个点,第i 个点的坐标为xi,权值为wi.两个点i,j之间存在一条边当且仅当 abs(xi-xj)>=wi+wj. 你需要求出这张图的最大团的点数. Solution 把每个点看作以 ...
python dataframe筛选列表的值转为list【常用】
网上方法参差不齐,无注释解释不好秒懂,没有自己想要的,故自己试验一番~ 1. 筛选列表中,当b列中为’1’时,所有c的值,然后转为list 2 .筛选列表中,当a列中为'one',b列为'1'时,所有 ...
format的使用
v="敬爱可亲的{0},最喜欢在{1}地方干{2}" name1=input("名字>") lang=input("地点>") ...
表结构修改以及sql增删改查
修改表结构修改表名 alter table 表名 rename 新名增加字段 alter table 表名 add 字段名数据类型约束删除字段 alter table 表名 drop 字段名 ...
manifold learning
MDS, multidimensional scaling, 线性降维方法, 目的就是使得降维之后的点两两之间的距离尽量不变(也就是和在原是空间中对应的两个点之间的距离要差不多).只是 MDS 是针对 ...
操作系统-多用户如何理解（Linux）
单用户.多用户.单任务.多任务,这么多种操作系统容易让人迷糊.其实这种初看你会觉得理解了一点,但其实你仔细研究会发现,多用户到底讲的是什么鬼? 多任务比较简单,就是应用程序都要放置到内存上去给CPU调 ...
后台异常 - sql语句查询出的结果与dao层返回的结果不一致
问题描述 sql语句查询出的结果与dao层返回的结果不一致问题原因 (1)select 中,查询的列名称重复,数据出现错乱 (2)使用不等号,不等号(!=,<>),查询出来的结果集不包含 ...

python入门（二十讲）：爬虫

python入门（二十讲）：爬虫的更多相关文章

随机推荐

热门专题