学习python网络数据采集笔记-1、2章

英文不好只能看中文版的。邮电出版社翻译的真很烂。

以上是吐槽，以下是正文。

书中用的pthon 3.X版本，建议安装python3.4以上的版本，低版本的没有自带pip安装插件会比较麻烦。

下载地址：https://www.python.org/downloads/windows/

1.1注意乌鸦处提示，如果用2.x的版本后面写urllib.request处替换成urllib或者urllib2.

1.2.1 安装包命令一定不要写错 pip install beatifulsoup4

1.2.2 用html.read() 读取网页中ccs样式里的h1标签的内容

#! /usr/bin/env python

#coding=utf-8

from urllib.request import urlopen

#3.*版本是这样的，2.*去掉后面.request,参照1.1乌鸦处提示

from bs4 import BeautifulSoup

html = urlopen("http://www.pythonscraping.com/pages/page1.html")

bsObj=BeautifulSoup(html.read())

print(bsObj.h1.get_text())

1.2.3设置报错

网页不存在 except HTTPError as e:

服务器不存在 if html is None

属性错误: except AttributeError as e:

如何创建函数，返回报错。

#! /usr/bin/env python

#coding=utf-8

from urllib2 import urlopen

from bs4 import BeautifulSoup

from urllib2 import HTTPError

def getTitle(url):

    try:

        html =urlopen(url)

    except HTTPError as e:

        #e为异常对象实例

        return None

    try:

        bsObj=BeautifulSoup(html.read())

        title=bsObj.body.h1

    except AttributeError as e:

        return None

    return title

title=getTitle("http://www.pythonscraping.com/pages/pageee1.html")

#这里指定一个无法找到的页面

if title == None:

    print("title could not be found")

else:

    print(title)

2.2根据标签属性抽取文字

namelist=bsObj.findAll("span",{"class":"green"}

#这里需要主要的是findAll中的A必须要大写。

get_text()是起到删除标签作用，可以将其添加print(bsObj.h1.get_text())中，运行删除h1标签

2.2.1 find和findAll的差别，可用limit限制findAll的寻找层数，具体差别出了limit限制完全没看明白

2.2.2 beautifulsoup的对象

普通对象 bsObj

标签Tag对象 bsObj.div.h1

NAvigablesString对像标签里面的文字

Comment对象查找注释文字

2.2.3导航树--子、兄弟、父标签

子标签（children）和后代标签（descendant）

from urllib.request import urlopen

from bs4 import BeautifulSoup

html = urlopen("http://www.pythonscraping.com/pages/page3.html")

bsObj=BeautifulSoup(html)

#比1.2中省略了.read()

for child in bsObj.find("table",{"id":"giftList"}).children:

    #.children是子对象，.descendants是所有后代

    print (child)

兄弟标签

from urllib.request import urlopen

from bs4 import BeautifulSoup

html = urlopen("http://www.pythonscraping.com/pages/page3.html")

bsObj=BeautifulSoup(html)

for sibling in bsObj.find("table",{"id":"giftList"}).tr.next_siblings:

#.tr提取标题行

#.next_siblings提取除标题行外的数据

#.previous_siblings提取最后一行外的数据

#上面两个去掉s只返回单个标签

    print (sibling)

父标签

from urllib.request import urlopen

from bs4 import BeautifulSoup

html = urlopen("http://www.pythonscraping.com/pages/page3.html")

bsObj=BeautifulSoup(html)

print (bsObj.find("img",{"src":"../img/gifts/img1.jpg"}).parent.previous_sibling.get_text())

#翻译下来就是打印图片img1.jpg父亲的上级兄弟的删除标签结果。

2.3正则表达式。

此处延伸扩展就能单独一篇这里不多介绍，站长工具里面有正则表达式工具。

2.4正则表达式和Beautifulsoup

from urllib.request import urlopen

from bs4 import BeautifulSoup

html = urlopen("http://www.pythonscraping.com/pages/page3.html")

bsObj=BeautifulSoup(html)

import re

images=bsObj.findAll("img",{"src":re.compile("\.\.\/img\/gifts/img.*\.jpg")})

for image in images:

    print(image["src"])

2.5获取属性

介绍的太简单我也看不明白

2.6Lambda表达式

暂时没有接触过

2.7采集还有很多其他的之前用urllibe和urllibe2爬过微博

学习python网络数据采集笔记-1、2章的更多相关文章

20190715《Python网络数据采集》第 1 章
<Python网络数据采集>7月8号-7月10号,这三天将该书精读一遍,脑海中有了一个爬虫大体框架后,对于后续学习将更加有全局感. 此前,曾试验看视频学习,但是一个视频基本2小时,全部拿下 ...
笔记之Python网络数据采集
笔记之Python网络数据采集非原创即采集一念清净, 烈焰成池, 一念觉醒, 方登彼岸网络数据采集, 无非就是写一个自动化程序向网络服务器请求数据, 再对数据进行解析, 提取需要的信息通常, ...
学习爬虫:《Python网络数据采集》中英文PDF+代码
适合爬虫入门的书籍<Python网络数据采集>,采用简洁强大的Python语言,介绍了网络数据采集,并为采集新式网络中的各种数据类型提供了全面的指导.第一部分重点介绍网络数据采集的基本原理 ...
Python网络数据采集PDF
Python网络数据采集(高清版)PDF 百度网盘链接:https://pan.baidu.com/s/16c4GjoAL_uKzdGPjG47S4Q 提取码:febb 复制这段内容后打开百度网盘手 ...
Python网络数据采集PDF高清完整版免费下载|百度云盘
百度云盘:Python网络数据采集PDF高清完整版免费下载提取码:1vc5 内容简介本书采用简洁强大的Python语言,介绍了网络数据采集,并为采集新式网络中的各种数据类型提供了全面的指导.第 ...
Python网络数据采集7-单元测试与Selenium自动化测试
Python网络数据采集7-单元测试与Selenium自动化测试单元测试 Python中使用内置库unittest可完成单元测试.只要继承unittest.TestCase类,就可以实现下面的功能. ...
Python网络数据采集6-隐含输入字段
Python网络数据采集6-隐含输入字段 selenium的get_cookies可以轻松获取所有cookie. from pprint import pprint from selenium imp ...
Python网络数据采集4-POST提交与Cookie的处理
Python网络数据采集4-POST提交与Cookie的处理 POST提交之前访问页面都是用的get提交方式,有些网页需要登录才能访问,此时需要提交参数.虽然在一些网页,get方式也能提交参.比如h ...
Python网络数据采集3-数据存到CSV以及MySql
Python网络数据采集3-数据存到CSV以及MySql 先热热身,下载某个页面的所有图片. import requests from bs4 import BeautifulSoup headers ...

随机推荐

ubuntu14.04中安装QuartusII9.1步骤
家里的计算机安装了WIN10,出于够用且安装文件小,想安装QuartusII9.1,按M$风格,驱动绝对是安不上的.正好是双系统ubuntu14.04 64位.安装过程不太顺利,记录下来,当作已经不灵 ...
UVALive 6088 Approximate Sorting 构造题
题目链接:点击打开链接题意: 给定一个n*n的01矩阵我们跑一下例子== 4 0111 0000 0100 0110 0123 \|____ 0|0111 1|0000 2|0100 3|0110 ...
PERCONA-TOOLKIT 工具的安装与使用2
[root@server-mysql ~]# cd /usr/bin [root@server-mysql bin]# ls pt* pt-align pt-duplicate-key-checker ...
careercup-树与图 4.1
4.1 实现一个函数,检查二叉树是否平衡.在这个问题中,平衡树的定义如下:任意一个结点,其两颗子树的高度差不超过1. C++实现代码: #include<iostream> #includ ...
MySQL 权限？
一．权限表 mysql数据库中的3个权限表:user .db. host 权限表的存取过程是: 1)先从user表中的host. user. password这3个字段中判断连接的IP.用户名.密码是 ...
Free and Open Source Load-Balancing Software and Projects--转
http://www.inlab.de/articles/free-and-open-source-load-balancing-software-and-projects.html This ove ...
Android5.0常用颜色属性说明
在使用Eclipse的时代,我们很少去在style文件给整个应用或者Activity去设定颜色,那是因为即使设置也不会提升用户的视觉效果.但是材料设计号称让没有设计功底的人也能做出漂亮的App,那我们 ...
Java IO学习笔记
Java流的分类,一般可按以下方式分: 按方向分,分为输入流,输出流. 按类型分,分为字节流和字符流. 2.1字节流是通过字节来读取数据 2.2字符流是通过字符来读取数据按操作方式分,分为节点流和过 ...
zepto的scrollTo，实现锚点跳转
实现功能:点击右侧字母A,实现锚点跳转功能: 有同学可能说可以直接用锚点跳转实现,是的,锚点跳转可以实现这个功能,但是有一个问题,点击跳转后,再点击返回,返回的是上次跳转的结果,具体的原理就不用多说了 ...
c随机数的产生（续）
经过反复调试得出: srand((unsigned) time(0))函数提供的应该是程序启动的时间或某个固定时间,在一个程序中只需提供一次即可.rand()函数会自动记录处理经过反复调试得出: s ...

学习python网络数据采集笔记-1、2章

学习python网络数据采集笔记-1、2章的更多相关文章

随机推荐

热门专题