python 页面信息抓取

yfceshi 2024-08-30 10:27:01 原文

1. 特点

　　在python 解析html这篇文章中已经做了初步的介绍，接下来再坐进一步的说明。python抓取页面信息有下面两个特点：

　　

依赖于HTML的架构。
微小的变化可能会导致抓取失败，这取决于你编码的技巧。

2. 抓取演示样例

　　首先看一下百度视频网页的源码，大致浏览下，选定要抓取的网页元素。

　　

　　

　　如果我们要对div标签id为focusCarouselList里的相关内容进行提取。

首先进入python命令行环境，先依照下面代码打开网页并读取内容。

　　

>>>

>>> import urllib

>>> from bs4 import BeautifulSoup

>>>

>>> httpRespone = urllib.urlopen(“http://video.baidu.com“)

>>>

>>> httpRespone.code

200

>>>

　　将页面信息读入到html的一个变量中：html = httpRespone.read()。

　　使用BeautifulSoup解析这个页面：bs = BeautifulSoup(html,"lxml")。

　　查找id为ocusCarouselList的div标签：focusList = bs.find('div',id='focusCarouselList')。

　　

　　

　　

　　在focusList中查找这一div中全部的超链接：allLinks = focusList.find_all('a')。

　　可用allLinks[0]直接訪问第一个链接的内容：

　　

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast" alt="link0" title="">

　　

　　如果要在这些超链接中查找标题为“协警押送嫌犯遭其同伙突击”，可用下面代码：

　　videoLink1 = bs.find('a',{'title':'协警押送嫌犯遭其同伙突击'})

　　

　　

　　videoLink1[‘href’]能够直接获取到链接的地址。

　　

　　查找全部图片的标签：imgLinks = focusList.find_all('img')。

　　获取某个图片链接的源地址：imgLinks[0]['src']

　　

python 页面信息抓取的更多相关文章

网易新闻页面信息抓取（htmlagilitypack搭配scrapysharp）
转自原文网易新闻页面信息抓取(htmlagilitypack搭配scrapysharp) 最近在弄网页爬虫这方面的,上网看到关于htmlagilitypack搭配scrapysharp的文章,于是决 ...
爬虫技术 -- 进阶学习（十）网易新闻页面信息抓取（htmlagilitypack搭配scrapysharp）
最近在弄网页爬虫这方面的,上网看到关于htmlagilitypack搭配scrapysharp的文章,于是决定试一试~ 于是到https://www.nuget.org/packages/Scrapy ...
网易新闻页面信息抓取 -- htmlagilitypack搭配scrapysharp
最近在弄网页爬虫这方面的,上网看到关于htmlagilitypack搭配scrapysharp的文章,于是决定试一试~ 于是到https://www.nuget.org/packages/Scrapy ...
Python学习之静态页面数据抓取
1 页面信息抓取定义getPage函数,根据传入的页码get到整个页面的html内容 getContent函数,通过正则匹配把页面中的表格部分的html内容取出最后定义getData函数,同样是通 ...
Python爬虫实战---抓取图书馆借阅信息
Python爬虫实战---抓取图书馆借阅信息原创作品,引用请表明出处:Python爬虫实战---抓取图书馆借阅信息前段时间在图书馆借了很多书,借得多了就容易忘记每本书的应还日期,老是担心自己会违约 ...
Ajax异步信息抓取方式
淘女郎模特信息抓取教程源码地址: cnsimo/mmtao 网址:https://0x9.me/xrh6z 判断一个页面是不是Ajax加载的方法: 查看网页源代码,查找网页中加载的数据信息,如果 ...
如何利用Python网络爬虫抓取微信朋友圈的动态（上）
今天小编给大家分享一下如何利用Python网络爬虫抓取微信朋友圈的动态信息,实际上如果单独的去爬取朋友圈的话,难度会非常大,因为微信没有提供向网易云音乐这样的API接口,所以很容易找不到门.不过不要慌 ...
如何利用Python网络爬虫抓取微信好友数量以及微信好友的男女比例
前几天给大家分享了利用Python网络爬虫抓取微信朋友圈的动态(上)和利用Python网络爬虫爬取微信朋友圈动态——附代码(下),并且对抓取到的数据进行了Python词云和wordart可视化,感兴趣 ...
Python 3.6 抓取微博m站数据
Python 3.6 抓取微博m站数据 2019.05.01 更新内容 containerid 可以通过 "107603" + user_id 组装得到,无需请求个人信息获取: 优 ...

随机推荐

SQL按多个字段排序时的实现规则
1.在使用SQL中的ORDER BY按照表中的多个列对表做排序是,会按照第一个列的排序条件作为排序基准,当第一个列的值都相同时,才会按照后面的列的排序条件作为排序基准: 案例如下: 图一和图二展示的是 ...
django自带的orm增删改
# 转载请留言联系模型管理器模型管理器:objects属性每个模型类默认都有一个叫 objects 的类属性,它由django自动生成我们把 objects 称为模型管理器,其类型为: dj ...
微信支付http://www.cnblogs.com/True_to_me/p/3565039.html
公众号支付有2种支付方式: JS API 支付:是指用户打开图文消息或者扫描二维码,在微信内置浏览器打开网页进行的支付.商户网页前端通过使用微信提供的 JS API,调用微信支付模块.这种方式,适合需 ...
学习apache commons lang3的源代码（2）：RandomStringUtils
本文,主要是分析类;RandomStringUtils. 下面这个方法的:count:表示要生成的数量(比如4个字符组成的字符串等) start,end,表示限定的范围,比如生成ascii码的随机等. ...
实例解析嵌套的JSON格式数据
关于JSON数据格式的基本知识和概念,参看: http://www.cnblogs.com/zouzf/archive/2012/03/31/2426646.html <span style=& ...
Python 进阶之 yield
.转载自:https://www.ibm.com/developerworks/cn/opensource/os-cn-python-yield/ Python yield 使用浅析: 您可能听说过, ...
洛谷——P1604 B进制星球
P1604 B进制星球题目背景进制题目,而且还是个计算器~~ 题目描述话说有一天,小Z乘坐宇宙飞船,飞到一个美丽的星球.因为历史的原因,科技在这个美丽的星球上并不很发达,星球上人们普遍采用B(2 ...
谜题22：URL的愚弄
本谜题利用了Java编程语言中一个很少被人了解的特性.请考虑下面的程序将会做些什么? public class BrowserTest { public static void main(String ...
JavaScript函数中的参数（arguments）
arguments argument是JavaScript中的一个关键字,用于指向调用者传入的所有参数. function example(x){ alert(x); alert(arguments. ...
【分块】bzoj1798 [Ahoi2009]Seq 维护序列seq
分块,打标记,维护两个标记:乘的和加的. 每次区间乘的时候,对乘标记和加标记都乘上那个值. 每次区间加的时候对加标记加上那个值. (ax+b)*v=axv+bv.开 long ...