python爬虫11 | 这次，将带你爬取b站上的NBA形象大使蔡徐坤和他的球友们

在上一篇中

python爬虫10 | 网站维护人员：真的求求你们了，不要再来爬取了！！

小帅b给大家透露了我们这篇要说的牛逼利器

selenium + phantomjs

如果你看了

python爬虫09 | 上来，自己动！这就是 selenium 的牛逼之处

那么你应该知道 selenium 是什么了

它能做到自动操作

比如我们上次说的自动百度苍老师

但有时候

我们不想要让它打开浏览器去执行

能不能直接在代码里面运行呢

也就是说

有没有一个无形的浏览器呢

恩

phantomJS 就是

它是一个基于 WebKit 的浏览器引擎

可以做到无声无息的操作各种动态网站

比如 js，css选择器，dom操作的

所以对于市面上大多通过 js 渲染的动态网站

难以解析的网站

想要爬取的话

就会使用到

selenium + phantomjs

那么怎么玩呢

这次

小帅b就带领你

使用它们来爬取b站上的 蔡徐坤和他的球友 们

接下来就是

学习 python 的正确姿势

如果你还不知道蔡徐坤是谁

那么小帅b 在这里给你介绍几点

你将会体会到人家有多么牛逼

首先比吴京帅

其次是他的微博动不动就被转发上亿次，还被央视点名表扬

唱得了歌

还跳得了舞

打得了篮球，当过 NBA 形象大使

除此之外

还有诸多优点

在这里就不说了

相信你已经和我一样

已经被他的优秀所折服了

（蔡徐坤本蔡）

正因为如此优秀

所以 b 站上很多 up 主向他学习打篮球

那么话不多说

开始爬取b站上的 蔡徐坤和他的球友 们

首先来分析一下 b 站

打开

https://www.bilibili.com/

可以看到有一个搜索按钮

我们就输入「蔡徐坤篮球」

按一下搜索

跳出来另一个窗口

在这个页面可以看到

我们需要的数据有

名称

视频地址

描述

观看次数

弹幕数量

发布时间

待会我们就把这些数据都爬下来

分析完之后

就开始撸代码了

首先我们要拿到浏览器的对象

browser = webdriver.Chrome()

接着开始访问 b 站

  browser.get("https://www.bilibili.com/")

获取到b站首页的输入框和搜索按钮

 input = WAIT.until(EC.presence_of_element_located((By.CSS_SELECTOR, "#banner_link > div > div > form > input"))) submit = WAIT.until(EC.element_to_be_clickable((By.XPATH, '//*[@id="banner_link"]/div/div/form/button')))

在这里的

WAIT.until(EC.presence_of_element_located...

就是等到这个元素可操作的时候才会继续执行下一步

获取到输入框元素后输入「蔡徐坤篮球」

接着点击搜索

 input.send_keys('蔡徐坤 篮球') submit.click()

然而

不妙的事情发生了

b站弹出了一个登录框

正好挡住了我们要操作的搜索

那么就在搜索之前

点击一下首页刷新一下再输入吧

 # 被那个破登录遮住了index = WAIT.until(EC.element_to_be_clickable((By.CSS_SELECTOR, "#primary_menu > ul > li.home > a")))index.click()

这样登录框就不会出来了

（当然，你在这里也可以使用模拟登录，但这个，小帅b往后说）

ok..

浏览器自动点击搜索之后

这个时候会弹出一个新的窗口

这个窗口里的内容

就是我们要的搜索结果

所以我们要让我们当前的浏览器对象获取到当前的窗口

接着获取到第一页的所有数据

# 跳转到新的窗口print('跳转到新窗口')all_h = browser.window_handlesbrowser.switch_to.window(all_h[1])get_source()

我们还要获取总页数

因为每一页的内容

我们都是要抓取的

total = WAIT.until(EC.presence_of_element_located((By.CSS_SELECTOR, "#server-search-app > div.contain > div.body-contain > div > div.page-wrap > div > ul > li.page-item.last > button")))return int(total.text)

获取到总页数之后

我们就开始循环

for i in range(2,int(total+1)):     next_page(i)

如何获取下一页呢

当然是模拟点击「下一页按钮」的操作

我们获取「下一页按钮」的元素

然后点击

点击之后判断一下是否在我们当前的页数

然后获取数据

 print('获取下一页数据')next_btn = WAIT.until(EC.element_to_be_clickable((By.CSS_SELECTOR, '#server-search-app > div.contain > div.body-contain > div > div.page-wrap > div > ul > li.page-item.next > button')))next_btn.click()WAIT.until(EC.text_to_be_present_in_element((By.CSS_SELECTOR, '#server-search-app > div.contain > div.body-contain > div > div.page-wrap > div > ul > li.page-item.active > button'),str(page_num)))get_source()

有时候可能网速卡

在刷到某一页的时候数据加载不出来

可以来个异常捕获

刷新一下

再递归一下嘿嘿

    except TimeoutException:        browser.refresh()        return next_page(page_num)

获取资源很简单

我们已经用 selenium 跳转到我们要的页面了

那么就拿下当前页面的源码

然后用

python爬虫07 | 有了 BeautifulSoup ，妈妈再也不用担心我的正则表达式了

来解析一下

最后把数据放到 excel 中

WAIT.until(EC.presence_of_element_located((By.CSS_SELECTOR,'#server-search-app > div.contain > div.body-contain > div > div.result-wrap.clearfix')))html = browser.page_sourcesoup = BeautifulSoup(html,'lxml')save_to_excel(soup)

解析爬取


def save_to_excel(soup):    list = soup.find(class_='all-contain').find_all(class_='info')
    for item in list:        item_title = item.find('a').get('title')        item_link = item.find('a').get('href')        item_dec = item.find(class_='des hide').text        item_view = item.find(class_='so-icon watch-num').text        item_biubiu = item.find(class_='so-icon hide').text        item_date = item.find(class_='so-icon time').text
        print('爬取：' + item_title)
        global n
        sheet.write(n, 0, item_title)        sheet.write(n, 1, item_link)        sheet.write(n, 2, item_dec)        sheet.write(n, 3, item_view)        sheet.write(n, 4, item_biubiu)        sheet.write(n, 5, item_date)
        n = n + 1

最后别忘了关闭浏览器哦

 finally:        browser.close()

来运行一下项目吧

数据到手

哦~ 对了

不是说还有一个叫做 phantomjs 的么？

简单简单

接下来我们就利用它来打造一个无痕的浏览器

首先我们要下载phantomjs

你可以到

http://phantomjs.org/download.html

这里去下载

下载完之后你需要配置一下环境变量哦

接着回到我们的代码

将 Chrome 换成 phantomjs

browser = webdriver.PhantomJS()

这次我们再来运行项目

这次就是真正的不会打开任何有界面的浏览器了

看下我们抓到的数据

ok~

本篇的源代码和爬取到的数据已经放到公众号了

在「学习python的正确姿势」公众号发送 bb 获取

本篇完

近期文章

python爬虫10 | 网站维护人员：真的求求你们了，不要再来爬取了！！

python爬虫09 | 上来，自己动！这就是 selenium 的牛逼之处

扫一扫

学习 Python 没烦恼

python爬虫11 | 这次，将带你爬取b站上的NBA形象大使蔡徐坤和他的球友们的更多相关文章

Python爬虫教程-13-爬虫使用cookie爬取登录后的页面(人人网)（下）
Python爬虫教程-13-爬虫使用cookie爬取登录后的页面(下) 自动使用cookie的方法,告别手动拷贝cookie http模块包含一些关于cookie的模块,通过他们我们可以自动的使用co ...
[Python爬虫] 使用 Beautiful Soup 4 快速爬取所需的网页信息
[Python爬虫] 使用 Beautiful Soup 4 快速爬取所需的网页信息 2018-07-21 23:53:02 larger5 阅读数 4123更多分类专栏: 网络爬虫版权声明: ...
Python爬虫入门教程： 27270图片爬取
今天继续爬取一个网站,http://www.27270.com/ent/meinvtupian/ 这个网站具备反爬,so我们下载的代码有些地方处理的也不是很到位,大家重点学习思路,有啥建议可以在评论的 ...
Python爬虫小白入门（六）爬取披头士乐队历年专辑封面-网易云音乐
一.前言前文说过我的设计师小伙伴的设计需求,他想做一个披头士乐队历年专辑的瀑布图. 通过搜索,发现网易云音乐上有比较全的历年专辑信息加配图,图片质量还可以,虽然有大有小. 我的例子怎么都是爬取图片? ...
Python爬虫入门教程 5-100 27270图片爬取
27270图片----获取待爬取页面今天继续爬取一个网站,http://www.27270.com/ent/meinvtupian/ 这个网站具备反爬,so我们下载的代码有些地方处理的也不是很到位, ...
python爬虫学习之使用BeautifulSoup库爬取开奖网站信息-模块化
实例需求:运用python语言爬取http://kaijiang.zhcw.com/zhcw/html/ssq/list_1.html这个开奖网站所有的信息,并且保存为txt文件和excel文件. 实 ...
Python爬虫实战（2）：爬取京东商品列表
1,引言在上一篇<Python爬虫实战:爬取Drupal论坛帖子列表>,爬取了一个用Drupal做的论坛,是静态页面,抓取比较容易,即使直接解析html源文件都可以抓取到需要的内容.相反 ...
Python爬虫教程-12-爬虫使用cookie爬取登录后的页面(人人网)（上）
Python爬虫教程-12-爬虫使用cookie(上) 爬虫关于cookie和session,由于http协议无记忆性,比如说登录淘宝网站的浏览记录,下次打开是不能直接记忆下来的,后来就有了cooki ...
python爬虫（三）用request爬取拉勾网职位信息
request.Request类如果想要在请求的时候添加一个请求头(增加请求头的原因是,如果不加请求头,那么在我们爬取得时候,可能会被限制),那么就必须使用request.Request类来实现,比 ...

随机推荐

[Codeforces Round49F] Session in BSU
[题目链接] http://codeforces.com/contest/1027/problem/F [算法] 二分图匹配 [代码] #include<bits/stdc++.h> #p ...
洛谷 P3806 点分治模板
题目:https://www.luogu.org/problemnew/show/P3806 就是点分治~ 每次暴力枚举询问即可,复杂度是 nmlogn: 注意 tmp[0]=1 ! 代码如下: #i ...
THE DRUNK JAILER
http://poj.org/problem?id=1218 题意:门的状态有两种开或关,初始化为开,每次进行状态转换,第一次把门号是1的倍数的门状态转换,第二次把门号是2的倍数的门状态转换,.... ...
9.11NOIP模拟题
NOIP模拟赛 by thmyl 题目名称 superman market Lemon_Soda 可执行文件名 superman market Lemon_Soda 输入文件 superman.i ...
洛谷P1726 上白泽慧音（Tarjan强连通分量）
P1726 上白泽慧音题目描述在幻想乡,上白泽慧音是以知识渊博闻名的老师.春雪异变导致人间之里的很多道路都被大雪堵塞,使有的学生不能顺利地到达慧音所在的村庄.因此慧音决定换一个能够聚集最多人数的村 ...
[Swift通天遁地]三、手势与图表-(5)创建带有标题、图例、坐标轴的柱形图表
★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★➤微信公众号:山青咏芝(shanqingyongzhi)➤博客园地址:山青咏芝(https://www.cnblogs. ...
win快速搜索软件
Everything 与其他搜索工具的简单比较: Everything 是至今为止 X-Force 所使用过速度最快的文件搜索工具.与它相似的有异次元曾经介绍过一款很老的软件AVAFind,也非常的优 ...
【知识总结】扩展卢卡斯定理（exLucas）
扩展卢卡斯定理用于求如下式子(其中$p$不一定是质数): \[C_n^m\ mod\ p\] 我们将这个问题由总体到局部地分为三个层次解决. 层次一:原问题首先对$p$进行质因数分解: \[ ...
ACM_“IP地址”普及（进制转换）
“IP地址”普及 Time Limit: 2000/1000ms (Java/Others) Problem Description: 大家都知道最近广财大校园网提速,现在就跟大家普及一下简单的互联网 ...
Android源码下载方法
1. 下载 repo 工具 mkdir ~/bin PATH=~/bin:$PATH curl https://storage.googleapis.com/git-repo-downloads/re ...

python爬虫11 | 这次，将带你爬取b站上的NBA形象大使蔡徐坤和他的球友们

python爬虫11 | 这次，将带你爬取b站上的NBA形象大使蔡徐坤和他的球友们的更多相关文章

随机推荐

热门专题