作为一个男人 在最高光的时刻 就是说出那句 之后 还不会被人打 ... 虽然在现实生活中你无法这样 但是在这里 就让你体验一番 那种呼风唤雨的感觉 我们之前在爬取某些网站的时候 使用到了一些 python 的请求库 模拟浏览器的请求 我们需要抓包啥的 能不能不这样 可不可以就写几行代码 让它自己去打开浏览器 自己去请求我们要爬取的网站 自己去模拟我们的一些搜索 等等 反正就是 老子躺着,让它自己动 躺好 让 selenium 满足你的要求 怎么玩呢? 那么接下里就是 学习 python 的正确姿…
上一节中我们学习了selenium,用python来操作浏览器,在做网页自动化测试的时候最好不过了 .如果我们来做爬虫用一个带界面的浏览器似乎不太好吧,那可咋办呢?别着急,下来我们要介绍的就是一款不带界面的浏览器--PhantomJS.其是一个无界面的,可脚本编程的WebKit浏览器引擎,支持多种web 标准:DOM 操作,CSS选择器,JSON,Canvas 以及SVG. 这里可能会有人问:为什么要用浏览器来抓取页面数据,不用之前我们之前直接通过Urllib获取网页然后分析呢? 这是因为我们通…
程序说明:抓取斗鱼直播平台的直播房间号及其观众人数,最后统计出某一时刻的总直播人数和总观众人数. 过程分析: 一.进入斗鱼首页http://www.douyu.com/directory/all 进入平台首页,来到页面底部点击下一页,发现url地址没有发生变化,这样的话再使用urllib2发送请求将获取不到完整数据,这时我们可以使用selenium和PhantomJS来模拟浏览器点击下一页,这样就可以获取完整响应数据了. 首先检查下一页元素,如下: <a href="#" cla…
官方学习文档:http://selenium-python.readthedocs.io/api.html 一.什么是Selenium? 答:自动化测试工具,支持多种浏览器.用来驱动浏览器,发出指令让浏览器做出各种动作,如下拉,跳转等. 爬虫中主要用来解决JavaScript渲染的问题. 注:如果用requests,urllib这些库无法正常获取网页内容,可以用Selenium来完成渲染 二.安装 pip3 install selenium 三.基本使用 from selenium import…
说到爬虫,第一时间可能就会想到网易云音乐的评论.网易云音乐评论里藏了许多宝藏,那么让我们一起学习如何用 python 挖宝藏吧! 既然是宝藏,肯定是用要用钥匙加密的.打开 Chrome 分析 Headers 如下. 这参数看起来挺复杂的,我们就不用 requests 去调用这个链接了. 这次使用的是 selenium ! 一个浏览器自动化测试框架!通过它可以模拟手动操作浏览器! 为此我们要准备好驱动器 chromedriver 和 chrome 浏览器. chromedriver 可以在淘宝镜像…
1 简介以及安装 Selenium 是什么?一句话,自动化测试工具.它支持各种浏览器,包括 Chrome,Safari,Firefox 等主流界面式浏览器,如果你在这些浏览器里面安装一个 Selenium 的插件,那么便可以方便地实现Web界面的测试.换句话说叫 Selenium 支持这些浏览器驱动.Selenium支持多种语言开发,比如 Java,C,Ruby等等,有 Python 吗?那是必须的!哦这可真是天大的好消息啊. Selenium 2,又名 WebDriver,它的主要新功能是集成…
ACG-wallpaper 初学python,之前想抓取P站的一些图片来着,然后发现acg12这里有专门的壁纸榜单,就写了个抓取壁纸作为mac桌面壁纸玩玩. 功能:抓取acg12壁纸榜单的动漫壁纸,并定时随机设定为桌面壁纸 v1: 暂时完成两个脚本并且分步执行:1.生成acg12文件夹并抓取定额壁纸到本地.2.读取壁纸文件夹,随机选择一张壁纸调用appleScript设置桌面壁纸. spider.py 完成图片抓取功能,由于acg12中的url格式规律很好找,只需要找到图片存放的url规律就行,…
一.介绍 本例子用Selenium +phantomjs爬取节目(http://tv.cctv.com/epg/index.shtml?date=2018-03-25)的信息 二.网站信息 三.数据抓取 针对上面的网站信息,来进行抓取 1.首先抓取信息列表 抓取代码:Elements = doc('div[class="epglist"]').find('ul') 2.节目名称,链接,时间 title = subEle('div[class="innerbox"]'…
一.介绍 本例子用Selenium +phantomjs爬取中文网站总排名(http://top.chinaz.com/all/index.html,http://top.chinaz.com/hangye/index.html)的信息 二.网站信息 三.数据抓取 针对上面的网站信息,来进行抓取 1.首先抓取信息列表 抓取代码:Elements = doc('li[class^="clearfix"]')  类似信息 2.网站名称,域名,网址 netElement = element.…
一.介绍 本例子用Selenium +phantomjs爬取智能电视网站(http://www.tvhome.com/news/)的资讯信息,输入给定关键字抓取图片信息. 给定关键字:数字:融合:电视 二.网站信息 三.数据抓取 针对上面的网站信息,来进行抓取 1.首先抓取信息列表 抓取代码:Elements = doc('div[class="main_left fl"]').find('div[class="content"]').find('ul').find…