爬虫学习06用selenium爬取空间

用selenium爬取空间

from selenium import webdriver

from lxml import etree

import time

pro = webdriver.Chrome(executable_path=r'C:\Users\古月蜀黍\Desktop\chromedriver_win32\chromedriver.exe')

pro.get(url='https://i.qq.com/?s_url=http%3A%2F%2Fuser.qzone.qq.com%2F1355144989%2Finfocenter')

# 获取iframe标签

pro.switch_to.frame('login_frame')

my_button = pro.find_element_by_id('switcher_plogin')

my_button.click()

# 输入账号密码

username = pro.find_element_by_id('u')

username.send_keys('1355144989')

password = pro.find_element_by_id('p')

password.send_keys('liqian521.1314')

login = pro.find_element_by_id('login_button')

login.click()

time.sleep(2)

js = 'window.scrollTo(0, document.body.scrollHeight)'

pro.execute_script(js)

time.sleep(2)

pro.execute_script(js)

time.sleep(2)

pro.execute_script(js)

time.sleep(2)

pro.execute_script(js)

time.sleep(2)

pro.execute_script(js)

time.sleep(2)

# 获取当前显示页面的源数据

page_text = pro.page_source

tree = etree.HTML(page_text)

text = tree.xpath('//div[@class="f-info"]//text()')

print(text)

pro.quit()

无界面浏览器PhantomJS

from selenium import webdriver

import time

pro = webdriver.PhantomJS(executable_path=r'C:\Users\古月蜀黍\Desktop\文件汇总\爬虫\phantomjs\bin\phantomjs.exe')

pro.get(url = 'https://www.baidu.com')

# 根据find系列的函数定位到指定标签

my_input = pro.find_element_by_id('kw')

# 向获取的标签中输入数据

time.sleep(2)

my_input.send_keys('胡涛')

pro.save_screenshot('./1.jpg')

my_button = pro.find_element_by_id('su')

# 给标签绑定点击事件

time.sleep(2)

my_button.click()

# 获取当前显示页面的源码

time.sleep(2)

pro.save_screenshot('./2.jpg')

page_text = pro.page_source

print(page_text)

# 退出页面

pro.quit()

谷歌无界面浏览器的配置

# 无界面浏览器的配置

from selenium.webdriver.chrome.options import Options

chrome_options = Options()

chrome_options.add_argument('--headless')

chrome_options.add_argument('--disable-gpu')

from selenium import webdriver

import time

pro = webdriver.Chrome(executable_path=r'C:\Users\古月蜀黍\Desktop\chromedriver_win32\chromedriver.exe',chrome_options=chrome_options)

pro.get('https://www.baidu.com')

# 根据find系列的函数定位到指定标签

my_input = pro.find_element_by_id('kw')

# 向获取的标签中输入数据

time.sleep(2)

my_input.send_keys('胡涛')

pro.save_screenshot('./111.png')

my_button = pro.find_element_by_id('su')

# 给标签绑定点击事件

time.sleep(2)

my_button.click()

# 获取当前显示页面的源码

time.sleep(2)

pro.save_screenshot('./222.png')

page_text = pro.page_source

print(page_text)

# 退出页面

pro.quit()

爬虫学习06用selenium爬取空间的更多相关文章

爬虫系列(十三) 用selenium爬取京东商品
这篇文章,我们将通过 selenium 模拟用户使用浏览器的行为,爬取京东商品信息,还是先放上最终的效果图: 1.网页分析 (1)初步分析原本博主打算写一个能够爬取所有商品信息的爬虫,可是在分析过程 ...
爬虫学习（二）--爬取360应用市场app信息
欢迎加入python学习交流群 667279387 爬虫学习爬虫学习(一)-爬取电影天堂下载链接爬虫学习(二)–爬取360应用市场app信息代码环境:windows10, python 3.5 ...
webcollector + selenium 爬取空间相册图片
package cn.hb.util; import java.io.File; import java.io.FileNotFoundException; import java.io.FileWr ...
Python爬虫学习三------requests+BeautifulSoup爬取简单网页
第一次第一次用MarkDown来写博客,先试试效果吧! 昨天2018俄罗斯世界杯拉开了大幕,作为一个伪球迷,当然也得为世界杯做出一点贡献啦. 于是今天就编写了一个爬虫程序将腾讯新闻下世界杯专题的相关新 ...
Python爬虫学习之使用beautifulsoup爬取招聘网站信息
菜鸟一只,也是在尝试并学习和摸索爬虫相关知识. 1.首先分析要爬取页面结构.可以看到一列搜索的结果,现在需要得到每一个链接,然后才能爬取对应页面. 关键代码思路如下: html = getHtml(& ...
Python爬虫学习（6）: 爬取MM图片
为了有趣我们今天就主要去爬取以下MM的图片,并将其按名保存在本地.要爬取的网站为: 大秀台模特网 1. 分析网站进入官网后我们发现有很多分类: 而我们要爬取的模特中的女模内容,点进入之后其网址为:h ...
selenium 爬取空间说说
package cn.hb.util; import java.io.File; import java.io.FileWriter; import java.io.IOException; impo ...
爬虫实战(二) 用Python爬取网易云歌单
最近,博主喜欢上了听歌,但是又苦于找不到好音乐,于是就打算到网易云的歌单中逛逛本着 "用技术改变生活" 的想法,于是便想着写一个爬虫爬取网易云的歌单,并按播放量自动进行排序这篇 ...
[Python爬虫] Selenium爬取新浪微博客户端用户信息、热点话题及评论 (上)
转载自:http://blog.csdn.net/eastmount/article/details/51231852 一. 文章介绍源码下载地址:http://download.csdn.net/ ...

随机推荐

vuex操作
import Vuex from 'vuex' //引入Vue.use(Vuex) //加载到Vue中//创建一个数据存储对象var store=new Vuex.Store({ //state可以当 ...
tp5Auth权限实现
原文地址:https://blog.csdn.net/qq_33257081/article/details/79137190 下面本人为大家讲解一下如何实现auth权限, 第一步,新建Auth.ph ...
【Linux】-NO.5.Linux.1.CentOS.1.001-【CentOS7 Foundation Configuration】-
1.0.0 Summary Tittle:[Linux]-NO.5.Linux.1.CentOS.1.001-[CentOS7 Foundation Configuration]- Style:Lin ...
PHP面试准备
框架:Laravel,Yii,Tp (1)纵向不同版本及框架本身特性 (2)横向对比,不同框架的优缺点面向对象编程: (1)面向对象的基本特征:封装,继承,多态 (2)设计模式:单例模式,工厂模式, ...
xmlns:dubbo 路径错误
It goes normal when change <beans xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" ...
js重定向跳转页面
重定向方式: 1> window.location ='www.baidu.com'; window.location='/'; window.location='/logout/'; ...
关于Sublime Text3的emmet插件和tab快捷键冲突问题
当使用Sublime text3时会遇到快捷键冲突的问题,其中就有安装Emmet之后,tab无法缩进了, 网上有些说看看Browse Packages目录下是否有PyV8插件安装,该插件一般情况下随E ...
笔记： CSS3实现背景渐变过渡
使用CSS3的人都知道背景background-image是可以线性渐变(linear-gradient)和径向渐变(radial-gradient),但是想要做到过渡动画,单纯的background ...
正则表达式中\b和\s有什么区别
字符串:abcsdsadas abc asdsadasdabcasdsa使用\sabc\s和\babc\b都能匹配中间的abc,这种方法不是重复了么,/s是匹配空格回车等得,/b网上教程说得不清楚什么 ...
JTable的模型
2018-11-04 23:15:21开始写模型类 import javax.swing.table.DefaultTableModel;//导入包 public class LocalTableM ...

爬虫学习06用selenium爬取空间

爬虫学习06用selenium爬取空间的更多相关文章

随机推荐

热门专题