selenium 模拟登陆豆瓣，爬取武林外传的短评

selenium 模拟登陆豆瓣，爬去武林外传的短评：

　　在最开始写爬虫的时候，抓取豆瓣评论，我们从F12里面是可以直接发现接口的，但是最近豆瓣更新，数据是JS异步加载的，所以没有找到合适的方法爬去，于是采用了selenium来模拟浏览器爬取。

　　豆瓣登陆也是改了样式，我们可以发现登陆页面是在另一个frame里面

所以代码如下：

# -*- coding:utf-8 -*-

# 导包

import time

from selenium import webdriver

from selenium.webdriver.common.keys import Keys

# 创建chrome参数对象

opt = webdriver.ChromeOptions()

# 把chrome设置成无界面模式，不论windows还是linux都可以，自动适配对应参数

opt.set_headless()

# 用的是谷歌浏览器

driver = webdriver.Chrome(options=opt)

driver=webdriver.Chrome()

# 登录豆瓣网

driver.get("http://www.douban.com/")

# 切换到登录框架中来

driver.switch_to.frame(driver.find_elements_by_tag_name("iframe")[0])

# 点击"密码登录"

bottom1 = driver.find_element_by_xpath('/html/body/div[1]/div[1]/ul[1]/li[2]')

bottom1.click()

# # 输入密码账号

input1 = driver.find_element_by_xpath('//*[@id="username"]')

input1.clear()

input1.send_keys("xxxxx")

input2 = driver.find_element_by_xpath('//*[@id="password"]')

input2.clear()

input2.send_keys("xxxxx")

# 登录

bottom = driver.find_element_by_class_name('account-form-field-submit ')

bottom.click()

　然后跳转到评论界面 https://movie.douban.com/subject/3882715/comments?sort=new_score

点击下一页发现url变化 https://movie.douban.com/subject/3882715/comments?start=20&limit=20&sort=new_score 所以我们观察到变化后可以直接写循环

获取用户的姓名

driver.find_element_by_xpath('//*[@id="comments"]/div[{}]/div[2]/h3/span[2]/a'.format(str(i))).text
用户的评论

driver.find_element_by_xpath('//*[@id="comments"]/div[{}]/div[2]/p/span'.format(str(i))).text
然后我们想要知道用户的居住地：

    #获取用户的url然后点击url获取居住地

             userInfo=driver.find_element_by_xpath('//*[@id="comments"]/div[{}]/div[2]/h3/span[2]/a'.format(str(i))).get_attribute('href')

             driver.get(userInfo)

             try:

                 userLocation = driver.find_element_by_xpath('//*[@id="profile"]/div/div[2]/div[1]/div/a').text

                 print("用户的居之地是:  ")

                 print(userLocation)

             except Exception as e:

                 print(e)

这里要注意有些用户没有写居住地，所以必须要捕获异常

完整代码

# -*- coding:utf-8 -*-

# 导包

import time

from selenium import webdriver

from selenium.webdriver.common.keys import Keys

class doubanwlwz_spider():

    def __init__(self):

        # 创建chrome参数对象

        opt = webdriver.ChromeOptions()

        # 把chrome设置成无界面模式，不论windows还是linux都可以，自动适配对应参数

        opt.set_headless()

        # 用的是谷歌浏览器

        driver = webdriver.Chrome(options=opt)

        driver=webdriver.Chrome()

        self.getInfo(driver)

    def getInfo(self,driver):

    # 切换到登录框架中来

    # 登录豆瓣网

        driver = driver

        driver.get("http://www.douban.com/")

        driver.switch_to.frame(driver.find_elements_by_tag_name("iframe")[0])

        # 点击"密码登录"

        bottom1 = driver.find_element_by_xpath('/html/body/div[1]/div[1]/ul[1]/li[2]')

        bottom1.click()

        # # 输入密码账号

        input1 = driver.find_element_by_xpath('//*[@id="username"]')

        input1.clear()

        input1.send_keys("ZZZ2")

        input2 = driver.find_element_by_xpath('//*[@id="password"]')

        input2.clear()

        input2.send_keys("ZZZ")

        # 登录

        bottom = driver.find_element_by_class_name('account-form-field-submit ')

        bottom.click()

        time.sleep(1)

        driver.get('https://movie.douban.com/subject/3882715/comments?start=300&limit=20&sort=new_score')

        search_window = driver.current_window_handle

        # pageSource=driver.page_source

        # print(pageSource)

        #获取用户的名字 每页20个

        for i in range(1,21):

            print("用户的评论是:  ")

            print(driver.find_element_by_xpath('//*[@id="comments"]/div[{}]/div[2]/h3/span[2]/a'.format(str(i))).text)

     #  获取用户的评论

        # print(driver.find_element_by_xpath('//*[@id="comments"]/div[1]/div[2]/p/span').text)

            print("用户的名字是: ")

            print(driver.find_element_by_xpath('//*[@id="comments"]/div[{}]/div[2]/p/span'.format(str(i))).text)

    #获取用户的url然后点击url获取居住地

            userInfo=driver.find_element_by_xpath('//*[@id="comments"]/div[{}]/div[2]/h3/span[2]/a'.format(str(i))).get_attribute('href')

            driver.get(userInfo)

            try:

                userLocation = driver.find_element_by_xpath('//*[@id="profile"]/div/div[2]/div[1]/div/a').text

                print("用户的居之地是:  ")

                print(userLocation)

            except Exception as e:

                print(e)

            driver.back()

pageNum=int(input("请输入您想要爬去的步行街的页数： "))

AAA=doubanwlwz_spider()

selenium 模拟登陆豆瓣，爬取武林外传的短评的更多相关文章

模拟登陆并爬取Github
因为崔前辈给出的代码运行有误,略作修改和简化了. 书上例题,不做介绍. import requests from lxml import etree class Login(object): def ...
模拟登陆+数据爬取 (python+selenuim)
以下代码是用来爬取LinkedIn网站一些学者的经历的,仅供参考,注意:不要一次性大量爬取会被封号,不要问我为什么知道 #-*- coding:utf-8 -*- from selenium impo ...
Scrapy模拟登陆豆瓣抓取数据
scrapy startproject douban 其中douban是我们的项目名称 2创建爬虫文件进入到douban 然后创建爬虫文件 scrapy genspider dou douban. ...
Python爬虫(二十二)_selenium案例：模拟登陆豆瓣
本篇博客主要用于介绍如何使用selenium+phantomJS模拟登陆豆瓣,没有考虑验证码的问题,更多内容,请参考:Python学习指南 #-*- coding:utf-8 -*- from sel ...
使用Selenium&PhantomJS的方式爬取代理
前面已经爬取了代理,今天我们使用Selenium&PhantomJS的方式爬取快代理 :快代理 - 高速http代理ip每天更新. 首先分析一下快代理,如下使用谷歌浏览器,检查,发现每个代理 ...
【转】详解抓取网站，模拟登陆，抓取动态网页的原理和实现（Python，C#等）
转自:http://www.crifan.com/files/doc/docbook/web_scrape_emulate_login/release/html/web_scrape_emulate_ ...
python模拟登陆豆瓣——简单方法
学爬虫有一段时间了,前面没有总结又重装了系统,导致之前的代码和思考都没了..所以还是要及时整理总结备份.下面记录我模拟登陆豆瓣的方法,方法一登上了豆瓣,方法二重定向到了豆瓣中“我的喜欢”列表,获取了第 ...
Selenium模拟登陆百度贴吧
Selenium模拟登陆百度贴吧 from selenium import webdriver from time import sleep from selenium.webdriver.commo ...
通过scrapy，从模拟登录开始爬取知乎的问答数据
这篇文章将讲解如何爬取知乎上面的问答数据. 首先,我们需要知道,想要爬取知乎上面的数据,第一步肯定是登录,所以我们先介绍一下模拟登录: 先说一下我的思路: 1.首先我们需要控制登录的入口,重写star ...

随机推荐

前端性能之Chrome的Waterfall
浏览器根据HTML中外连资源出现的顺序,依次放入队列(队列),然后根据优先级确定向服务器获取资源的顺序.同优先级的资源根据HTML中出现的先后顺序来向服务器获取资源. 瀑布中各项内容的含义: 排队: ...
css实现左侧固定宽度，右侧宽度自适应
#centerDIV { height: 550px; width: 100%; } #mainDIV { height: 100%; border: 1px solid #F00; margin-l ...
Mongdb、Mysql、Redis、Memcache场景
个人的一点理解,不确定一定准确,有不对处欢迎指出全部数据使用mysql存储,确保安全.准确和持久大数据.非安全性数据使用Mongodb 小数据.结构丰富.持久化(主从数据)使用redis 小数据. ...
SQL SERVER 数据库安装完毕之后如何修改数据库实例排序规则
背景最近我们在azure portal 上开了几台英文版的数据库服务器,因默认是开启就安装好对应的数据库,所以存在一个实例排序规则的问题,需把整个实例都调整成Chinese_PRC_CI_AS,避免 ...
js 视差滚动记录备份
<!doctype html> <html> <head> <meta charset="utf-8"> <title> ...
微信小程序页面左右滑动事件
微信小程序提供了页面的上下滚动的事件,在页面的js文件中, page({ onPageScroll(e) { console.log(e.scrollTop) } }) 但是不是滑动事件,滑动事件需要 ...
【AMAD】dogpile.cache -- 一个Python缓存API，提供一套通用的接口来适配不同的缓存后端
简介动机作用用法个人评分简介 Dogpile1由两套子系统组成,其中一个是基于另一个来构建的. dogpile提供了dogpile lock的概念,这个控制结构让一个线程可以被选为一些资源的 ...
Leetcode之动态规划（DP）专题-413. 等差数列划分（Arithmetic Slices）
Leetcode之动态规划(DP)专题-413. 等差数列划分(Arithmetic Slices) 如果一个数列至少有三个元素,并且任意两个相邻元素之差相同,则称该数列为等差数列. 例如,以下数列为 ...
应用安全 - 工具 | 平台 - gitlist - 漏洞 - 汇总
简介用途 Github仓库查看器 CVE-2014-4511 Date 类型远程代码执行影响范围 gitlist 0.4.0及之前版本
【CUDA开发】 CUDA Thrust 规约求和
1. 使用 Thrust Thrust 是一个开源的 C++ 库,用于开发高性能并行应用程序,以 C++ 标准模板库为蓝本实现. 官方文档见这里:CUDA Thrust /* ... */ float ...

selenium 模拟登陆豆瓣，爬取武林外传的短评

selenium 模拟登陆豆瓣，爬取武林外传的短评的更多相关文章

随机推荐

热门专题