用webdriver模仿浏览器爬取豆瓣python书单

其中运用到os 模块作用是生成文件夹存储爬取的信息

etree 用于xpath解析内容详细代码如下可用我的上一篇博客存取到excel当中

import os

import time

from selenium import webdriver

from lxml import etree

#创建文件夹  没有指定的文件夹则创建 有则跳过

root_dir = 'douban/img'

if not os.path.exists(root_dir):

    os.mkdir(root_dir)

#生成浏览器对象

driver = webdriver.PhantomJS()

#抓取页面函数

def spider(page):

    base_url = 'https://book.douban.com/subject_search?search_text=python&cat=1001&start=%s'%(page*15)

    #用浏览器的get获取上述网址的网页

    driver.get(base_url)

    #阻塞四秒 让页面完全显示出来

    time.sleep(4)

    #命名文件名称和存储文件路径

    filename = root_dir + '/%s.png'%(page)

    #截屏并保存 这只是图片 在指定路径查找看是否有图片

    driver.save_screenshot(filename)

    #打印页面内容  可以打印出页面元素

    # print(driver.page_source)

    #在解析函数中解析页面元素

    content_parser(driver.page_source)

#解析函数

def content_parser(content):

    #我们这一次用xpath来解析  首先把上述内容生成树结构

    tree = etree.HTML(content)

    #在全部内容中 查找class为item-root的div 生成一个书列表

    books = tree.xpath('//div[@class="item-root"]')

    #遍历列表 获取每本书的信息

    for book in books:

        #拿取书皮图片信息

        book_src = book.xpath('./a/img/@src')

        if book_src != []:

            book_src = book_src[0]

        #书名

        book_name = book.xpath('.//div[@class="title"]/a')

        if book_name != []:

            book_name = book_name[0].text

        #书籍详细信息链接href

        book_href = book.xpath('.//div[@class="title"]/a/@href')

        if book_href != []:

            book_href = book_href[0]

        #评分

        book_rating = book.xpath('.//span[@class="rating_nums"]')

        if book_rating != []:

            book_rating = book_rating[0].text

        #细节 作者什么的

        book_detail = book.xpath('.//div[@class="meta abstract"]')

        if book_detail != []:

            book_detail = book_detail[0].text

        #打印需要一些时间 需要耐心等待哦

        print(book_src,book_name,book_href,book_rating,book_detail)

#主进程

if __name__ == '__main__':

    #打印10个页面信息 每个页面信息15本书

    for i in range(10):

        spider(i)

'''

book:

<div class="item-root">

    <a href="https://book.douban.com/subject/26829016/" data-moreurl="onclick=&quot;

        moreurl(this,{i:'0',query:'python',subject_id:'26829016',from:'book_subject_search',

        cat_id:'1001'})&quot;" class="cover-link">

        <img src="https://img3.doubanio.com/lpic/s28891775.jpg"

        alt="Python编程：从入门到实践 : 从入门到实践" class="cover" />

    </a>

    <div class="detail">

        <div class="title">

            <a href="https://book.douban.com/subject/26829016/" data-moreurl="onclick=&quot;

            moreurl(this,{i:'0',query:'python',subject_id:'26829016',from:'book_subject_search',

            cat_id:'1001'})&quot;" class="title-text">Python编程：从入门到实践 : 从入门到实践</a>

        </div>

        <div class="rating sc-bwzfXH hxNRHc">

            <span class="allstar45 rating-stars"></span>

            <span class="rating_nums">9.0</span>

            <span class="pl">(457人评价)</span>

        </div>

        <div class="meta abstract">

            [美]埃里克&middot;马瑟斯 / 袁国忠 / 人民邮电出版社 / 2016-7-1 / CNY 89.00

        </div>

        <div class="meta abstract_2"></div>

    </div>

</div>

'''

用webdriver模仿浏览器爬取豆瓣python书单的更多相关文章

Python开发爬虫之静态网页抓取篇：爬取“豆瓣电影 Top 250”电影数据
所谓静态页面是指纯粹的HTML格式的页面,这样的页面在浏览器中展示的内容都在HTML源码中. 目标:爬取豆瓣电影TOP250的所有电影名称,网址为:https://movie.douban.com/t ...
利用Python爬取豆瓣电影
目标:使用Python爬取豆瓣电影并保存MongoDB数据库中我们先来看一下通过浏览器的方式来筛选某些特定的电影: 我们把URL来复制出来分析分析: https://movie.douban.com ...
python爬取豆瓣电影信息数据
题外话+ 大家好啊,最近自己在做一个属于自己的博客网站(准备辞职回家养老了,明年再战)在家里琐事也很多, 加上自己一回到家就懒了(主要是家里冷啊! 广东十几度,老家几度,躲在被窝瑟瑟发抖,) 由于 ...
python 爬取豆瓣电影短评并wordcloud生成词云图
最近学到数据可视化到了词云图,正好学到爬虫,各种爬网站 [实验名称] 爬取豆瓣电影<千与千寻>的评论并生成词云 1. 利用爬虫获得电影评论的文本数据 2. 处理文本数据生成词云图第一步, ...
Python爬虫小白入门（七）爬取豆瓣音乐top250
抓取目标: 豆瓣音乐top250的歌名.作者(专辑).评分和歌曲链接使用工具: requests + lxml + xpath. 我认为这种工具组合是最适合初学者的,requests比pytho ...
python定时器爬取豆瓣音乐Top榜歌名
python定时器爬取豆瓣音乐Top榜歌名作者:vpoet mail:vpoet_sir@163.com 注:这些小demo都是前段时间为了学python写的,现在贴出来纯粹是为了和大家分享一下 # ...
Python爬取豆瓣音乐存储MongoDB数据库(Python爬虫实战1)
1. 爬虫设计的技术 1)数据获取,通过http获取网站的数据,如urllib,urllib2,requests等模块: 2)数据提取,将web站点所获取的数据进行处理,获取所需要的数据,常使用的技 ...
Python爬虫实例：爬取豆瓣Top250
入门第一个爬虫一般都是爬这个,实在是太简单.用了 requests 和 bs4 库. 1.检查网页元素,提取所需要的信息并保存.这个用 bs4 就可以,前面的文章中已经有详细的用法阐述. 2.找到下一 ...
Python爬取豆瓣指定书籍的短评
Python爬取豆瓣指定书籍的短评 #!/usr/bin/python # coding=utf-8 import re import sys import time import random im ...

随机推荐

C# 引用类型的深度拷贝帮助类
using System; using System.Collections.Generic; using System.IO; using System.Linq; using System.Lin ...
06.Linux-RedHat系统网卡服务连不上活跃连接路径变化
问题:在新装的系统中,重启网卡的时候出现如下报错 [root@localhost ~]# service network restart 正在关闭接口 eth0: 设备状态:3 (断开连接) [确定] ...
初学Java 数值运算符
import java.util.Scanner; public class DisplayTime { public static void main(String[] args) { Scanne ...
cookie和session的联系与区别
Cookie 当你在浏览网站时,WEB服务器会先送一小小的资料放在你的计算机上,Cookie会帮你在网站上所打的文字或是一些选择都记录下来.当你下次再光临同一个网站时,WEB服务器会先看看有没有它上次 ...
[USACO06FEB]摊位预订Stall Reservations（贪心）
[USACO06FEB]摊位预订Stall Reservations 题目描述 Oh those picky N (1 <= N <= 50,000) cows! They are so ...
Sass-注释
注释对于一名程序员来说,是极其重要,良好的注释能帮助自己或者别人阅读源码.在 Sass 中注释有两种方式,我暂且将其命名为: 1.类似 CSS 的注释方式,使用 ”/* ”开头,结属使用 ”*/ ”2 ...
关系型数据库---MySQL---行锁
1.概述 1.1 InnoDB存储引擎提供了行锁: 1.2 案例 CREATE TABLE `account` ( `id` int(11) NOT NULL AUTO_INCREMENT, `n ...
报错——userdel: user hhh is currently used by process 9218
报错 userdel: user hhh is currently used by process 9218 [root@centos71 ~]# useradd hhh [root@centos71 ...
webpack对icon-font图片的处理
一.对图片的处理安装url-loader 然后再loaderli配置这样会把图片打包成base64格式 { test: /\.(gif|png|jpg)\??.*$/, loader: 'url-l ...
【Dart学习】--之Runes与Symbols相关方法总结
一,Runes 在Dart中,Runes代表字符串的UTF-32字符集, 另一种Strings Unicode为每一个字符.标点符号.表情符号等都定义了一个唯一的数值由于Dart字符串是UTF-1 ...

用webdriver模仿浏览器 爬取豆瓣python书单

用webdriver模仿浏览器 爬取豆瓣python书单的更多相关文章

随机推荐

热门专题

用webdriver模仿浏览器爬取豆瓣python书单

用webdriver模仿浏览器爬取豆瓣python书单的更多相关文章