python爬虫1——获取网站源代码(豆瓣图书top250信息)

# -*- coding: utf-8 -*-

import requests

import re

import sys

reload(sys)

sys.setdefaultencoding('utf-8')

class Spider(object):

    def __init__(self):

        print('开始爬取豆瓣图书top250的内容。。。。。。')

    # 传入url，返回网页源代码

    def getSourceCode(self, url):

        html = requests.get(url)

        return html.text

    # 从源代码中提取出我们需要的内容块：{书名、作者出版社等、评分、评价人数}。

    def getEveryBookContent(self, sourceCode):

        everyBookContent = re.findall('<table width="100%">(.*?)</table>', sourceCode, re.S)

        # everyBookContent = re.findall('<div class="pl2">(.*?)</div>(.*?)<p class="pl">(.*?)</p>', sourceCode, re.S)

        return everyBookContent

    # 从内容块中提取出数据

    def getBookInfo(self, eachBookContent):

        bookInfo = {}

        # bookInfo['title'] = re.subn('( |\n|<br/>|</?span.*?>)', "", re.search('<a href=.*?>(.*?)</a>', eachBookContent, re.S).group(1))[0]

        bookInfo['title'] = re.sub('( |\n|<br/>|</?span.*?>)', "", re.search('<a href=.*?>(.*?)</a>', eachBookContent, re.S).group(1))

        bookInfo['author'] = re.search('<p class="pl">(.*?)</p>', eachBookContent, re.S).group(1)

        bookInfo['discussNum'] = re.sub('( |\n|<br/>)', "", re.search('<span class="pl">\((.*?)\)</span>', eachBookContent, re.S).group(1))

        bookInfo['score'] = re.search('<span class="rating_nums">(.*?)</span>', eachBookContent, re.S).group(1)

        return bookInfo

    # 将结果保存到文件

    def saveBookInfo(self, bookList):

        f = open("bookList.txt", "a")

        for each in bookList:

            f.writelines('书  名:\t {}\n'.format(each['title']))

            f.writelines('作  者:\t {}\n'.format(each['author']))

            f.writelines('评论数:\t {}\n'.format(each['discussNum']))

            f.writelines('评  分:\t {}\n\n'.format(each['score']))

        f.close()

    def start(self, url):

        sourceCode = self.getSourceCode(url)

        everyBookContent = self.getEveryBookContent(sourceCode)

        bookList = []

        for each in everyBookContent:

            bookList.append(self.getBookInfo(each))

        self.saveBookInfo(bookList)

if __name__ == '__main__':

    douban = Spider()

    url = 'http://book.douban.com/top250?start=0'

    i = 0

    while i <= 225:

        url = 'http://book.douban.com/top250?start={}'.format(i)

        douban.start(url)

        i += 25

python爬虫1——获取网站源代码(豆瓣图书top250信息)的更多相关文章

【Python数据分析】Python3操作Excel-以豆瓣图书Top250为例
本文利用Python3爬虫抓取豆瓣图书Top250,并利用xlwt模块将其存储至excel文件,图片下载到相应目录.旨在进行更多的爬虫实践练习以及模块学习. 工具 1.Python 3.5 2.Bea ...
Python 2.7_利用xpath语法爬取豆瓣图书top250信息_20170129
大年初二,忙完家里一些事,顺带有人交流爬取豆瓣图书top250 1.构造urls列表 urls=['https://book.douban.com/top250?start={}'.format(st ...
Python爬虫入门：爬取豆瓣电影TOP250
一个很简单的爬虫. 从这里学习的,解释的挺好的:https://xlzd.me/2015/12/16/python-crawler-03 分享写这个代码用到了的学习的链接: BeautifulSoup ...
Python 2.7获取网站源代码的几种方式_20160924
#coding:utf-8 import urllib2,cookielib if __name__ == '__main__': root_url='https://www.baidu.com/' ...
【Python数据分析】Python3多线程并发网络爬虫-以豆瓣图书Top250为例
基于上两篇文章的工作 [Python数据分析]Python3操作Excel-以豆瓣图书Top250为例 [Python数据分析]Python3操作Excel(二) 一些问题的解决与优化已经正确地实现 ...
Python爬虫-爬取豆瓣图书Top250
豆瓣网站很人性化,对于新手爬虫比较友好,没有如果调低爬取频率,不用担心会被封 IP.但也不要太频繁爬取. 涉及知识点:requests.html.xpath.csv 一.准备工作需要安装reques ...
python爬虫之小说网站--下载小说(正则表达式)
python爬虫之小说网站--下载小说(正则表达式) 思路: 1.找到要下载的小说首页,打开网页源代码进行分析(例:https://www.kanunu8.com/files/old/2011/244 ...
python爬虫之天气预报网站--查看最近(15天)的天气信息(正则表达式)
python爬虫之天气预报网站--查看最近(15天)的天气信息(正则表达式) 思路: 1.首先找到一个自己想要查看天气预报的网站,选择自己想查看的地方,查看天气(例:http://www.tianqi ...
python爬虫之12306网站--火车票信息查询
python爬虫之12306网站--火车票信息查询思路: 1.火车票信息查询是基于车站信息查询,先完成车站信息查询,然后根据车站信息查询生成的url地址去查询当前已知出发站和目的站的所有车次车票信息 ...

随机推荐

jstl标签详解 (转载)
JSLT标签库,是日常开发经常使用的,也是众多标签中性能最好的.把常用的内容,放在这里备份一份,随用随查.尽量做到不用查,就可以随手就可以写出来.这算是Java程序员的基本功吧,一定要扎实. JSTL ...
TYVJ 1940 创世纪
Description: 上帝手中有着 N 种被称作“世界元素”的东西,现在他要把它们中的一部分投放到一个新的空间中去以建造世界.每种世界元素都可以限制另外一种世界元素,所以说上帝希望所有被投放的世 ...
Codeforces 709B 模拟
B. Checkpoints time limit per test:1 second memory limit per test:256 megabytes input:standard input ...
检查Makefile中的tab
转:http://stackoverflow.com/questions/16931770/makefile4-missing-separator-stop makefile has a very s ...
DB2 like两个表的字段或like一个变量
DB2中的like的使用是有限制的,它后面不能跟一个变量或者是字段,因此,在存储过程或SQL语句中就不能like一个变量或一个字段. 比如有两个表A(a,b,c,d),B(a,b,c,d). 普遍的用 ...
06 数据库入门学习-视图、sql注入、事务、存储过程
一.视图 1.什么是视图视图本质是一张虚拟的表 2.为什么要用为了原表的安全只要有两大功能 1.隐藏部分数据,开放指定数据 2.视图可以将查询结果保存,减少sql语句的次数特点: 1.视图使用 ...
2018.09.24 bzoj1016: [JSOI2008]最小生成树计数（并查集+搜索）
传送门正解是并查集+矩阵树定理. 但由于数据范围小搜索也可以过. 我们需要知道最小生成树的两个性质: 不同的最小生成树中,每种权值的边出现的个数是确定的不同的生成树中,某一种权值的边连接完成后,形 ...
2018.08.06bzoj1251: 序列终结者（非旋treap）
传送门平衡树板子题. 直接fhqtreap打区间标记就行了. 代码: #include<bits/stdc++.h> #define N 50005 using namespace st ...
2018.07.06 BZOJ 1588: HNOI2002营业额统计（非旋treap）
1588: [HNOI2002]营业额统计 Time Limit: 5 Sec Memory Limit: 162 MB Description 营业额统计 Tiger最近被公司升任为营业部经理,他上 ...
gj4 深入类和对象
4.1 鸭子类型和多态当看到一只鸟走起来像鸭子.游永起来像鸭子.叫起来也像鸭子,那么这只鸟就可以被称为鸭子只要利用Python的魔法函数,就能实现某些Python数据类型的类似的方法. class ...

python爬虫1——获取网站源代码(豆瓣图书top250信息)

python爬虫1——获取网站源代码(豆瓣图书top250信息)的更多相关文章

随机推荐

热门专题