Python爬虫——用BeautifulSoup、python-docx爬取廖雪峰大大的教程为word文档

廖雪峰大大贡献的教程写的不错，写了个爬虫把教程保存为word文件，供大家方便下载学习：http://pan.baidu.com/s/1o7InnQE

运行环境：python 2.7、beautifulsoup4、python-docx 0.8.6，Python爬虫源代码如下：

# -*- coding:utf-8 -*-

__author__ = 'zhengbiqing 460356155@qq.com'

from bs4 import BeautifulSoup

from urllib import urlopen,urlretrieve

import re

from collections import OrderedDict

from docx import Document

from docx.shared import Inches

import docx

import os

import time

import sys

from PIL import Image

baseUrl = 'http://www.liaoxuefeng.com'

#python

#firstPageUrl = '/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000'

#git

#firstPageUrl = '/wiki/0013739516305929606dd18361248578c67b8067c8c017b000'

#javascript

firstPageUrl = '/wiki/001434446689867b27157e896e74d51a89c25cc8b43bdb3000'

INDENT = 8

TMP_IMG_NAME = 'tmpimg.jpg'

A4_WIDTH = 590

A4_WIDTH_INCH = 6

PAGE_OPEN_DELAY = 1

#保存目录信息的有序字典

content = OrderedDict()

def writePage( url, indentNum, doc ):

    '''

    保存一个html页面

    :param url: 页面地址

    :param indentNum: 目录项缩进量，形成层次性的目录结构

    :param doc: 指向保存到的word文件

    :return:

    '''

    bsObj = BeautifulSoup( urlopen( url ), 'lxml' )

    #找到章节标题，并保存

    title = bsObj.find( 'div', class_="x-content" ).find( 'h4' )

    doc.add_heading( title.get_text(), int(indentNum) )

    #找到文章内容主体，得到每一个p标签，遍历每个p标签

    pageContent = bsObj.find( 'div', class_="x-wiki-content" )

    pages = pageContent.findAll( 'p' )

    for page in pages:

        #对img标签，得到图片并保存到word文件

        imgs = page.findAll( 'img' )

        for img in imgs:

            imgUrl = baseUrl + img['src'] if img['src'].startswith( '/') else img['src']

            urlretrieve( imgUrl, TMP_IMG_NAME )

            pic = Image.open( TMP_IMG_NAME )

            if (pic.size)[0] > A4_WIDTH:

                doc.add_picture( TMP_IMG_NAME, width = Inches(A4_WIDTH_INCH) )

            else:

                doc.add_picture( TMP_IMG_NAME )

        #保存文字

        doc.add_paragraph( page.get_text() )

    #添加分页

    doc.add_page_break()

def writeContent( url, doc ):

    '''

    得到目录信息，并保存为word文件目录，但未实现链接跳转功能，python-docx的该功能在开发中

    :param url: 目录信息业html页面地址

    :param doc: 指向保存到的word文件

    :return:

    '''

    html = urlopen( url )

    bsObj = BeautifulSoup( html, 'lxml' )

    #找到符合一定特征的目录项

    contentList = bsObj.findAll( 'li', { 'style': re.compile( '^margin-left.*' ), 'id': not None } )

    for contentItem in contentList:

        contentLink = contentItem.find( 'a' )

        #得到目录项的缩进数，表征了目录项的层次

        indent = re.findall( '\d+', contentItem['style'] )

        contentStr =  ' '* INDENT * int( indent[0] ) + contentLink.string

        #避免重复的目录项

        if contentStr not in content:

            #目录信息，包括标题、链接、缩进

            content[contentStr] = [contentLink['href'], indent[0]]

    doc.add_heading( u'目录', 0 )

    for item,value in content.items():

        #print item, value

        #保存目录到word文档

        doc.add_paragraph( item )

    doc.add_page_break()

def fileName( url ):

    '''

    从html中得到word文件名

    '''

    html = urlopen( url )

    bsObj = BeautifulSoup( html, 'lxml' )

    return bsObj.title.string

fileName = fileName( baseUrl + firstPageUrl ) + '.doc'

document = docx.Document( fileName ) if os.path.exists( fileName ) else docx.Document()

writeContent( baseUrl + firstPageUrl, document )

writePage( baseUrl + firstPageUrl, '', document )

for page in content.values():

    #调试信息

    print baseUrl + page[0]

    writePage( baseUrl + page[0], page[1], document )

    time.sleep( PAGE_OPEN_DELAY )

#调试时采用，只读几个页面

'''

for i in range( 1 ):

    #调试信息

    print baseUrl + content.values()[i][0]

    writePage( baseUrl + content.values()[i][0], content.values()[i][1], document )

    time.sleep( PAGE_OPEN_DELAY )

'''

document.save( fileName )

#删除图片临时文件

try:

    os.remove( TMP_IMG_NAME )

except:

    print 'remove file fail'

Python爬虫——用BeautifulSoup、python-docx爬取廖雪峰大大的教程为word文档的更多相关文章

爬取廖雪峰的python3教程
从廖雪峰老师的python教程入门的,最近在看python爬虫,入手了一下代码比较low,没有用到多线程和ip代理池然后呢,由于robots.txt的限定,构建了一些user-agent,并放慢的 ...
python爬虫实践（二）——爬取张艺谋导演的电影《影》的豆瓣影评并进行简单分析
学了爬虫之后,都只是爬取一些简单的小页面,觉得没意思,所以我现在准备爬取一下豆瓣上张艺谋导演的“影”的短评,存入数据库,并进行简单的分析和数据可视化,因为用到的只是比较多,所以写一篇博客当做笔记. 第 ...
Python爬虫初探 - selenium+beautifulsoup4+chromedriver爬取需要登录的网页信息
目标之前的自动答复机器人需要从一个内部网页上获取的消息用于回复一些问题,但是没有对应的查询api,于是想到了用脚本模拟浏览器访问网站爬取内容返回给用户.详细介绍了第一次探索python爬虫的坑. 准 ...
【python爬虫】一个简单的爬取百家号文章的小爬虫
需求用"老龄智能"在百度百家号中搜索文章,爬取文章内容和相关信息. 观察网页红色框框的地方可以选择资讯来源,我这里选择的是百家号,因为百家号聚合了来自多个平台的新闻报道.首先看 ...
Python爬虫开源项目代码，爬取微信、淘宝、豆瓣、知乎、新浪微博、QQ、去哪网等代码整理
作者:SFLYQ 今天为大家整理了32个Python爬虫项目.整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心.所有链接指向GitHub,祝大家玩的愉快 1.WechatSogou [ ...
Python爬虫——使用 lxml 解析器爬取汽车之家二手车信息
本次爬虫的目标是汽车之家的二手车销售信息,范围是全国,不过很可惜,汽车之家只显示100页信息,每页48条,也就是说最多只能够爬取4800条信息. 由于这次爬虫的主要目的是使用lxml解析器,所以在信息 ...
python 爬虫proxy,BeautifulSoup+requests+mysql 爬取样例
实现思路: 由于反扒机制,所以需要做代理切换,去爬取,内容通过BeautifulSoup去解析,最后入mysql库 1.在西刺免费代理网获取代理ip,并自我检测是否可用 2.根据获取的可用代理ip去发 ...
23个Python爬虫开源项目代码：爬取微信、淘宝、豆瓣、知乎、微博等
来源:全球人工智能作者:SFLYQ 今天为大家整理了23个Python爬虫项目.整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心.所有链接指向GitHub,祝大家玩的愉快 1.Wec ...
python爬虫入门新手向实战 - 爬取猫眼电影Top100排行榜
本次主要爬取Top100电影榜单的电影名.主演和上映时间, 同时保存为excel表个形式, 其他相似榜单也都可以依葫芦画瓢首先打开要爬取的网址https://maoyan.com/board/4, ...

随机推荐

制作U盘启动-----计算机经验
这期呢我就先不打算写关于C的文章,这次就先给大家写几篇关于电脑系统安装的计算机经验篇.希望各位接下来看了我几期的经验文章,你们也能在电脑系统报销之时能够让其满血复活. 制作U盘启动下载制作U盘启动的 ...
解决git push时发现有超过100M的文件时，删除文件后，发现还是提交不上去的问题
我这里故意放了一个超过100M的文件后续,git add ,git commit 然后,git push 此时会发现出现了错误.如果,我们再这里直接在文件系统中删除这个大的文件,然后再次提交,会发现 ...
十大PHP程序员必备工具
十大PHP程序员必备工具 1.Notepad++ 总结来说就是小而精,7.4版本的软件包只有2.9M,比一般的IDE小数十倍,但是Notepad++的功能确是很全面的,代码高亮,语法折叠,宏功能,内置 ...
如何弄清Linux系统运行何种系统管理程序
如何弄清Linux系统运行何种系统管理程序虽然我们经常听到系统管理器System Manager这词,但很少有人深究其确切意义.现在我们将向你展示其区别. 我会尽自己所能来解释清楚一切.我们大多都知 ...
centos7下安装docker（16.1docker跨主机存储--Rex-Ray）
一.Rex-Ray以standalone进程的方式运行在docker主机上,安装方法很简单:在docker1和docker2上运行如下命令: curl -sSL https://dl.bintray. ...
ubuntu18.04 下使用conda安装requirement.txt指定的依赖包
首先创建特定的虚拟环境 conda create -n temp_test python=3.5 conda install anaconda 切换到该环境 conda activate temp_t ...
Scala主构造器参数是否升级为成员与是否有get/set
1:主构造器前面添加val/var 关键字则升级为类成员,否则只是构造器中的一个参数而已. 2:private 修饰get/set方法权限,private var/val 成员变量,则有get/set ...
在Java中，将ExecutorService转为守护程序
问题描述我正在Java 1.6中使用一个ExecutoreService,简单地开始 ExecutorService pool = Executors.newFixedThreadPool(THRE ...
简单的if多分支结构练习:用户录入 1-10的数字 , 1-7没奖品 , 8,9,10分别获得 3 2 1 等奖
package com.summer.cn; import java.util.Scanner; /** * @author Summer *简单的if多分支结构练习 *用户录入 1-10的数字 , ...
P3372 【模板】线段树 1
题目描述如题,已知一个数列,你需要进行下面两种操作: 1.将某区间每一个数加上x 2.求出某区间每一个数的和输入输出格式输入格式: 第一行包含两个整数N.M,分别表示该数列数字的个数和操作的总个 ...

Python爬虫——用BeautifulSoup、python-docx爬取廖雪峰大大的教程为word文档

Python爬虫——用BeautifulSoup、python-docx爬取廖雪峰大大的教程为word文档的更多相关文章

随机推荐

热门专题