从廖雪峰老师的python教程入门的,最近在看python爬虫,入手了一下

代码比较low,没有用到多线程和ip代理池

然后呢,由于robots.txt的限定,构建了一些user-agent,并放慢的爬虫的速度,起到一些效果,可能多次抓取才能完成所有文章~~~

仅供一些刚入门的同学参考一下........

用到的库及工具:(自行百度)

1.BeautifulSoup4

2.pdfkit

3.requests

4.wkhtmltopdf(需添加环境变量)

代码如下:

 # -*- coding:utf-8 -*-
 # @author:lijinxi
 # @file: __init__.py.py
 # @time: 2018/05/07

 import requests
 from bs4 import BeautifulSoup
 import pdfkit
 import time
 import os
 import re
 import  random

 class Crawel(object):
     def __init__(self):
         self.htmlTemplate = '''
             <!DOCTYPE html>
             <html lang="en">
             <head>
                 <meta charset="UTF-8">
             </head>
             <body>
             {content}
             </body>
             </html>
 '''
         # robots.txt不允许,设置请求头
         user_agent=[
             "Mozilla / 5.0(Windows NT 10.0;Win64; x64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 66.0.3359.139,Safari / 537.36",
             "Mozilla / 5.0(Windows NT 10.0;Win64; x64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 58.0.3029.110Safari / 537.36 Edge / 16.16299",
             " Mozilla / 5.0(WindowsNT10.0;WOW64;Trident / 7.0;LCTE;rv: 11.0) likeGecko",
             "Mozilla / 5.0(Windows NT 10.0;Win64;x64;rv: 59.0) Gecko / 20100101Firefox / 59.0",
             "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.11 TaoBrowser/2.0 Safari/536.11",
             "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.71 Safari/537.1 LBBROWSER",
             "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E; QQBrowser/7.0.3698.400)",
             "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; QQDownload 732; .NET4.0C; .NET4.0E)",
             "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0)"
         ]
         self.headers = {
             "Proxy-Connection": "keep-alive",
             "Pragma": "no-cache",
             "Cache-Control": "no-cache",
             "User - Agent": (user_agent[random.randint(0,len(user_agent)-1)]),
             "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",
             ",
             "Accept-Encoding": "gzip, deflate, sdch",
             "Accept-Language": "zh-CN,zh;q=0.8,en-US;q=0.6,en;q=0.4",
             "Accept-Charset": "gb2312,gbk;q=0.7,utf-8;q=0.7,*;q=0.7",
             "Referer": "https: // www.liaoxuefeng.com /",
         }

     def getPageLinks(self):
         '''
         获取所有的URL集合
         :return:
         '''
         response = requests.get("https://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000",
                                 headers=self.headers)
         bsObj = BeautifulSoup(response.text, "lxml")
         menu_list = bsObj.find("ul", {"id": "x-wiki-index", "class": "uk-nav uk-nav-side"})
         pageLinks = []
         for pageLink in menu_list.findAll("a", {"class": "x-wiki-index-item"}):
             if pageLink.attrs["href"] is not None:
                 newLink = "https://www.liaoxuefeng.com" + pageLink.attrs["href"]
                 pageLinks.append(newLink)
         return pageLinks

     def getUrlContent(self, url, file):
         '''
         解析URL,获取HTML内容
         :param url:
         :param file:保存的html 文件名
         :return:
         '''
         response = requests.get(url, headers=self.headers)
         bsObj = BeautifulSoup(response.text, "lxml")
         # 正文
         pageContent = bsObj.find("div", {"class": "x-wiki-content x-main-content"})
         # 标题
         pageTitle = bsObj.find("h4").get_text()
         # 标题放在正文之前居中显示
         center_tag = bsObj.new_tag("center")
         title_tag = bsObj.new_tag("h1")
         title_tag.string = pageTitle
         center_tag.insert(1, title_tag)
         pageContent.insert(0, center_tag)
         html = str(pageContent)
         html = self.htmlTemplate.format(content=html)
         html = html.encode("utf-8")
         with open(file, 'wb+') as f:
             f.write(html)
         return file

     def sloveImage(self, filename1, filename2):
         '''
         解决图片不能正常保存的问题
         由路径引起,尝试修改路径
         :param filename1:原始文件
         :param filename2:修改后要保存的文件
         :return:
         '''
         with open(filename1, "rb+")  as f:
             text = f.read().decode("utf-8")
             text = text.replace("data-src", "src")
         with open(filename2, "wb+") as f:
             f.write(text.encode("utf-8"))
         return filename2

     def savePdf(self, htmls, filename):
         '''
         将所有的html保存到pdf文件
         :param htmls:
         :param filename:
         :return:
         '''
         options = {
             'page-size': 'Letter',
             'margin-top': '0.75in',
             'margin-right': '0.75in',
             'margin-bottom': '0.75in',
             'margin-left': '0.75in',
             'encoding': "UTF-8",
             'custom-header': [
                 ('Accept-Encoding', 'gzip')
             ],
             'cookie': [
                 ('cookie-name1', 'cookie-value1'),
                 ('cookie-name2', 'cookie-value2'),
             ],
             'outline-depth': 10,
         }
         pdfkit.from_file(htmls, filename, options=options)

 def main():
     '''
     处理
     :return:
     '''
     start = time.time()
     crawer = Crawel()
     filename = "liaoxuefeng_blogs_python3.pdf"
     pageLinks = crawer.getPageLinks()
     htmls = []  # html文件列表
     for index, pageLink in enumerate(pageLinks):
         if index<18:
             continue
         filename1 = "index" + str(index) + ".html"
         filename2 = "indexc" + str(index) + ".html"
         crawer.getUrlContent(pageLink, filename1)
         waittime=random.randint(0,20)+20;
         time.sleep(waittime)  # 给自己留一线生机
         html = crawer.sloveImage(filename1, filename2)
         htmls.append(html)
         print("第%d页采集完成........." % index)
     crawer.savePdf(htmls, filename)
     # 移除html文件
     ''''
     rex = re.compile("^index.*\.html$")
     for i in os.listdir():
         if rex.match(i):
             os.remove(i)
             '''
     total_time = time.time() - start
     print("总共运行了%d秒" % total_time)

 if __name__ == '__main__':
     main()

 进一步完善中..........................^<>^

爬取廖雪峰的python3教程的更多相关文章

  1. Python爬虫——用BeautifulSoup、python-docx爬取廖雪峰大大的教程为word文档

    版权声明:本文为博主原创文章,欢迎转载,并请注明出处.联系方式:460356155@qq.com 廖雪峰大大贡献的教程写的不错,写了个爬虫把教程保存为word文件,供大家方便下载学习:http://p ...

  2. step2: 爬取廖雪峰博客

    #https://zhuanlan.zhihu.com/p/26342933 #https://zhuanlan.zhihu.com/p/26833760 scrapy startproject li ...

  3. 廖雪峰老师Python3教程练习整理

    1.定义一个函数quadratic(a, b, c),接收3个参数,返回一元二次方程:ax2 + bx + c = 0的两个解 # -*- coding: utf-8 -*-import mathde ...

  4. 廖雪峰Git入门教程

    廖雪峰Git入门教程  2018-05-24 23:05:11     0     0     0 https://www.liaoxuefeng.com/wiki/00137395163059296 ...

  5. 【js】【读书笔记】廖雪峰的js教程读书笔记

    最近在看廖雪峰的js教程,重温了下js基础,记下一些笔记,好记性不如烂笔头嘛 编写代码尽量使用严格模式 use strict JavaScript引擎是一个事件驱动的执行引擎,代码总是以单线程执行 执 ...

  6. 廖雪峰的java教程

    F:\教程\0-免费下载-廖雪峰 公司电脑地址: G:\学习中\廖雪峰的java教程 廖雪峰java课程地址: https://www.feiyangedu.com/category/JavaSE 0 ...

  7. 学以致用:Python爬取廖大Python教程制作pdf

    当我学了廖大的Python教程后,感觉总得做点什么,正好自己想随时查阅,于是就开始有了制作PDF这个想法. 想要把教程变成PDF有三步: 先生成空html,爬取每一篇教程放进一个新生成的div,这样就 ...

  8. git常用命令总结--廖雪峰老师Git教程命令总结

    学习了廖雪峰老师的Git教程之后的命令总结,重点关于git和远程仓库的东西. 如果没有学过,这是传送门 下面这个图很重要 一.git初始化本地仓库和配置 echo "想输入到文件的内容,一般 ...

  9. scrapy爬取微信小程序社区教程(crawlspider)

    爬取的目标网站是: http://www.wxapp-union.com/portal.php?mod=list&catid=2&page=1 目的是爬取每一个教程的标题,作者,时间和 ...

随机推荐

  1. Android项目-高考作文项目架构(二)

    1, 普通的http json请求 请看下面架构草图: 这样就抽象出了其他Activity可能需要的Http Json请求的功能. 只要其他Activity有Http Json请求的需求都可以继承Ba ...

  2. Oracle Enterprise Linux 64-bit 下Oracle11g的监听配置修改及测试步骤

    测试环境:Oracle Enterprise Linux 64-bit (5.8版本) + Oracle 11g 64位 相关说明: Oracle11g64位软件的安装位置为/u01/app/orac ...

  3. Dynamics CRM2013 定制你的系统登录后的首页面

    在2013中个性设置中又多了一个新的,更好的增强了用户体验,对于特定的用户而言只需要使用系统的一小块功能,所以很多用户进入 系统只需要显示跟自己业务相关的功能页面即可. 点右上角的齿轮进入选项,在常规 ...

  4. 【leetcode76】Intersection of Two Arrays II

    题目描述: 给定两个数组求他们的公共部分,输出形式是数组,相同的元素累计计数 例如: nums1 = [1, 2, 2, 1], nums2 = [2, 2], return [2]. 原文描述: G ...

  5. Linux Shell 脚本攻略学习--四

    linux中(chattr)创建不可修改文件的方法 在常见的linux扩展文件系统中(如ext2.ext3.ext4等),可以将文件设置为不可修改(immutable).某些文件属性可帮助我们将文件设 ...

  6. ValueError: setting an array element with a sequence.

    http://blog.csdn.net/pipisorry/article/details/48031035 From the code you showed us, the only thing ...

  7. web容器的会话机制

    基本所有web应用开发的朋友都很熟悉session会话这个概念,在某个特定时间内,我们说可以在一个会话中存储某些状态,需要的时候又可以把状态取出来,这整个过程的时间空间可以抽象成"会话&qu ...

  8. Gradle 1.12用户指南翻译——第二十八章. Jetty 插件

    其他章节的翻译请参见: http://blog.csdn.net/column/details/gradle-translation.html 翻译项目请关注Github上的地址: https://g ...

  9. Linux:进程通信之消息队列Message实例

    /*send.c*/ /*send.c*/ #include <stdio.h> #include <sys/types.h> #include <sys/ipc.h&g ...

  10. Advanced Pricing - How to source Pricing Attributes using QP_CUSTOM_SOURCE.Get_Custom_Attribute_Valu

    详细内容需要参考文档:Oracle 11i Advanced Pricing-Don't Customize, Extend! utl:http://blog.csdn.net/cai_xingyun ...