爬取王垠的博客并生成pdf

尚未完善，有待改进

#!/usr/bin/env python3

# -*- coding: utf-8 -*-

__author__ = 'jiangwenwen'

import pdfkit

import time

import requests

import random

from bs4 import BeautifulSoup

from fake_useragent import UserAgent

# 请求头

ua = UserAgent()

headers = {

    'cache-control': "no-cache",

    "Host": "www.yinwang.org",

    "User-Agent": ua.random,

    "Referer": "http://www.yinwang.org/",

}

# IP代理池

ip_pool = ['123.55.114.217:9999',

           '110.52.235.91:9999',

           '183.163.43.61:9999',

           '119.101.126.52:9999',

           '119.101.124.165:9999',

           '119.101.125.38:9999',

           '119.101.125.84:9999',

           '110.52.235.80:9999',

           '119.101.125.49:9999',

           '110.52.235.162:9999',

           '119.101.124.23:9999'

           ]

# 打印成pdf

def print_pdf(url, file_name):

    start = time.time()

    print("正在打印中...")

    headers["User-Agent"] = ua.random

    print("User-Agent是：{0}".format(headers["User-Agent"]))

    content = requests.get(url, headers=headers, timeout=3, proxies=get_proxy(ip_pool)).text

    pdfkit.from_string(content, file_name)

    end = time.time()

    print("打印成功，本次打印耗时：%0.2f秒" % (end - start))

# 获得有效代理

def get_proxy(ip_pool):

    for ip in ip_pool:

        url = "http://www.yinwang.org/"

        # 用requests来验证ip是否可用

        try:

            requests.get(url, proxies={"http": "http://{}".format(ip), }, timeout=3)

        except:

            continue

        else:

            proxies = {

                "http": "http://{}".format(ip),

                "https": "http://{}".format(ip),

            }

            return proxies

response = requests.get("http://www.yinwang.org/", headers=headers, proxies=get_proxy(ip_pool))

soup = BeautifulSoup(response.content, 'html.parser')

tags = soup.find_all("li", class_="list-group-item title")

for child in tags:

    article_url = "http://www.yinwang.org" + child.a.get('href')

    article_file_name = "桌面\\" + child.a.string + ".pdf"

    print_pdf(article_url, article_file_name)

爬取王垠的博客并生成pdf的更多相关文章

一文搞定scrapy爬取众多知名技术博客文章保存到本地数据库，包含：cnblog、csdn、51cto、itpub、jobbole、oschina等
本文旨在通过爬取一系列博客网站技术文章的实践,介绍一下scrapy这个python语言中强大的整站爬虫框架的使用.各位童鞋可不要用来干坏事哦,这些技术博客平台也是为了让我们大家更方便的交流.学习.提高 ...
Python 2.7_爬取CSDN单页面博客文章及url(二)_xpath提取_20170118
上次用的是正则匹配文章title 和文章url,因为最近在看Scrapy框架爬虫需要了解xpath语法学习了下拿这个例子练手 1.爬取的单页面还是这个rooturl:http://blog.csd ...
我是如何将博客转成PDF的
前言只有光头才能变强之前有读者问过我:"3y你的博客有没有电子版的呀?我想要份电子版的".我说:"没有啊,我没有弄过电子版的,我这边有个文章导航页面,你可以去文章导航 ...
使用Windows Live Writer拉取之前写的博客
因为之前写的博客有错误需要修改,但是在Windows Live Writer中找了半天也没找到怎么拉取之前的博客,在[打开本地草稿]或者[打开最近使用过的日志]中,由于存储的项数有限,所以就找不到那篇 ...
使用Python爬取微信公众号文章并保存为PDF文件(解决图片不显示的问题)
前言第一次写博客,主要内容是爬取微信公众号的文章,将文章以PDF格式保存在本地. 爬取微信公众号文章(使用wechatsogou) 1.安装 pip install wechatsogou --up ...
将博客转成pdf
前些天无意间看到了“birdben”的博客,写的比较详细,但是最新的文章更新时间是“2017-05-07”,时间很是久远,本打算有时间认真学习一下博主所写的文章,但是担心网站会因为某些原因停止服务,于 ...
Java爬取B站弹幕 —— Python云图Wordcloud生成弹幕词云
一 . Java爬取B站弹幕弹幕的存储位置如何通过B站视频AV号找到弹幕对应的xml文件号首先爬取视频网页,将对应视频网页源码获得就可以找到该视频的av号aid=8678034 还有弹幕序号, ...
flask实战-个人博客-数据库-生成虚拟数据 --
3.生成虚拟数据为了方便编写程序前台和后台功能,我们在创建数据库模型后就编写生成虚拟数据的函数. 1)管理员用于生成虚拟管理员信息的fake_admin()函数如下所示: personalBlog ...
爬取拉勾网python工程师的岗位信息并生成csv文件
转载自:https://www.cnblogs.com/sui776265233/p/11146969.html 代码写得很好,但是目前只看得懂前一部分一.爬取和分析相关依赖包 Python版本: ...

随机推荐

k3 cloud中获取年月日
日期类型字段元素.Date.Year(获取年) 日期类型字段元素.Date.Month(获取月)日期类型字段元素.Date.Day(获取天)
mybatis resultMap之collection聚集两种实现方式
最近做得项目用到了MyBatis处理一对多的映射关系,下面的两个方法中用到了集合的嵌套查询方法,下面仔细学习一下这两种方式聚集元素用来处理"一对多"的关系.需要指定映射的Java ...
比较两个Sql数据库是否相同
1.打开VS20122.SQL→架构比较→新建架构比较3.在源和目标上分别填上两个待比较的数据库的信息4.点击比较,不一会儿,系统就会列出两个数据库的差异了.
【转】WebRTC之RTCP
转自:https://blog.csdn.net/momo0853/article/details/88051312#RTPFBTransport_layer_FB_messagesNACKTrans ...
mysql的mod函数
取余是用函数mod(numer1,number2),其返回的值为其余数值如:mod(id,2) = 1 返回id号是奇数的id
codeforces Summer Earnings(bieset)
Summer Earnings time limit per test 9 seconds memory limit per test 256 megabytes input standard inp ...
[python 学习]正则表达式
re 模块函数re 模块函数和正则表达式对象的方法match(pattern,string,flags=0) 尝试使用带有可选的标记的正则表达式的模式来匹配字符串.如果匹配成功,就返回匹配对象:如果失 ...
vue 自定义封装组件使用 model 选项
自定义组件的 v-model 一个组件上的 v-model 默认会利用名为 value 的 prop 和名为 input 的事件,但是像单选框.复选框等类型的输入控件可能会将 value 特性用于不同 ...
LINUX的一些基本概念和操作
LINUX和shell的关系: linux是核,是操作系统,用于分配软硬件资源,用于支持运行环境,shell是壳,是命令解析器. linux命令: linux命令行有一个输入输出的行为,输入命令,输出 ...
php substr_replace()函数语法
php substr_replace()函数语法作用:替换字符串中某串为另一个字符串大理石平台价格语法:substr_replace(string,replacement,start,lengt ...

爬取王垠的博客并生成pdf

爬取王垠的博客并生成pdf的更多相关文章

随机推荐

热门专题