1.4.3 ID遍历爬虫（每天一更）

# -*- coding: utf-8 -*-

'''

Created on 2019年5月7日

@author: 薛卫卫

'''

import itertools

import urllib.request

import re

def download(url, user_agent="wswp",num_retries=2):

    print("Downloading: " , url)

    headers = { 'User-agent': user_agent}

    request = urllib.request.Request(url, headers=headers)

    try:

        html = urllib.request.urlopen(request).read()

    except urllib.request.URLError as e:

        print('Download error:' , e.reason)

        html = None

        if num_retries > 0 :

            if hasattr(e, 'code') and 500 <= e.code < 600:

                return download(url, user_agent, num_retries-1)

    return html

for page in itertools.count(1):

    url = 'http://example.webscraping.com/view/-%d' % page

    html = download(url)

    if html is None:

        break

    else:

        # success - can scrape the result

        pass

#

# # maximum number of consecutive download errors allowed

# max_error = 5

# # current number of consecutive download errors

# nun_errors = 0

# for page in itertools.count(1):

#     url = 'http://example.webcraping.com/view/-%d' % page

#     html = download(url)

#     if html is None:

#         # received an error trying to download this webpage

#         num_errors +=1

#         if num_errors == max_errors:

#             # reached maxinum number of

#             # consecutive errors so exit

#             break

#         else:

#             # success - can scrape the result

#             # ...

#             num_errors = 0

1.4.3 ID遍历爬虫（每天一更）的更多相关文章

java xml文件中相同Id遍历
import java.io.File;import java.util.List;import org.dom4j.Document;import org.dom4j.DocumentExcepti ...
《用Python写爬虫》学习笔记（二）编写第一个网络爬虫
1.首先,下载网页使用Python的urllib2模块,或者Python HTTP模块request来实现 urllib2会出现问题,解决方法1.重试下载(设置下载次数) 2.设置用户代理 2.其次, ...
用Python写网络爬虫第二版
书籍介绍书名:用 Python 写网络爬虫(第2版) 内容简介:本书包括网络爬虫的定义以及如何爬取网站,如何使用几种库从网页中抽取数据,如何通过缓存结果避免重复下载的问题,如何通过并行下载来加速数据 ...
python 网络爬虫（三）
一.网站地图爬虫在一个简单的爬虫中,我们将使用实例网站 robots.txt 文件中发现的网站地图来下载所有网站,为了解析网站地图,我们将会使用一个简单的正则表达式,从<loc>标签中提 ...
用python写网路爬虫 PDF高清完整版免费下载 Python基础教程免费电子书 python入门书籍免费下载
<用python写网路爬虫PDF免费下载>PDF书籍下载内容简介作为一种便捷地收集网上信息并从中抽取出可用信息的方式,网络爬虫技术变得越来越有用.使用Python这样的简单编程语言,你 ...
用 Python 编写网络爬虫笔记
Chapter I 简介为什么要写爬虫? 每个网站都应该提供 API,然而这是不可能的即使提供了 API,往往也会限速,不如自己找接口注意已知条件(robots.txt 和 sitemap.xm ...
自己动手实现爬虫scrapy框架思路汇总
这里先简要温习下爬虫实际操作: cd ~/Desktop/spider scrapy startproject lastspider # 创建爬虫工程 cd lastspider/ # 进入工程 sc ...
使用Python + Selenium打造浏览器爬虫
Selenium 是一款强大的基于浏览器的开源自动化测试工具,最初由 Jason Huggins 于 2004 年在 ThoughtWorks 发起,它提供了一套简单易用的 API,模拟浏览器的各种操 ...
python高级—— 从趟过的坑中聊聊爬虫、反爬以及、反反爬，附送一套高级爬虫试题
前言: 时隔数月,我终于又更新博客了,然而,在这期间的粉丝数也就跟着我停更博客而涨停了,唉是的,我改了博客名,不知道为什么要改,就感觉现在这个名字看起来要洋气一点. 那么最近到底咋不更新博客了呢?说 ...

随机推荐

Hexo+NexT（一）：在Windows下安装Hexo+NexT及搭建博客
阅读本篇之前,假定读者已经有了Node.js的基础,如需要补充Node.js知识的,请自行百度. Hexo是在Node.js框架下的一个项目,利用Node.js提供的强大功能,完成从Markdown到 ...
http-get调用接口简单代码
一.简单便捷的httpget调用接口,并且返回接口数据1.导入相应的jar包: 2.代码如下: HttpGet get=null; try {HttpClient httpClient = new D ...
【React】遍历的两种方式
1.foreach(推荐) list.forEach((item)=>{ }); eg: dataSource.forEach((item) => { const est = item.e ...
code forces 1173 C. Nauuo and Cards
本文链接:https://www.cnblogs.com/blowhail/p/10990833.html Nauuo and Cards 原题链接:http://codeforces.com/con ...
抽丝剥茧分析asyncio事件调度的核心原理
先来看一下一个简单的例子例1: async def foo(): print('enter foo ...') await bar() print('exit foo ...') async def ...
java Https工具类
import java.security.cert.CertificateException; import java.security.cert.X509Certificate; import ja ...
Linux命令学习-tar命令
Linux中,tar命令的全称是tape archive,主要作用是压缩和解压文件. 参数说明: -c 创建新的压缩档案 -x 解压档案 -t 列出压缩档案的内容 -z 使用gzip来解压和压缩,文件 ...
[NOIP2003] 传染病控制题解
问题 F: [NOIP2003] 传染病控制时间限制: 1 Sec 内存限制: 128 MB 题目描述 [问题背景] 近来,一种新的传染病肆虐全球.蓬莱国也发现了零星感染者,为防止该病在蓬莱国大范 ...
QRowTable表格控件(二)-红涨绿跌
目录一.开心一刻二.概述三.效果展示四.任务需求五.指定列排序六.排序七.列对其方式八.相关文章原文链接:QRowTable表格控件(二)-红涨绿跌一.开心一刻一天,五娃和六娃去 ...
【排序函数讲解】sort-C++
c++标准库里的排序函数,用于对给定区间所有元素进行排序.头文件是#include 使用 Sort()在具体实现中规避了经典快速排序可能出现的.会导致实际复杂度退化到 o(n²)的极端情况.它根据 ...

1.4.3 ID遍历爬虫（每天一更）

1.4.3 ID遍历爬虫（每天一更）的更多相关文章

随机推荐

热门专题