爬虫小探-Python3 urllib.request获取页面数据

使用Python3 urllib.request中的Requests()和urlopen()方法获取页面源码，并用re正则进行正则匹配查找需要的数据。

#forex.py
#coding:utf-8

'''

urllib.request.urlopen() function in Python 3 is equivalent to urllib2.urlopen() in Python2

urllib.request.Request() function in Python 3 is equivalent to urllib2.Request() in Python2

'''

#python3.5

import urllib.request

#python2.7

#import urllib

#import urllib2

import re

def Gethtml(url, referer):

    user_agent="Mozilla/5.0 (Macintosh; Intel Mac OS X 10.10; rv:53.0) Gecko/20100101 Firefox/53.0"

    headers={"User-agent":user_agent,'referer':referer}

    #python3.5

    req=urllib.request.Request(url,headers=headers)

    response=urllib.request.urlopen(req,timeout=10)

    #python2.7

    #req=urllib2.Request(url,headers=headers)

    #response=urllib2.urlopen(req,timeout=10)

    return response.read()

url=referer="http://quote.forex.hexun.com/EURUSD.shtml"

html = str(Gethtml(url, referer))

reg = r'([0-1]{1}\.[0-9]{4})'

i = re.compile(reg)

r = re.findall(i, html)

print("Hexun ERUUSD:\nCur   |     Open |  Yesterday  |  Low  |  High")

print(r)

运行：python forex.py

输出：

Hexun ERUUSD:
Cur | Open | Yesterday | Low | High
['1.1278', '1.1211', '1.1211', '1.1203', '1.1285']

referer是反盗链，服务器会识别headers中的referer是不是它自己，如果不是，有的服务器不会响应，timeout=10 是超时设定。

参考：

http://www.jianshu.com/p/d4ebace4ddcf

爬虫小探-Python3 urllib.request获取页面数据的更多相关文章

Python3 urllib.request库的基本使用
Python3 urllib.request库的基本使用所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地. 在Python中有很多库可以用来抓取网页,我们先学习urlli ...
Python3.x：定时获取页面数据存入数据库
Python3.x:定时获取页面数据存入数据库 #间隔五分钟采集一次数据入库 import pymysql import urllib.request from bs4 import Beautifu ...
【转】python3 urllib.request 网络请求操作
python3 urllib.request 网络请求操作基本的网络请求示例 ''' Created on 2014年4月22日 @author: dev.keke@gmail.com ''' im ...
python3 urllib.request 网络请求操作
python3 urllib.request 网络请求操作基本的网络请求示例 ''' Created on 2014年4月22日 @author: dev.keke@gmail.com ''' im ...
在Servlet端获取html页面选中的checkbox值，request获取页面checkbox（复选框）值
html端代码: 选项框: <input type="checkbox" name="crowd" value="选项一">选项 ...
获取WebBrowser全cookie 和 httpWebRequest 异步获取页面数据
获取WebBrowser全cookie [DllImport("wininet.dll", CharSet = CharSet.Auto, SetLastError = true) ...
爬虫初探(1)之urllib.request
-----------我是小白------------ urllib.request是python3自带的库(python3.x版本特有),我们用它来请求网页,并获取网页源码. # 导入使用库 imp ...
（转）python3 urllib.request.urlopen() 错误UnicodeEncodeError: 'ascii' codec can't encode characters
代码内容: url = 'https://movie.douban.com/j/search_subjects?type=movie'+ str(tag) + '&sort=recommend ...
爬虫第一篇：爬虫详解之urllib.request模块
我将urllib.request 的GET请求和POST请求两种方法做了总结 GET请求 GET请求爬取: import urllib.request import urllib.parse head ...

随机推荐

RabbitMQ教程C#版 - Hello World
先决条件本教程假定RabbitMQ已经安装,并运行在localhost标准端口(5672).如果你使用不同的主机.端口或证书,则需要调整连接设置. 从哪里获得帮助如果您在阅读本教程时遇到困难,可以 ...
xx-net连接教程
第一步:安装xx-net 在github上下载xx-net,网址解压后点击运行start.bat文件,此时会提醒是不信任的文件,此时在系统偏好设置里的安全性与隐私去设置让它能打开. 第二步:安装Sw ...
java设计模式单例模式 ----懒汉式与饿汉式的区别
常用的五种单例模式实现方式 ——主要: 1.饿汉式(线程安全,调用率高,但是,不能延迟加载.) 2.懒汉式(线程安全,调用效率不高,可以延时加载.) ——其他: 1.双重检测锁式(由于JVM底层内部模 ...
C# Redis实战(二)
二.Redis服务在C# Redis实战(一)中我将所有文件拷贝到了D盘redis文件夹下,其中redis-server.exe即为其服务端程序,双击即开始运行,如图可以 ...
Django 2.0 学习(04)：Django数据库
数据库设置/配置打开mysite/settings.py,我们会发现Django是用的是默认的数据库SQLite,如下图所示: Django也是支持其它数据库的,比如PostgreSQL.MySQL ...
FineUI控件集合
FineUI(开源版)基于 ExtJS 的开源 ASP.NET 控件库. using System; using System.Collections.Generic; using System.Te ...
Geth 控制台使用及 Web3.js 使用实战
在开发以太坊去中心化应用,免不了和以太坊进行交互,那就离不开Web3.Geth 控制台(REPL)实现了所有的web3 API及Admin API,使用好 Geth 就是必修课.结合Geth命令用法阅 ...
《Linux命令行与shell脚本编程大全》- 读书笔记2 - 更多的bash shell命令
更多的bash shell命令想检测进程,需要熟悉ps命令的用法.ps命令好比工具中的瑞士军刀,它能输出运行在系统上的所有程序的许多信息.默认情况下,ps命令只会显示运行在当前控制台下的属于当前用户 ...
NodeJS FTP模块使用
模块说明:https://www.npmjs.com/package/ftp 上传文件建立连接-> 判断文件夹是否存在->创建文件夹->上传文件->End 核心代码: 连接参 ...
Matlab绘图基础——图形绘制的插值
interp1 %1-D data interpolation interpft %使用fft算法插值 %将原数据x转换到频率域,再逆转换回来更密集的数据采样点 spline %一 ...

爬虫小探-Python3 urllib.request获取页面数据

爬虫小探-Python3 urllib.request获取页面数据的更多相关文章

随机推荐

热门专题