Python 爬虫学习 urllib

网页抓取

# -*-coding: utf-8 -*-

import urllib

url = "http://www.cndzz.com/"

html = urllib.urlopen(url)

print html.read()

　　对于网页编码为gb2312等格式的网页，使用如下方法

# -*-coding: utf-8 -*-

import urllib

url = "http://www.sina.com.cn/"

html = urllib.urlopen(url)

print html.read().decode("gbk").encode("utf-8")

　　如果有多种编码，可以使用如下方法

# -*-coding: utf-8 -*-

# Author:Evilxr

import urllib

url = "http://www.sina.com.cn/"

html = urllib.urlopen(url)

print html.read().decode("gbk", "ignore").encode("utf-8")

获取Web服务器头部信息

# -*-coding: utf-8 -*-

# Author:Evilxr

import urllib

url = "http://www.sina.com.cn/"

html = urllib.urlopen(url)

print html.info()

　　返回信息：

Server: nginx

Date: Otc, 10 Nov 2014 12:54:50 GMT

Content-Type: text/html

Last-Modified: Otc, 10 Nov 2014 12:54:11 GMT

Vary: Accept-Encoding

Expires: Otc, 10 Nov 2014 12:55:50 GMT

Cache-Control: max-age=60

X-Powered-By: schi_v1.03

Age: 27

Content-Length: 563513

X-Cache: HIT from cd31-151.sina.com.cn

Connection: close

[Finished in 0.2s]

获取网页状态码

# -*-coding: utf-8 -*-

# Author:Evilxr

import urllib

url = "http://www.sina.com.cn/"

html = urllib.urlopen(url)

# 200正常访问	301重定向	403 禁止访问 404页面不存在	500 服务器忙或者服务器无响应

print html.getcode()

# 获取用户传入的url

print html.geturl()

# 关闭文件

html.close

保存网页内容

# -*-coding: utf-8 -*-

# Author:Evilxr

import urllib

url = "http://www.cdnzz.com/"

urllib.urlretrieve(url, "d:\\evilxr.html")

获取网站编码类型

# coding:utf8

# Author:Evilxr

import urllib

url = "http://www.163.com"

html = urllib.urlopen(url)

print html.info().getparam('charset')

html.close()

GBK

[Finished in 0.6s]

# coding:utf8

# Author:Evilxr

import urllib

url = "http://www.cnblogs.com/Evilxr"

html = urllib.urlopen(url)

print html.info().getparam('charset')

html.close()

utf-8

[Finished in 0.3s]

自动获取网站编码 chardet[字符集检测]

#先安装chardet

#pip install chardet

# coding:utf8

import urllib

import chardet

def automatic_detect(url):

	"""" doc """

	content = urllib.urlopen(url).read()

	result= chardet.detect(content)

	encoding = result['encoding']

	return encoding

url_list = ["http://www.sina.com.cn/",

			 "http://www.cnblogs.com/evilxr",

			  "http://bbs.hackav.com/",

			  "http://www.baidu.com/",

			  "http://fuli.ba/"]

for url in url_list:

	print url, automatic_detect(url)

http://www.sina.com.cn/ GB2312

http://www.cnblogs.com/evilxr utf-8

http://bbs.hackav.com/ GB2312

http://www.baidu.com/ utf-8

http://fuli.ba/ utf-8

[Finished in 17.1s]

Python 爬虫学习 urllib的更多相关文章

python爬虫学习(1) —— 从urllib说起
0. 前言如果你从来没有接触过爬虫,刚开始的时候可能会有些许吃力因为我不会从头到尾把所有知识点都说一遍,很多文章主要是记录我自己写的一些爬虫所以建议先学习一下cuiqingcai大神的 Pyth ...
python爬虫学习 —— 总目录
开篇作为一个C党,接触python之后学习了爬虫. 和AC算法题的快感类似,从网络上爬取各种数据也很有意思. 准备写一系列文章,整理一下学习历程,也给后来者提供一点便利. 我是目录听说你叫爬虫 - ...
Python爬虫学习：三、爬虫的基本操作流程
本文是博主原创随笔,转载时请注明出处Maple2cat|Python爬虫学习:三.爬虫的基本操作与流程一般我们使用Python爬虫都是希望实现一套完整的功能,如下: 1.爬虫目标数据.信息: 2.将 ...
《Python爬虫学习系列教程》学习笔记
http://cuiqingcai.com/1052.html 大家好哈,我呢最近在学习Python爬虫,感觉非常有意思,真的让生活可以方便很多.学习过程中我把一些学习的笔记总结下来,还记录了一些自己 ...
Python爬虫之urllib模块2
Python爬虫之urllib模块2 本文来自网友投稿作者:PG-55,一个待毕业待就业的二流大学生. 看了一下上一节的反馈,有些同学认为这个没什么意义,也有的同学觉得太简单,关于Beautiful ...
python爬虫学习笔记（一）——环境配置（windows系统）
在进行python爬虫学习前,需要进行如下准备工作: python3+pip官方配置 1.Anaconda(推荐,包括python和相关库) [推荐地址:清华镜像] https://mirrors ...
[转]《Python爬虫学习系列教程》
<Python爬虫学习系列教程>学习笔记 http://cuiqingcai.com/1052.html 大家好哈,我呢最近在学习Python爬虫,感觉非常有意思,真的让生活可以方便很多. ...
Python爬虫学习第一记 (翻译小助手)
1 # Python爬虫学习第一记 8.24 (代码有点小,请放大看吧) 2 3 #实现有道翻译,模块一: $fanyi.py 4 5 import urllib.request 6 import u ...
Python爬虫学习：四、headers和data的获取
之前在学习爬虫时,偶尔会遇到一些问题是有些网站需要登录后才能爬取内容,有的网站会识别是否是由浏览器发出的请求. 一.headers的获取就以博客园的首页为例:http://www.cnblogs.c ...

随机推荐

linux SVNUP显示无法连接主机
今天开发环境中突然无法连接主机了,我就想到 1.更改svn 链接地址,发现不可取,工程中的每个目录下面都有个.svn文件,修改起来麻烦: 2.建立新文件夹,重新checkout,发现还是无法链接最后 ...
hdu2296Ring（ac自动机+dp)
链接 dp[i][j]表示长度为i在节点J的时候的权值最大值,根据trie树转移一下就行,需要每次都取最小的,所以需要另开一数组保存字典序最小的状态. #include <iostream> ...
PHP 小方法之计算两个时间戳之间相差的日时分秒
if(! function_exists ('timediff') ) { function timediff($begin_time,$end_time){ if($begin_time < ...
Deep Learning 17：DBN的学习_读论文“A fast learning algorithm for deep belief nets”的总结
1.论文“A fast learning algorithm for deep belief nets”的“explaining away”现象的解释: 见:Explaining Away的简单理解 ...
Python_Day3_基础3
python基础之数据类型与变量字典字典一种key - value 的数据类型,使用就像我们上学用的字典,通过笔划.字母来查对应页的详细内容. 语法: info = { 'stu1101': &q ...
面试题2：BAT及各大互联网公司2014前端笔试面试题：HTML/CSS篇
BAT及各大互联网公司2014前端笔试面试题:HTML/CSS篇 Html篇: 1.你做的页面在哪些流览器测试过?这些浏览器的内核分别是什么? IE: trident内核 Firefox:gecko内 ...
thinkphp分页搜索条件带中文参数
/** * 中文处理 * @param type $str * @return str * $author lxh */ function url2word($str){ $sub=strpos($s ...
Laravel 流程分析——应用程序初始化
在整体分析中,我们看到Laravel首先会进行一个app的初始化,代码如下: $app = require_once __DIR__.'/../bootstrap/app.php'; 我们具体看看ap ...
51nod 1135 原根
题目链接:51nod 1135 原根设 m 是正整数,a是整数,若a模m的阶等于φ(m),则称 a 为模m的一个原根.(其中φ(m)表示m的欧拉函数) 阶:gcd(a,m)=1,使得成立的最小的 ...
jquery实现自动滚屏效果，适用用公告新闻等滚屏
从网络上找到的例子,自己做了下扩展,原示例是向上滚动,扩展了一个向下滚动的方法: <html xmlns="http://www.w3.org/1999/xhtml"> ...

Python 爬虫学习 urllib

Python 爬虫学习 urllib的更多相关文章

随机推荐

热门专题