10- python 网络爬虫分析

Python 网络爬虫简单分析

 import urllib2

 response = urllib2.urlopen("http://www.baidu.com")

 print response.read()

我们下面开始分析代码

response = urllib2.urlopen("http://www.baidu.com")

这里我们利用的是urllib2库中的urlopen方法，这里可以知道这是一个http协议的网址，urlopen一般接受三个参数，它的参数如下：

urlopen(url, data, timeout)

第一个参数url即为URL，第二个参数data是访问URL时要传送的数据，第三个timeout是设置超时时间。

第二三个参数是可以不传送的，data默认为空None，timeout默认为 socket._GLOBAL_DEFAULT_TIMEOUT

第一个参数URL是必须要传送的，这里我们传送了百度的URL，执行urlopen方法之后，返回一个response对象，返回信息便保存在这里面。

print response.read()

response对象有一个read方法，可以返回获取到的网页内容。

如果不加read直接打印会是什么？答案如下：

<addinfourl at 40798248 whose fp = <socket._fileobject object at 0x029A29B0>>

这里如果不加read方法的话，打印出来的就是对该对象的描述。

其实上面的urlopen是可以传入request请求的

上面是一个简单的获取网络信息的一个爬虫例子。

下面是一个简单的糗事百科爬虫的脚本，来练习下库的使用。

 import urllib

 import re

 head = 0

 n = 1

 while n < 10:

     page = n

     url = 'http://www.qiushimm.com/page/' + str(page)

     def getHtml(url):

         page = urllib.urlopen(url)

         html = page.read()

         return html

     def getImg(html):

         reg = r'src="(.+?\.jpg)"'

         imgre = re.compile(reg)

         imglist = re.findall(imgre,html)

         x = head

         for imgurl in imglist:

             urllib.urlretrieve(imgurl,'%s.jpg' % x)

             x+=1

     html = getHtml(url)

     print getImg(html)

     n = n+1

     head = head + 10

10- python 网络爬虫分析的更多相关文章

Python网络爬虫笔记（五）：下载、分析京东P20销售数据
(一) 分析网页下载下面这个链接的销售数据 https://item.jd.com/6733026.html#comment 1. 翻页的时候,谷歌F12的Network页签可以看到下面 ...
《精通python网络爬虫》笔记
<精通python网络爬虫>韦玮著目录结构第一章什么是网络爬虫第二章爬虫技能概览第三章爬虫实现原理与实现技术第四章 Urllib库与URLError异常处理第五章正则 ...
Python网络爬虫与信息提取
1.Requests库入门 Requests安装用管理员身份打开命令提示符: pip install requests 测试:打开IDLE: >>> import requests ...
python网络爬虫之入门[一]
目录前言一.探讨什么是python网络爬虫? 二.一个针对于网络传输的抓包工具fiddler 三.学习request模块来爬取第一个网页 * 扩展内容(爬取top250的网页) 后记 @(目录) ...
python网络爬虫之自动化测试工具selenium[二]
目录前言一.获取今日头条的评论信息(request请求获取json) 1.分析数据 2.获取数据二.获取今日头条的评论信息(selenium请求获取) 1.分析数据 2.获取数据房源案例(仅供 ...
python网络爬虫之解析网页的BeautifulSoup(爬取电影图片)[三]
目录前言一.BeautifulSoup的基本语法二.爬取网页图片扩展学习后记前言本章同样是解析一个网页的结构信息在上章内容中(python网络爬虫之解析网页的正则表达式(爬取4k动漫图 ...
第三次作业-MOOC学习笔记：Python网络爬虫与信息提取
1.注册中国大学MOOC 2.选择北京理工大学嵩天老师的<Python网络爬虫与信息提取>MOOC课程 3.学习完成第0周至第4周的课程内容,并完成各周作业第一周 Requests库的爬 ...
利用Python网络爬虫采集天气网的实时信息—BeautifulSoup选择器
相信小伙伴们都知道今冬以来范围最广.持续时间最长.影响最重的一场低温雨雪冰冻天气过程正在进行中.预计,今天安徽.江苏.浙江.湖北.湖南等地有暴雪,局地大暴雪,新增积雪深度4-8厘米,局地可达10-20 ...
从零开始学Python网络爬虫PDF高清完整版免费下载|百度网盘
百度网盘:从零开始学Python网络爬虫PDF高清完整版免费下载提取码:wy36 目录前言第1章 Python零基础语法入门 11.1 Python与PyCharm安装 11.1.1 Python ...

随机推荐

ECOS-Ecstore证书生产失效问题排查
无法生成证书问题排查无法生成证书问题排查 author :James,jimingsong@vip.qq.com since :2015-03-02 名称解释(官方) 常见错误 1. 名称解释(官方 ...
action 耦合方式
//ActionContext 方式 package com.hanqi.action; import java.util.Map; import com.opensymphony.xwork2.Ac ...
Java JDBC Batch
Java批量处理数据 import java.sql.Connection; import java.sql.PreparedStatement; //import String sql = &quo ...
IO流数据读写总结
1.用java自带的IO读写方法官方API网站:http://docs.oracle.com/javase/7/docs/api/ 2.Apache的Commons-io-2.4.jar中的方法,参 ...
写入XML文件
public static void writeXMLFile(Document doc,String xmlFileName) throws IOException{ OutputFormat f ...
Linux命令学习-useradd和usermod
1.useradd 创建用户的时候创建家目录 useradd luyun :创建用户luyun,系统会自动创建/home/luyun 目录,此目录便是luyun的家目录. useradd -d /ho ...
swift UILabel加载html源码
@IBOutlet weak var content: UILabel! func setup(content:String){ self.content.preferredMaxLayoutWidt ...
折腾一天，终于配置好了，ssl证书，启用了https,用的阿里云ECS服务器
阿里云ECS服务器配置了ssl证书, httpd-ssl.conf 的配置很重要,网站目录一定要设置正确. 阿里云的虚拟空间,弹性Web,目前好像还不支持ssl证书. 最后要网站强制https,下面 ...
jquery的animate动画
<!DOCTYPE html> <html> <head> <meta charset="utf-8" /> <title&g ...
Unity3d中Dictionary和KeyValuePair的使用
using UnityEngine; using System.Collections; using System.Collections.Generic;public class test : Mo ...

10- python 网络爬虫分析

10- python 网络爬虫分析的更多相关文章

随机推荐

热门专题