scrapy基础之爬虫入门：先用urllib2来跑几个爬虫

1，爬取糗事百科

概况：糗事百科是html网页，支持直接抓取html字符然后用正则过滤

爬取糗事百科需要同时发送代理信息，即user-agent

import urllib2,re

def pachong(page):

    url="http://www.qiushibaike.com/hot/page/"+str(page)    #起始页

    user_agent='Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'    #代理信息，可通过f12查看

    headers={'User-Agent':user_agent}    #把代理信息按照合理方式编辑到headers中

    try:

        request=urllib2.Request(url,headers=headers)    #url后边加headers参数，发送带headers的访问请求

        response=urllib2.urlopen(request)    #以网页方式打开服务器给的response

        content=response.read().decode('utf-8')    #编码方式是utf-8，没有编码方式的设置不能得出正确答案

        pattern=re.compile('<span>\s*(.*)\s*</span>')    #正则表达式过滤信息

        items=re.findall(pattern,content)    #findall形成的是一个列表，列表的元素是所有匹配的字符串

        for i in items:

            haveimg=re.search('img',i)    #过滤掉图片格式内容

            if not haveimg:

                print i,'\n'

    except Exception as e:

        print e

if __name__=='__main__':

    for i in range(1,3):

        pachong(i)

scrapy基础之爬虫入门：先用urllib2来跑几个爬虫的更多相关文章

Python爬虫入门教程 36-100 酷安网全站应用爬虫 scrapy
爬前叨叨 2018年就要结束了,还有4天,就要开始写2019年的教程了,没啥感动的,一年就这么过去了,今天要爬取一个网站叫做酷安,是一个应用商店,大家可以尝试从手机APP爬取,不过爬取APP的博客,我 ...
Python爬虫入门教程 43-100 百思不得姐APP数据-手机APP爬虫部分
1. Python爬虫入门教程爬取背景 2019年1月10日深夜,打开了百思不得姐APP,想了一下是否可以爬呢?不自觉的安装到了夜神模拟器里面.这个APP还是比较有名和有意思的. 下面是百思不得姐的 ...
Python爬虫入门教程 35-100 知乎网全站用户爬虫 scrapy
爬前叨叨全站爬虫有时候做起来其实比较容易,因为规则相对容易建立起来,只需要做好反爬就可以了,今天咱们爬取知乎.继续使用scrapy当然对于这个小需求来说,使用scrapy确实用了牛刀,不过毕竟本博客 ...
0.Python 爬虫之Scrapy入门实践指南（Scrapy基础知识）
目录 0.0.Scrapy基础 0.1.Scrapy 框架图 0.2.Scrapy主要包括了以下组件: 0.3.Scrapy简单示例如下: 0.4.Scrapy运行流程如下: 0.5.还有什么? 0. ...
爬虫入门之Scrapy 框架基础功能(九)
Scrapy是用纯Python实现一个为了爬取网站数据.提取结构性数据而编写的应用框架,用途非常广泛. 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非 ...
Python爬虫入门（1-2）：综述、爬虫基础了解
大家好哈,最近博主在学习Python,学习期间也遇到一些问题,获得了一些经验,在此将自己的学习系统地整理下来,如果大家有兴趣学习爬虫的话,可以将这些文章作为参考,也欢迎大家一共分享学习经验. Pyth ...
转：Scrapy安装、爬虫入门教程、爬虫实例（豆瓣电影爬虫）
Scrapy在window上的安装教程见下面的链接:Scrapy安装教程上述安装教程已实践,可行.(本来打算在ubuntu上安装Scrapy的,但是Ubuntu 磁盘空间太少了,还没扩展磁盘空间,所 ...
Scrapy安装、爬虫入门教程、爬虫实例（豆瓣电影爬虫）
Scrapy在window上的安装教程见下面的链接:Scrapy安装教程上述安装教程已实践,可行.(本来打算在ubuntu上安装Scrapy的,但是Ubuntu 磁盘空间太少了,还没扩展磁盘空间,所 ...
爬虫入门scrapy
Python之路[第十九篇]:爬虫网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用 ...

随机推荐

Luogu P3181 [HAOI2016]找相同字符广义$SAM$
题目链接 $Click$ $Here$ 设一个串$s$在$A$中出现$cnt[s][1]$次,在$B$中出现$cnt[s][2]$次,我们要求的就是: \[\sum cnt ...
C# string.format用法详解
String.Format 方法的几种定义: String.Format (String, Object) 将指定的 String 中的格式项替换为指定的 Object 实例的值的文本等效项. Str ...
【知名的移动APP和网站设计工具】Sketch for Mac 54.1
以上图片来源于互联网分享,如涉及版权问题请联系作者删除. 文章素材来源:风云社区(www.scoee.com) 下载地址:风云社区(www.scoee.com) [简介] Sketch 是一款适用 ...
解决openoffice进程异常退出的办法
步骤1 编写脚本 openoffice.sh #!/usr/bin/bash OPENOFFICEPID=`ps -ef|grep "/opt/openoffice4/program/sof ...
使用CMD 命令创建指定大小的文件
在做资源更新的时候要做磁盘空间不足的测试,于是想创建一个文件塞满硬盘,搜索到可以用命令来创建. fsutil file createnew null.zip 524288000
shipyard 管理swarm集群(附etcd发现服务方法）
docker swarm集群第一步:安装swarm集群 192.168.132.131----->(manger1,node) 192.168.132.132----->(manger2 ...
【openssl】利用openssl完成X509证书和PFX证书之间的互转
利用openssl完成X509证书和PFX证书之间的互转 # OpenSSL的下载与安装: 1.下载地址: 官方网址—— https://www.openssl.org/source/ OpenSSL ...
11:12:21.924 [main] DEBUG org.apache.ibatis.logging.LogFactory - Logging initialized using 'class org.apache.ibatis.logging.slf4j.Slf4jImpl' adapter.
11:12:21.924 [main] DEBUG org.apache.ibatis.logging.LogFactory - Logging initialized using 'class or ...
layui(九)——flow组件常见用法总结
该模块包含信息流加载和图片懒加载两大核心支持,无论是对服务端.还是前端体验,都有非常大的性能帮助.下边分别给出了这两种技术的使用方法一.信息流加载信息流加载的核心方法时 flow.l ...
Golang入门教程（六）关键字和数据类型
在 Go 编程语言中,数据类型用于声明函数和变量. 数据类型的出现是为了把数据分成所需内存大小不同的数据,编程的时候需要用大数据的时候才需要申请大内存,就可以充分利用内存. 一.25个关键字二.18 ...

scrapy基础 之 爬虫入门：先用urllib2来跑几个爬虫

scrapy基础 之 爬虫入门：先用urllib2来跑几个爬虫的更多相关文章

随机推荐

热门专题

scrapy基础之爬虫入门：先用urllib2来跑几个爬虫

scrapy基础之爬虫入门：先用urllib2来跑几个爬虫的更多相关文章