目的:爬取昵称

目标网站:糗事百科

依赖的库文件:request、sys、beautifulSoup4、imp、io

Python使用版本:3.4

说明:参考http://cn.python-requests.org/zh_CN/latest/user/quickstart.html

步骤:

一、熟悉request

Request介绍:

  Request库是一个python http库,其内部依赖urllib3库。

  以下是它的功能特性:
  国际化域名和 URL、Keep-Alive & 连接池、带持久 Cookie 的会话、浏览器式的 SSL 认证、基本/摘要式的身份认证、优雅的 key/value Cookie、自动解压、自动内容解码、Unicode 响应体、文件分块上传、连接超时、流下载、支持 .netrc、分块请求、线程安全。

Request API操作:

  Request的API对所有HTTP请求类型都是显而易见的,例如对于HTTP的请求类型:

  GET、POST、PUT、DELETE、HEAD和OPTIONSS

  对应的request API操作为(例):

r = requests.get('https://github.com/timeline.json')

  r = requests.post("http://httpbin.org/post")

  r = requests.put("http://httpbin.org/put")

  r = requests.delete("http://httpbin.org/delete")

   r = requests.head("http://httpbin.org/get")

   r = requests.options("http://httpbin.org/get")

本文主要针对request的获取操作来做说明:

以GitHubHub时间线和服务器响应的内容格式为例:

1、响应内容

import requests

r = requests.get('https://github.com/timeline.json')

r.text

  Requests可以根据服务器响应的内容自动解码,支持大多数unicode,当然我们也可以以指定的解码格式来解码内容,如r.text前加上r.encoding = 'utf-8'.

2、二进制响应内容和json响应内容

r.content

r.json()

调用该两种方法分别替换上文的r.text,则分别表示字节的方式访问请求的内容,而非文本格式和以json的格式解码内容。

3、原始响应内容

import requests

r = requests.get('https://github.com/timeline.json',stream=True)

r.raw

r.raw.read(10)

#将获取的原始数据写入test.txt文件

with open('test.txt','wb') as fd:

for chunk in r.iter_content(10):

fd.write(chunk)

二、beautifulSoup介绍:

  这是Python的一个库,在此主要的作用是从爬取到的网页内容中获取数据,Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。

三、爬取昵称

  由于本人初次使用Python,所以就做一个最简单的爬虫吧!代码非常简单,就只是获取糗事百科的首页的昵称:

 # -*- coding: UTF-8 -*-
from bs4 import BeautifulSoup
from imp import reload
import requests
import sys
import io
sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='utf8')
#解决unicode编码与ascll编码不兼容的问题
#reload(sys)
#sys.setdefaultencoding("utf-8")
############################
class Crawler(object):
def __init__(self):
print("开始爬取数据")
#getSource获取网页源代码
def getSource(self,url):
html = requests.get(url)
#print(str(html.text))可以在此打印,看是否抓取到内容
return html.text #主函数
if __name__=='__main__':
url = 'http://www.qiushibaike.com'
testCrawler = Crawler()
content = testCrawler.getSource(url)
soup = BeautifulSoup(content)
fd = open("crawler.txt", 'w')
for i in soup.find_all('h2'):
print(i.getText())
fd.write(i.getText()+'\n')
fd.close()

  

python简易爬虫实现的更多相关文章

  1. python简易爬虫来实现自动图片下载

    菜鸟新人刚刚入住博客园,先发个之前写的简易爬虫的实现吧,水平有限请轻喷. 估计利用python实现爬虫的程序网上已经有太多了,不过新人用来练手学习python确实是个不错的选择.本人借鉴网上的部分实现 ...

  2. 爬虫系列1:python简易爬虫分析

    决定写一个小的爬虫系列,本文是第一篇,讲爬虫的基本原理和简易示例. 1.单个网页的简易爬虫 以下爬虫的主要功能是爬取百度贴吧中某一页面的所有图片.代码由主要有两个函数:其中getHtml()通过页面u ...

  3. Python简易爬虫

    经常需要下载论文,每次都需要去网页上搜索,然后点击下载,实在麻烦,正好最近刚入门Python,心血来潮,想着写一个爬虫 经过一天查阅资料,基本算是完成了,但是还是不足,比如对知网和万方暂时还不行,但是 ...

  4. Python简易爬虫爬取百度贴吧图片

    通过python 来实现这样一个简单的爬虫功能,把我们想要的图片爬取到本地.(Python版本为3.6.0) 一.获取整个页面数据 def getHtml(url): page=urllib.requ ...

  5. 【Python】Python简易爬虫爬取百度贴吧图片

    通过python 来实现这样一个简单的爬虫功能,把我们想要的图片爬取到本地.(Python版本为3.6.0) 一.获取整个页面数据 def getHtml(url): page=urllib.requ ...

  6. python简易爬虫,帮助理解re模块

    20161203更新: 1.使用了BS4解析html 2.使用了mysql-connector插入了数据库表 pip install mysql-connector import urllib.req ...

  7. day17 python re模块 简易爬虫

    day17 python   一.re模块     1.re模块的基础方法         查找findall() import re #re.findall(pattern,string,flags ...

  8. 利用简易爬虫完成一道基础CTF题

    利用简易爬虫完成一道基础CTF题 声明:本文主要写给新手,侧重于表现使用爬虫爬取页面并提交数据的大致过程,所以没有对一些东西解释的很详细,比如表单,post,get方法,感兴趣的可以私信或评论给我.如 ...

  9. 一篇文章教会你利用Python网络爬虫获取电影天堂视频下载链接

    [一.项目背景] 相信大家都有一种头疼的体验,要下载电影特别费劲,对吧?要一部一部的下载,而且不能直观的知道最近电影更新的状态. 今天小编以电影天堂为例,带大家更直观的去看自己喜欢的电影,并且下载下来 ...

随机推荐

  1. 生活小助手--Android项目

    每次想做一个Android项目都不知道要怎么开始,所谓前期工作,都是辅助于项目能顺利完成而做的. 每一个项目开始都要有几首准备: 第一,项目要做什么? 第二,项目中有那些版块? 项目的概要设计 项目流 ...

  2. Javascript Array API

    JS数组对象提供了很多API方法,由于前段时间要用到某一些方法,但是突然一时又想不起来该怎么用了,上网找有很多资料都不全,所以就自己整理了一篇,完全是自己写的的JS,只是复制到这里来了 ,要用到的朋友 ...

  3. Gerrit代码Review入门实战

    代码审核(Code Review)是软件研发质量保障机制中非常重要的一环,但在实际项目执行过程中,却因为种种原因被Delay甚至是忽略.在实践中,给大家推荐一款免费.开放源代码的代码审查软件Gerri ...

  4. VS20XX-Add-In插件开发

    参考文章: 1:http://www.cnblogs.com/hecool/archive/2013/04/06/3002822.html 2: http://www.cnblogs.com/ande ...

  5. 开源框架Caliburn.Micro

    Caliburn.Micro学习笔记----引导类和命名匹配规则   用了几天时间看了一下开源框架Caliburn.Micro 这是他源码的地址http://caliburnmicro.codeple ...

  6. T-SQL 随机返回特定行数据和分页查询

    T-SQL 随机返回特定行数据和分页查询 T-SQL 语言相较于标准SQL添加了很多特性,为了提高SQL Server的表现,是有必要深入了解的,面试时一般也会包含这两个小问题. 首先,是在一个Adv ...

  7. macvim打造python IDE

    昨天安装了macvim,今天在上面配置了一下python的ide: 大家也可参考http://blog.dispatched.ch/2009/05/24/vim-as-python-ide/ 1.文法 ...

  8. 三种工厂模式的分析以及C++实现

    三种工厂模式的分析以及C++实现 以下是我自己学习设计模式的思考总结. 简单工厂模式 简单工厂模式是工厂模式中最简单的一种,他可以用比较简单的方式隐藏创建对象的细节,一般只需要告诉工厂类所需要的类型, ...

  9. MongoDb注意事项

    1.保证足够大的内存. 2.Mongodb跟mysql一样,对于常用的查询条件,该建索引的建索引.不要认为内存够用,数据就会在内存,有时,内存够用,数据也不一定在内存. 3.使用副本集,一个主库,进行 ...

  10. apache cxf笔记之Spring客户端访问和调用webservice服务

    继续上次的spring服务的问题,这边介绍一种spring配置客户端的方法. 1.src目录下新建client-beans.xml文件 <?xml version="1.0" ...