python实现的一个简单的网页爬虫

学习了下python，看了一个简单的网页爬虫：http://www.cnblogs.com/fnng/p/3576154.html

自己实现了一个简单的网页爬虫，获取豆瓣的最新电影信息。

爬虫主要是获取页面，然后对页面进行解析，解析出自己所需要的信息进行进一步分析和挖掘。

首先需要学习python的正则表达式：http://www.cnblogs.com/fnng/archive/2013/05/20/3089816.html

解析的url:http://movie.douban.com/

查看网页源代码，分析要解析的地方：

得到资源信息：

1.电影图片

2.电影标题

3.电影评分

4.电影票信息

抓取结果为：

python实现代码为：

#!/usr/bin/env python

#coding=utf-8

import urllib

import urllib2

import re

import pymongo

def getHtml(url):

    page=urllib2.urlopen(url)

    html=page.read()

    page.close()

    return html

def getContent(html):

    reg=r'<li class="poster">.+?src="(.+?\.jpg)".+?</li>.+?class="title".+?
       class="">(.+?)</a>.+?class="rating".+?class="subject-rate">(.+?)</span>.+?<a onclick=".+?">(.+?)</a>'

    contentre=re.compile(reg,re.DOTALL)

    contentlist=contentre.findall(html)

    return contentlist

def getConnection(): #拿到数据库连接

    conn=pymongo.Connection('localhost',27017)

    return conn

def saveToDB(contentlist): #存储至mongodb数据库中

    conn=getConnection()

    db=conn.db

    t_movie=db.t_movie

    for content in contentlist:

        value=dict(poster=content[0],title=content[1],rating=content[2],ticket_btn=content[3])

        t_movie.save(value)

def display(contentlist):

    for content in contentlist:

        #values=dict(poster=content[0],title=content[1],rating=content[2],ticket_btn=content[3])

        print 'poster','\t',content[0]

        print 'title','\t',content[1]

        print 'rating','\t',content[2]

        print 'ticket_btn','\t',content[3]

        print'..............................................................................'

if __name__=="__main__":

    url="http://movie.douban.com/"

    html=getHtml(url)

    #print html

    contentlist=getContent(html)

    print len(contentlist)

    #print contentlist

    display(contentlist)

    saveToDB(contentlist)

    print "finished"

到此，一个简单的网页爬虫就成功完成了，是不是很简单～～

python实现的一个简单的网页爬虫的更多相关文章

做一个简单的scrapy爬虫
前言: 做一个简单的scrapy爬虫,带大家认识一下创建scrapy的大致流程.我们就抓取扇贝上的单词书,python的高频词汇. 步骤: 一,新建一个工程scrapy_shanbay 二,在工程中中 ...
分享：计算机图形学期末作业！！利用WebGL的第三方库three.js写一个简单的网页版“我的世界小游戏”
这几天一直在忙着期末考试,所以一直没有更新我的博客,今天刚把我的期末作业完成了,心情澎湃,所以晚上不管怎么样,我也要写一篇博客纪念一下我上课都没有听,还是通过强大的度娘完成了我的作业的经历.(当然作业 ...
jmeter压力测试的简单实例+badboy脚本录制（一个简单的网页用户登录测试的结果）
JMeter的安装:在网上下载,在下载后的zip解压后,在bin目录下找到JMeter.bat文件,双击就可以运行JMeter. http://jmeter.apache.org/ 在使用jmeter ...
Python十分适合用来开发网页爬虫
Python十分适合用来开发网页爬虫,理由如下:1.抓取网页自身的接口比较与其他静态编程语言,如java,c#,c++,python抓取网页文档的接口更简练:比较其他动态脚本语言,如perl,shel ...
python定义的一个简单的shell函数的代码
把写代码过程中经常用到的一些代码段做个记录,如下代码段是关于python定义的一个简单的shell函数的代码. pipe = subprocess.Popen(cmd, stdout=subproce ...
Java实现一个简单的网络爬虫
Java实现一个简单的网络爬虫 import java.io.BufferedReader; import java.io.BufferedWriter; import java.io.FileWri ...
一个简单的C#爬虫程序
这篇这篇文章主要是展示了一个C#语言如何抓取网站中的图片.实现原理就是基于http请求.C#给我们提供了HttpWebRequest和WebClient两个对象,方便发送请求获取数据,下面看如何实 1 ...
Html+css 一个简单的网页模板
一个简单的网页模板,有导航.子菜单.banner部分 1 <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN&q ...
python爬虫——写出最简单的网页爬虫
在我们日常上网浏览网页的时候,经常会看到一些好看的图片,我们就希望把这些图片保存下载,或者用户用来做桌面壁纸,或者用来做设计的素材.我们可以通过python 来实现这样一个简单的爬虫功能,把我们想要的 ...

随机推荐

C++中四种强制类型转换方式
类型转换有c风格的,当然还有c++风格的.c风格的转换的格式很简单(TYPE)EXPRESSION,但是c风格的类型转换有不少的缺点,有的时候用c风格的转换是不合适的,因为它可以在任意类型之间转换,比 ...
unittest的discover方法使用
使用unittest进行测试,如果是需要实现上百个测试用例,把它们全部写在一个test.py文件中,文件会越来越臃肿,后期维护页麻烦.此时可以将这些用例按照测试功能进行拆分,分散到不同的测试文件中. ...
ctype.h 第2章
ctype.h ctype.h是c标准函数库中的头文件定义了一批c语言字符分类函数 (c character classification functions) 用于测试字符是否属于特定的字 ...
贴一下我写过的c++程序代码
5258 #include <iostream>#include <iomanip>#include <cmath>using namespace std;clas ...
“玲珑杯”ACM比赛 Round #13 B -- 我也不是B，倍增+二分！
B 我也不是B 这个题做了一下午,比赛两个小时还是没做出来,比完赛才知道要用一个倍增算法确定区间,然后再二分右端点. 题意:定义一个序列的混乱度为累加和:b[i]*v[i],b[i]为这个序 ...
九度oj 题目1131：合唱队形
题目描述: N位同学站成一排,音乐老师要请其中的(N-K)位同学出列,使得剩下的K位同学不交换位置就能排成合唱队形. 合唱队形是指这样的一种队形:设K位同学从左到右依次编号为1, 2, …, K,他们 ...
【bzoj4868】[Shoi2017]期末考试前缀和+暴力
题目描述有n位同学,每位同学都参加了全部的m门课程的期末考试,都在焦急的等待成绩的公布.第i位同学希望在第ti天或之前得知所.有.课程的成绩.如果在第ti天,有至少一门课程的成绩没有公布,他就会等待 ...
BZOJ 4824 [Cqoi2017]老C的键盘 ——树形DP
每一个限制条件相当于一条有向边, 忽略边的方向,就成了一道裸的树形DP题同BZOJ3167 唯一的区别就是这个$O(n^3)$能过 #include <map> #include < ...
ElasticSearch索引自定义类型
ES可以自动检测字段并设置映射类型.如果设置的索引类型不是我们所需要的,我们可以自行定义. Rest API设置自定义索引首先通过ES自动映射一个IP地址的字段的类型: <pre name=& ...
星球大战 BZOJ 1015
星球大战 [问题描述] 很久以前,在一个遥远的星系,一个黑暗的帝国靠着它的超级武器统治者整个星系.某一天,凭着一个偶然的机遇,一支反抗军摧毁了帝国的超级武器,并攻下了星系中几乎所有的星球.这些星球通过 ...

python实现的一个简单的网页爬虫

python实现的一个简单的网页爬虫的更多相关文章

随机推荐

热门专题