python抓取网页例子

最近在学习python，刚刚完成了一个网页抓取的例子，通过python抓取全世界所有的学校以及学院的数据，并存为xml文件。数据源是人人网。

因为刚学习python，写的代码还不够Pythonic。

核心代码如下：



#!/usr/bin/python

import urllib.request

from html.parser import HTMLParser

import json

import time

import xml.dom.minidom

import os

class Dept():

    id = 0

    name = ''

class University(Dept):

    depts = []

class City(Dept):

    universities  = []    

class Country(Dept):

    cities = []

class MyHtmlParser(HTMLParser):

    def __init__(self):

        HTMLParser.__init__(self)

        self.links = []

        self.depts = []

    def handle_starttag(self, tag, attrs):

        if tag == 'option':

            for att in attrs:

                for a in att:

                    if a != 'value' and a != '':

                        self.depts.append(a)

def readDept(code):

    depts = []

    html = ''

    for word in urllib.request.urlopen('http://www.renren.com/GetDep.do?id=' + str(code)).readlines():

        real = word.strip().decode('gbk')

        html =  html  + real

    hp = MyHtmlParser()

    hp.feed(html)

    for inst in hp.depts:

        dept = Dept()

        dept.name = inst

        depts.append(dept)

    return depts

def writeXml(city):

    impl = xml.dom.minidom.getDOMImplementation()

    dom = impl.createDocument(None, 'city', None)

    root = dom.documentElement

    filename = city.name + '.xml'

    if os.path.isfile(filename):

        os.remove(filename)

    nameE = dom.createElement('name')

    nameT = dom.createTextNode(city.name)

    idE = dom.createElement('id')

    idT = dom.createTextNode(str(city.id))

    nameE.appendChild(nameT)

    idE.appendChild(idT)

    root.appendChild(nameE)

    root.appendChild(idE)

    univs = dom.createElement('universities')

    root.appendChild(univs)

    for uni in city.universities:

#        print('write xml' + city.name + '\t' + uni.name)

        universityE = dom.createElement('university')

        univs.appendChild(universityE)

        uniE = dom.createElement('name')

        uniT = dom.createTextNode(uni.name)

        uidE = dom.createElement('id')

        uidT = dom.createTextNode(str(uni.id))

        uniE.appendChild(uniT)

        uidE.appendChild(uidT)

        universityE.appendChild(uniE)

        universityE.appendChild(uidE)

        deptsE = dom.createElement('departments')

        universityE.appendChild(deptsE)

        for dep in uni.depts:

            deptE = dom.createElement('department')

            deptsE.appendChild(deptE)

            deptNameE = dom.createElement('name')

            deptIdE = dom.createElement('id')

            deptT = dom.createTextNode(dep.name)

            deptIdT = dom.createTextNode(str(dep.id))

            deptNameE.appendChild(deptT)

            deptIdE.appendChild(deptIdT)

            deptE.appendChild(deptNameE)

    f= open(filename, 'w', encoding='utf-8')

    dom.writexml(f, addindent='  ', newl='\n',encoding='utf-8')

    print('write xml :' + city.name + '.xml')

    f.close()  

def mkdir(path):

    path=path.strip()

    path=path.rstrip("/")

    isExists=os.path.exists(path)

    if not isExists:

        os.makedirs(path)

def readData(content):

    counties = []

    jdata = json.loads(content)

    for i in range(0,100):

        try:

            country = Country()

            country.name = jdata[i]['name']

            country.id = jdata[i]['id']

            provs = jdata[i]['provs']

            for prov in provs:

                city = City()

                city.name = prov['name']

                city.id = prov['id']

                country.cities.append(city)

                city.universities = []

                for dic in prov['univs']:

                    university = University()

                    university.id = dic['id']

                    university.name = dic['name']

#                    print('get data: \t' + university.name)

                    university.depts = readDept(university.id)

                    city.universities.append(university)

                    print('city = ' + city.name + '\tuniversity = ' + university.name)

                writeXml(city)

            counties.append(country)

        except IndexError:

            break;

    return counties

print('开始时间：' + time.strftime('%Y-%m-%d %H:%M:%S',time.localtime(time.time())))

f = open('data','r' )

content = f.read()

f.close()

counties = readData(content)

print('结束时间：' + time.strftime('%Y-%m-%d %H:%M:%S',time.localtime(time.time())))

其中data是从如下网站拿到的

http://s.xnimg.cn/allunivlist.js

python抓取网页例子的更多相关文章

Python 抓取网页并提取信息(程序详解)
最近因项目需要用到python处理网页,因此学习相关知识.下面程序使用python抓取网页并提取信息,具体内容如下: #---------------------------------------- ...
Python抓取网页中的图片到本地
今天在网上找了个从网页中通过图片URL,抓取图片并保存到本地的例子: #!/usr/bin/env python # -*- coding:utf- -*- # Author: xixihuang # ...
python抓取网页引用的模块和类
在Python3.x中,我们可以使用urlib这个组件抓取网页,urllib是一个URL处理包,这个包中集合了一些处理URL的模块,如下:1.urllib.request模块用来打开和读取URLs:2 ...
python抓取网页中图片并保存到本地
#-*-coding:utf-8-*- import os import uuid import urllib2 import cookielib '''获取文件后缀名''' def get_file ...
python抓取网页过程
准备过程 1.抓取网页的过程准备好http请求(http request)->提交对应的请求->获得返回的响应(http response)->获得网页源码 2.GET还是POST ...
python 抓取网页一部分
import re import requests from bs4 import BeautifulSoup response = requests.get("https://jecvay ...
浅谈如何使用python抓取网页中的动态数据
我们经常会发现网页中的许多数据并不是写死在HTML中的,而是通过js动态载入的.所以也就引出了什么是动态数据的概念, 动态数据在这里指的是网页中由Javascript动态生成的页面内容,是在页面加载到 ...
网络爬虫－使用Python抓取网页数据
搬自大神boyXiong的干货! 闲来无事,看看了Python,发现这东西挺爽的,废话少说,就是干准备搭建环境因为是MAC电脑,所以自动安装了Python 2.7的版本添加一个库 Beauti ...
python抓取网页图片
本人比较喜欢海贼王漫画,所以特意选择了网站http://www.mmonly.cc/ktmh/hzw/list_34_2.html来抓取海贼王的图片. 因为是刚刚学习python,代码写的不好,不要喷 ...

随机推荐

R语言randomForest包实现随机森林——iris数据集和kyphosis数据集
library(randomForest)model.forest<-randomForest(Species~.,data=iris)pre.forest<-predict(model. ...
java中进程与线程的三种实现方式
一:进程与线程概述:几乎任何的操作系统都支持运行多个任务,通常一个任务就是一个程序,而一个程序就是一个进程.当一个进程运行时,内部可能包括多个顺序执行流,每个顺序执行流就是一个线程. 进程:进程是指 ...
51nod1379 索函数
果断打表找规律.然后看得出来是2^k-1之后又不知道怎么求出k有什么卵用... http://blog.csdn.net/guhaiteng/article/details/52094210 %%%% ...
volley(2) 参数code : or_barcode, pr_ismsd:false , method:GET
1. 来自于WHCombineBatchFragment.java /** * 当编辑框里面的内容完成的时候,自动的,同时获取服务器的批量数 */private void barcodeEnterEv ...
Git之手把手教你使用Git
一:Git是什么? Git是目前世界上最先进的分布式版本控制系统. 二:SVN与Git的最主要的区别? SVN是集中式版本控制系统,版本库是集中放在中央服务器的,而干活的时候,用的都是自己的电脑,所以 ...
【JavaScript学习笔记】if使用
<html> <body> <script language="JavaScript"> var a=4; var b=2; if(a==3) ...
一天一点MySQL复习——存储过程
一.存储过程概念使用SQL编写访问数据库的代码时,可用两种方法存储和执行这些代码,一种是在客户端存储代码,并创建向数据库服务器发送的SQL命令(或SQL语句),比如在C#.Java等客户端编程语言中 ...
【UVa-442】矩阵链乘——简单栈练习
题目描述: 输入n个矩阵的维度和一些矩阵链乘表达式,输出乘法的次数.如果乘法无法进行,输出error. Sample Input 9 A 50 10 B 10 20 C 20 5 D 30 35 E ...
datawindow.net数据窗口卡片设置滚动条位置
int pos = Convert.ToInt32(dw1.Describe(colname + ".y")); pos = pos - 40; dw1.Modify(" ...
Oracle自定义数据类型 1
原文 oracle 自定义类型 type / create type 一 Oracle中的类型类型有很多种,主要可以分为以下几类: 1.字符串类型.如:char.nchar.varchar2.nva ...

python抓取网页例子

python抓取网页例子

python抓取网页例子的更多相关文章

随机推荐

热门专题