[python]爬站点

 #!/usr/bin/python

  2 import urllib

  3 import urllib2

  4 import re

  5 import os

  6

  7 dirs = ['js','img','pay','css']

  8 urls = ['http://www.xxxxxx.net/' + x for x in dirs]

  9

 10 def parse(baseurl):

 11     url_hand = urllib2.urlopen(baseurl)

 12     url_cont = url_hand.read()

 13     urllist = re.findall("<A HREF=\".*\">",url_cont)

 14     files = []

 15     dirs = []

 16     cwd = os.getcwd()

 17     for x in urllist:

 18         xx = x.split("\"")[1]

 19         if re.search(".*/$",xx):

 20             dirs.append(xx)

 21             nextpath = os.path.join(cwd, xx)

 22         else:

 23             files.append(xx)

 24     dirs.remove(dirs[0])

 25

 26

 27     for xfile in files:

 28         xfileurl = "http://www.xxxxxx.net" + xfile

 29         #todir = os.path.join(pardir, os.path.dirname(xfile))

 30         todir = cwd + xfile

 31         print todir

 32         urllib.urlretrieve(xfileurl, todir)

 33     for xdir in dirs:

 34         todir = cwd + xdir

 35         try:

 36              os.mkdir(todir)

 37         except OSError, e:

 38             print "dir exist!!"

 39         xdirurl = "http://www.xxxxxx.net" + xdir

 40         print xdirurl

 41         parse(xdirurl)

 42

 43

 44 if __name__ == "__main__":

 45     for url in urls:

 46         parse(url)

知识点：

1.这个站点有autoindex，所以进入目录后自动列出里面的文件，将其爬出，分类，文件，和目录

对于文件，直接抓取。

对于目录，得到路径后对其调用函数递归抓取。

2.下载文件，可以使用urllib模块的urlretrieve

3.还可以使用urlopen->read->write to file

[python]爬站点的更多相关文章

利用python爬取城市公交站点
利用python爬取城市公交站点页面分析 https://guiyang.8684.cn/line1 爬虫我们利用requests请求,利用BeautifulSoup来解析,获取我们的站点数据.得 ...
用Python爬E站本
用Python爬E站本一.前言参考并改进自 OverJerry 大佬的教你怎么用Python爬取E站的本子_OverJerry. 本文为技术学习记录,不提供访问无存在网站的任何方法,也不包含不和 ...
用Python爬取网易云音乐热评
用Python爬取网易云音乐热评本文旨在记录Python爬虫实例:网易云热评下载由于是从零开始,本文内容借鉴于各种网络资源,如有侵权请告知作者. 要看懂本文,需要具备一点点网络相关知识.不过没有关 ...
Python 爬取所有51VOA网站的Learn a words文本及mp3音频
Python 爬取所有51VOA网站的Learn a words文本及mp3音频 #!/usr/bin/env python # -*- coding: utf-8 -*- #Python 爬取所有5 ...
python爬取网站数据
开学前接了一个任务,内容是从网上爬取特定属性的数据.正好之前学了python,练练手. 编码问题因为涉及到中文,所以必然地涉及到了编码的问题,这一次借这个机会算是彻底搞清楚了. 问题要从文字的编码讲 ...
python爬取某个网页的图片-如百度贴吧
python爬取某个网页的图片-如百度贴吧作者:vpoet mail:vpoet_sir@163.com 注:随意copy,不用告诉我 #coding:utf-8 import urllib imp ...
python爬爬爬之单网页html页面爬取
python爬爬爬之单网页html页面爬取作者:vpoet mail:vpoet_sir@163.com 注:随意copy 不用告诉我 #coding:utf-8 import urllib2 Re ...
Python:爬取乌云厂商列表，使用BeautifulSoup解析
在SSS论坛看到有人写的Python爬取乌云厂商,想练一下手,就照着重新写了一遍原帖:http://bbs.sssie.com/thread-965-1-1.html #coding:utf- im ...
使用python爬取MedSci上的期刊信息
使用python爬取medsci上的期刊信息,通过设定条件,然后获取相应的期刊的的影响因子排名,期刊名称,英文全称和影响因子.主要过程如下: 首先,通过分析网站http://www.medsci.cn ...

随机推荐

vim基本命令笔记
两种模式 -编辑模式:可以进行正常的编辑操作左下方显示 -- INSERT -- "在命令模式下输入 i 能够进入编辑模式" -命令模式:可以通过命令左下方什么也不显示 &qu ...
PNG和PVR之间互相转换的脚本
项目经常会将png和pvr之间互相转换,这里mark一个脚本,会将当前目录下的文件全部批量转换 png转换成pvr @echo off path %path%;"C:\Program Fil ...
使用js跳转手机站url的若干注意点
引子: 去年年底公司开发手机站平台,经历了前期的用户群.市场调查,产品需求分析,产品原型设计,ui前端到程序开发上线测试等等工作,终于上线...此处略去本人作为前端开发的心情. 应该说,我们的手机站平 ...
计蒜客蓝桥杯模拟赛后缀字符串：STL_map+贪心
问题描述一天蒜头君得到 n 个字符串 si,每个字符串的长度都不超过 10. 蒜头君在想,在这 n 个字符串中,以 si 为后缀的字符串有多少个呢? 输入格式第一行输入一个整数 n. 接下来 ...
Matlab结构体定义
定义一个Matlab结构体的代码,以飞行器为例: classdef flightpro properties pos = [ ]; RGB = [ ]; rate; type; end end
在Excel里面，单元格里输入公式后只显示公式本身，不显示结果，怎么办
这种情况是对Excel进行了设置,设置的就是在单元格中只显示公式,不显示结果,解决的办法有两个: 1 用快捷键CTR+~ 2 点击"公式"选项卡,然后反选里面的"显示公式 ...
ueditor百度编辑器的赋值方法
示例: http://ueditor.baidu.com/website/onlinedemo.html 引用代码: window.UMEDITOR_HOME_URL = $CONFIG['domai ...
BluetoothServerSocket详解
一. BluetoorhServerSocket简介 1. 继承关系 public final class BluetoothServerSocket extends Object implement ...
iOS- <项目笔记>iOS6 & iOS7屏幕图片适配
1.为非视网膜\视网膜屏幕分别准备2份图片,比如: 1> 非视网膜 abc.png 2> 视网膜 abc@2x.png 程序检测视网膜屏到会自动替换@2x 2.程序启动图片 * 程序启动过 ...
jQuery动态添加li标签并添加属性和绑定事件
代码如下: <%@page import="java.util.ArrayList"%> <%@ page language="java" c ...

[python]爬站点

[python]爬站点的更多相关文章

随机推荐

热门专题