python爬某个网站的图片

# _*_ coding: gbk _*_

import urllib

import urllib2

import re

class Spider:

    def getImage(self,html):

        request=urllib2.Request(html);

        page=urllib2.urlopen(html);

        html=page.read();

        pattern=r'src="http:.*\.jpg'

        imglist=re.findall(pattern,html);

        cnt=0

        for i in imglist:

            print i[5:];

            urllib.urlretrieve(i[5:], 'E:\\images\%s.jpg' % cnt);

            cnt+=1

            if cnt==2:

                break;

        print 'the end'

if __name__=="__main__":

    print 'hello'

    s=Spider();

    #html=r"http://baike.baidu.com/link?url=pj6QaA2Zyrxx2WcD4f7vN50LWVIZjJUKYdnnLGMOWnmInlALGH4dXmU86hE3Ar-jmaiahjf2MiEZ3n_0WCOUlFuKwVfYZNKnBwxidD1cC3i";

    html=r"http://baike.baidu.com/link?url=rHaKx7RPBWuR4MxzY0BPhwbLKH4DEdwKPN8EYH-78Zzm7IMUuFTYM0eUZw-j27lHxDxyyNiqkjUg4JG8FvyjNUsuqiTzLixsNSXUtTWiOpQqrtxbf4hkj-n6gF1Nyn4D"

    s.getImage(html);

python从某个网站上面爬很多图片的url,主要是从百度风云榜上面爬的，男演员，女演员，男歌手，女歌手，总共200张

# _*_ coding: gbk _*_

import urllib

import urllib2

import re

import os

class Spider:

    def getImage(self,html):

        request=urllib2.Request(html);

        page=urllib2.urlopen(html);

        html=page.read();

        pattern=r'href="http:.*简介'

        imglist=re.findall(pattern,html);

        with open(r'e:\\images\\paths.txt','w+') as f:

            for i in imglist:

                print i[6:len(i)-6];

                f.write(i[6:len(i)-6]);

                f.write('\n')

        print len(imglist)

        print 'the end'  

if __name__=="__main__":

    print 'hello'

    s=Spider();

    #html=r"http://baike.baidu.com/link?url=pj6QaA2Zyrxx2WcD4f7vN50LWVIZjJUKYdnnLGMOWnmInlALGH4dXmU86hE3Ar-jmaiahjf2MiEZ3n_0WCOUlFuKwVfYZNKnBwxidD1cC3i";

    html=r'http://top.baidu.com/buzz?b=18&qq-pf-to=pcqq.group'

    s.getImage(html);

python爬某个网站的图片的更多相关文章

python爬取基础网页图片
python基础爬虫总结 1.爬取信息原理与浏览器客户端类似,向网站的服务器发送一个请求,该请求一般是url,也就是网址.之后服务器响应一个html页面给客户端,当然也有其他数据类型的信息,这些就是 ...
python爬取网站数据保存使用的方法
这篇文章主要介绍了使用Python从网上爬取特定属性数据保存的方法,其中解决了编码问题和如何使用正则匹配数据的方法,详情看下文编码问题因为涉及到中文,所以必然地涉及到了编码的问题,这一次借这 ...
python爬取网站数据
开学前接了一个任务,内容是从网上爬取特定属性的数据.正好之前学了python,练练手. 编码问题因为涉及到中文,所以必然地涉及到了编码的问题,这一次借这个机会算是彻底搞清楚了. 问题要从文字的编码讲 ...
Python超简单的爬取网站中图片
1.首先导入相关库 import requests import bs4 import threading #用于多线程爬虫,爬取速度快,可以完成多页爬取 import os 2.使用bs4获取htm ...
python 爬取知乎图片
先上完整代码 import requests import time import datetime import os import json import uuid from pyquery im ...
Python爬取全站妹子图片，差点硬盘走火了！
在这严寒的冬日,为了点燃我们的热情,今天小编可是给大家带来了偷偷收藏了很久的好东西.大家要注意点哈,我第一次使用的时候,大意导致差点坏了大事哈! 1.所需库安装 2.网站分析首先打开妹子图的官网(m ...
教你用python爬取网站美女图（附代码及教程）
我前几篇文章都是说一些python爬虫库的用法,还没有说怎样利用好这些知识玩一些好玩的东西.那我今天带大家玩好玩又刺激的,嘻嘻!对了,requests库和正则表达式很重要的,一定要学会!一定要学会!! ...
Python爬取养眼图片
1.准备各位绅士们,你可能会觉得疫情在家无聊,那么现在我们的Python语言可以满足你们的需求.项目需要的工具(1)Python3(2)requests库requests库可以通过代码pip ins ...
使用python爬取P站图片
刚开学时有一段时间周末没事,于是经常在P站的特辑里收图,但是P站加载图片的速度比较感人,觉得自己身为计算机专业,怎么可以做一张张图慢慢下这么low的事,而且这样效率的确也太低了,于是就想写个程序来帮我 ...

随机推荐

iOS通知中心升级 -可设置按优先级执行block
简单介绍下,这是需求驱动中发现iOS的NotificationCenter有很多功能无法实现,于是对其进行了一层包装.相当于手动管理观察者栈和监听者期望执行的事件,因此可以为其添加了很多新增的功能,将 ...
Android项目实战（二十七）：数据交互（信息编辑）填写总结
前言: 项目中必定用到的数据填写需求.比如修改用户名的文字编辑对话框,修改生日的日期选择对话框等等.现总结一下,方便以后使用. 注: 先写实现过程,想要学习的同学可以看看,不需要的同学可以直接拉到最下 ...
Ubuntu16.04LTS国内快速源
一.源文件位置备份并替换/etc/apt/sources.list的源内容: 二.更改源文件内容 sudo vi /etc/apt/sources.list deb http://mirrors.a ...
Oracle物理体系结构
一.ORACLE 物理体系结构原理结构图各部分解释: PGA: 私有内存区,仅供当前发起用户使用. 三个作用用户登录后的session信息会保存在PGA. 执行排序,如果内存不够,oracle会 ...
GL.IssuePluginEvent 发布插件事件
Description 描述 Send a user-defined event to a native code plugin. 发送一个用户定义的事件到一个本地代码插件. Rendering in ...
java int与integer的区别
int与integer的区别从大的方面来说就是基本数据类型与其包装类的区别: int 是基本类型,直接存数值,而integer是对象,用一个引用指向这个对象 1.Java 中的数据类型分为基本数据类型 ...
基本shell编程【2】-服务端发布脚本
set -x deployBase="/var/lib/tomcat7/webapps" bakBase="/root/bak" echo "auto ...
【小白的CFD之旅】16 流程
那天听了小牛师兄关于CFD应用的四种境界的说法后,小白发现自己连第一种境界都算不上,自己对于CFD还只是停留在做了少数几个案例的基础上,可以说是对其一无所知.不过小白不是那种遇到挫折就退缩的人,他决定 ...
Windows Live Writer测试
第一次使用Windows Live Writer,一堆问题,不知道是中国强大的局域网防火墙问题还是咋的,弄了半天. 1.C++的测试代码: int _tmain(int argc, _TCHAR* a ...
Hololens入门之语音识别(语音命令)
http://blog.csdn.net/sun_t89/article/details/52430923

python爬某个网站的图片

python爬某个网站的图片的更多相关文章

随机推荐

热门专题