Python爬虫获取百度贴吧图片

#!/usr/bin/python
# -*- coding: UTF-8 -*-
import urllib
import re
文章来源：https://www.cnblogs.com/Axi8/p/5757270.html

class Spilder01(object):

    # page = urllib.urlopen('http://tieba.baidu.com/p/1753935195')
    # htmlcode = page.read()  # 读取页面源码
    # print htmlcode  # 在控制台输出
    #
    # pageFile = open('pageCode.txt','w')#以写的方式打开pageCode.txt
    # pageFile.write(htmlcode)#写入
    # pageFile.close()#开了记得关

    # 页面获取
    def get_html(url):
        page = urllib.urlopen(url)
        html = page.read()
        return html

    # 从get_html方法返回的辣么长一串字符串中 拿到满足正则表达式的字符串
    # reg = r'src="(.+?\.jpg)" width'  # 正则表达式
    # reg_img = re.compile(reg)  # 编译一下，运行更快
    # imglist = reg_img.findall(get_html('http://tieba.baidu.com/p/1753935195'))  # 进行匹配
    # x = 0
    # for img in imglist:
    #     urllib.urlretrieve(img, '%s.jpg' % x)
    #     x += 1
    #     # print img

    # urllib库中有一个  urllib.urlretrieve(链接, 名字)
    # 方法，它的作用是以第二个参数为名字下载链接中的内容，我们来试用一下
    def get_image(html_code):
        reg = r'src="(.+?\.jpg)" width'
        reg_img = re.compile(reg)
        img_list = reg_img.findall(html_code)
        x = 0
        for img in img_list:
            urllib.urlretrieve(img, '%s.jpg' % x)
            x += 1

    print u'-------网页图片抓取-------'
    print u'请输入url:',
    url = raw_input()
    if url:
        pass
    else:
        print u'---没有地址输入正在使用默认地址---'
        url = 'http://tieba.baidu.com/p/1753935195'

    print u'----------正在获取网页---------'
    html_code = get_html(url)
    print u'----------正在下载图片---------'
    get_image(html_code)
    print u'-----------下载成功-----------'
    raw_input('Press Enter to exit')

Python爬虫获取百度贴吧图片的更多相关文章

python爬虫获取百度图片（没有精华，只为娱乐）
python3.7,爬虫技术,获取百度图片资源,msg为查询内容,cnt为查询的页数,大家快点来爬起来.注:现在只能爬取到百度的小图片,以后有大图片的方法,我会陆续发贴. #!/usr/bin/env ...
Python爬虫+颜值打分，5000+图片找到你的Mrs. Right
一见钟情钟的不是情,是脸日久生情生的不是脸,是情项目简介本项目利用Python爬虫和百度人脸识别API,针对简书交友专栏,爬取用户照片(侵删),并进行打分. 本项目包括以下内容: 图片爬 ...
使用Python爬虫爬取网络美女图片
代码地址如下:http://www.demodashi.com/demo/13500.html 准备工作安装python3.6 略安装requests库(用于请求静态页面) pip install ...
如何用Python爬虫实现百度图片自动下载？
Github:https://github.com/nnngu/LearningNotes 制作爬虫的步骤制作一个爬虫一般分以下几个步骤: 分析需求分析网页源代码,配合开发者工具编写正则表达式或 ...
Python爬虫学习之爬美女图片
最近看机器学习挺火的,然后,想要借助业余时间,来学习Python,希望能为来年找一份比较好的工作. 首先,学习得要有动力,动力,从哪里来呢?肯定是从日常需求之中来.我学Python看网上介绍.能通过P ...
Python爬虫_百度贴吧（title、url、image_url）
本爬虫以百度贴吧为例,爬取某个贴吧的[所有发言]以及对应发言详情中的[图片链接] 涉及: request 发送请求获取响应 html 取消注释通过xpath提取数据数据保存思路: 由于各贴吧发言 ...
[Python]爬虫获取知乎某个问题下所有图片并去除水印
获取URL 进入某个知乎问题的主页下,按F12打开开发者工具后查看network面板. network面板可以查看页面向服务器请求的资源.资源的大小.加载资源花费的时间以及哪些资源加载失败等信息.还可 ...
Python爬虫获取知乎图片
前段时间想抓点知乎问题中的图片,了解了下爬虫,发现还是Python的简单方便,于是做了点尝试. #coding=utf-8 import urllib import re def getHtml(ur ...
Python爬虫获取异步加载站点pexels并下载图片(Python爬虫实战3)
1. 异步加载爬虫对于静态页面爬虫很容易获取到站点的数据内容,然而静态页面需要全量加载站点的所有数据,对于网站的访问和带宽是巨大的挑战,对于高并发和大访问访问量的站点来说,需要使用AJAX相关的技术 ...

随机推荐

前端03 /css简绍/css选择器
前端03 /css简绍/css选择器目录前端03 /css简绍/css选择器昨日内容回顾 html标签常用标签 table标签:表格标签 input标签 select下拉框 textarea多 ...
A Mountaineer 最详细的解题报告
题目来源:A Mountaineer (不知道该链接是否可以直接访问,所以将题目复制下来了) 题目如下: D - A Mountaineer Time limit : 2sec / Stack lim ...
MVC + EFCore 项目实战 - 数仓管理系统4 – 需求分解
上次课程我们完成了项目基本的UI风格配置. 现在就开始进入我们的需求开发,我们先捋一下需求. 一.总体需求说明项目背景第一篇文章已有介绍,我们回顾一下. 这是一个数据管理"工具类" ...
1.对Java平台的理解。“Java是解释执行”对吗
Java本身是一种面向对象的语言,最显著的特性有两个方面,一是所谓的“书写一次,到处运行”,能够非常容易地获得跨平台能力: 另外就是垃圾收集(GC),Java通过垃圾收集器(Garbage Colle ...
Python数据分析实战：使用pyecharts进行数据可视化
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者:刘早起开始使用基本套路就是先创建一个你需要的空图层,然后使用.s ...
【高性能Mysql 】读书笔记（二）
第4章 Schema 与数据类型优化本文为<高性能Mysql 第三版>第四章读书笔记,Mysql版本为5.5 选择优化的数据类型选择合适数据类型的三个原则更小的通常更好 - 速度更快 ...
OSCP Learning Notes - Capstone(1)
Kioptrix Level 1.1 Walkthrough Preparation: Download the virtual machine from the following website ...
CUDA中关于C++特性的限制
CUDA中关于C++特性的限制 CUDA官方文档中对C++语言的支持和限制,懒得每次看英文文档,自己尝试翻译一下(没有放lambda表达式的相关内容,太过于复杂,我选择不用).官方文档https:// ...
react : umi 引入 antd 踩坑
首先要明确一个问题. 不管是 antd 还是 dva 还是别的什么东西,他们都是 umi 的插件——只要这个项目是使用 umi 脚手架生成的. 所以第一步应该是 .umirc.js (config.j ...
javascript实战 : 简单的颜色渐变
HTML <div id="color"></div> CSS .item{ display:inline-block; margin:10px; widt ...

Python爬虫获取百度贴吧图片

Python爬虫获取百度贴吧图片的更多相关文章

随机推荐

热门专题