BD贴吧图片爬虫

#encoding:utf-8

import urllib

import urllib.request

from lxml import etree

class Spider(object):

def __init__(self):

self.tiebaName="校花"

self.beginPage=1

self.endPage=3

self.url="http://tieba.baidu.com/f?"

self.ua_header = {"User-Agent" : "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1 Trident/5.0;"}

self.fileName=1

#构造url

def tiebaSpider(self):

for page in range(self.beginPage,self.endPage+1):

pn=(page-1)*50

wo={'pn':pn,'kw':self.tiebaName}

word=urllib.parse.urlencode(wo)

myurl=self.url+word

self.loadPage(myurl)

#爬取页面内容

def loadPage(self,url):

req=urllib.request.Request(url,headers=self.ua_header)

data=urllib.request.urlopen(req).read()

html=etree.HTML(data)

links=html.xpath('//div[@class="threadlist_lz clearfix"]/div/a/@href')

for link in links:

link="http://tieba.baidu.com"+link

self.loadImages(link)

#爬取帖子详情页，获得图片的链接

def loadImages(self,link):

req=urllib.request.Request(link,headers=self.ua_header)

data=urllib.request.urlopen(req).read()

html=etree.HTML(data)

links=html.xpath('//img[@class="BDE_Image"]/@src')

for imageslink in links:

self.writeImages(imageslink)

#通过图片所在链接，爬取图片并保存图片到本地

def writeImages(self,imagesLink):

print("正在外汇返佣：",self.fileName,"....")

image=urllib.request.urlopen(imagesLink).read()

#保存图片到本地

file=open(r"C:\file\img\\"+str(self.fileName)+".jpg","wb")

file.write(image)

file.close()

self.fileName+=1

if __name__ == '__main__':

mySpider=Spider()

mySpider.tiebaSpider()

原文链接：https://blog.csdn.net/qq_28387873/article/details/103416728

BD贴吧图片爬虫的更多相关文章

Python爬虫02——贴吧图片爬虫V2.0
Python小爬虫——贴吧图片爬虫V2.0 贴吧图片爬虫进阶:在上次的第一个小爬虫过后,用了几次发现每爬一个帖子,都要自己手动输入帖子链接,WTF这程序简直反人类!不行了不行了得改进改进. 思路: 贴 ...
Python图片爬虫
1.今天给大家介绍自己写的一个图片爬虫,说白了就是从网页自动上下载需要的图片 2.首先选取目标为:http://www.zhangzishi.cc/涨姿势这个网站如下图,我们的目标就是爬取该网站福利社 ...
Java 图片爬虫，java打包jar文件
目录 1. Java 图片爬虫,制作 .jar 文件 spider.java 制作 jar 文件添加执行权限 1. Java 图片爬虫,制作 .jar 文件 spider.java spider.j ...
C#多线程图片爬虫
写了个简单的多线程图片爬虫,整理一下.数据已经爬下来了,图片URL需要自行拼接,首先从Lawyers表中取的RawData字段,RawData中有一个list字段是json格式的数据,需要的只是lis ...
【Python爬虫实战】图片爬虫-淘宝图片爬虫--千图网图片爬虫
所谓图片爬虫,就是从互联网中自动把对方服务器上的图片爬下来的爬虫程序.有些图片是直接在html文件里面,有些是隐藏在JS文件中,在html文件中只需要我们分析源码就能得到如果是隐藏在JS文件中,那么就 ...
我的图片爬虫demo
本来是根据scrapy教程写了一个下载图片的简易爬虫,但是搞了一天,死活下载不了图片. 然后换了一个网站,用原生的库写了一个图片爬虫. import urllib.requestimport osde ...
【Python】nvshens按目录批量下载图片爬虫1.00(单线程版)
# nvshens按目录批量下载图片爬虫1.00(单线程版) from bs4 import BeautifulSoup import requests import datetime import ...
crawler4j图片爬虫
该实例主要演示下如何爬取指定网站的图片: 代码中有详细注释: 首先写一个ImageCrawler类: package com.demo.imageCrawler4j; import java.io.F ...
Jmeter(四十一)_图片爬虫
今天教大家用元件组合,做一个网页图片爬虫. 需要用到的元件:循环控制器+计数器+xpath提前器+函数嵌套+beanshell代码首先我们确定一下要爬取的图片网站:https://dp.pconli ...

随机推荐

转帖移动前端开发之viewport的深入理解
在移动设备上进行网页的重构或开发,首先得搞明白的就是移动设备上的viewport了,只有明白了viewport的概念以及弄清楚了跟viewport有关的meta标签的使用,才能更好地让我们的网页适配或 ...
css3 渐变色兼容移动端
.group_1 background #1a78f3 // 兼容不显示渐变色的浏览器 background: linear-gradient(180deg, #1a78f3 , #fff); bac ...
KVM主机迁移
目录新主机kvm初始环境的部署 I.检查主机cpu是否支持虚拟化 II.宿主机软件安装 III.检查kvm模块是否加载 IV.网桥的搭建 V.查看宿主机网络迁移kvm主机数据 I.查看宿主机上现有 ...
【leetcode】974. Subarray Sums Divisible by K
题目如下: Given an array A of integers, return the number of (contiguous, non-empty) subarrays that have ...
使用springBoot完成阿里云短信验证
<parent> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot ...
【JVM】Java 8 中的常量池、字符串池、包装类对象池
1 - 引言 2 - 常量池 2.1 你真的懂 Java的“字面量”和“常量”吗? 2.2 常量和静态/运行时常量池有什么关系?什么是常量池? 2.3 字节码下的常量池以及常量池的加载机制 2.4 是 ...
vi总结的几个技巧
1.用vi编辑完文件后按两次Z可以直接保存退出2.在打开一个vi编辑时可以输入:sp /etc/passwd 同时打开另一个文件注意这里要用绝对路径
发送验证码倒计时60s
var wait=60; function time(o) { if (wait == 0) { o.removeClass("gray"); o.text("发送验证码 ...
【狼】狼的unity3d脚本学习
记录学习中的问题,时刻更新 unity获取鼠标所在位置 BOOL GetCursorPos( LPPOINT lpPoint); 获取鼠标所在位置,不过原点在左下角 ///////////// ...
Haproxy+Percona-XtraDB-Cluster 集群
Haproxy介绍 Haproxy 是一款提供高可用性.负载均衡以及基于TCP(第四层)和HTTP(第七层)应用的代理软件,支持虚拟主机,它是免费.快速并且可靠的一种解决方案. HAProxy特别适用 ...

BD贴吧图片爬虫

BD贴吧图片爬虫的更多相关文章

随机推荐

热门专题