原理就是将贴吧条数中的用户提取出来并在此爬取用户中的图片

#!/usr/bin/env python
#coding:utf-8 import requests
import urllib2
import re
import socket
import logging
import os
import threading
import urllib
import sys
import time
import redis
reload(sys)
sys.setdefaultencoding('utf8')
# 设置超时时间
socket.setdefaulttimeout(30) # 设置日志级别、格式和日期时间
logging.basicConfig(level=logging.INFO,
format='%(asctime)s %(filename)s[line:%(lineno)d] %(levelname)s %(message)s',
datefmt='%a, %d %b %Y %H:%M:%S',
filename='mz_teacher_spider.log',
filemode='w')
def details(block_count, block_size, total_size):
# 总大小(KB)
total_kb = total_size / 1024
# 已下载(KB)
downloaded_kb = (block_count * block_size) / 1024
par = 100.0 * block_count * block_size/ total_size
if block_count * block_size <= total_size:
print (u'\r进度:%.2f%%, 总大小:%dKB, 已下载:%dKB\r' % ( par,total_kb, downloaded_kb)) def get_content(url):
headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.116 Safari/537.36'}
try:
request=urllib2.Request(url,headers=headers)
# print r.content
response = urllib2.urlopen(request, timeout=3)
content=response.read()
return content
except urllib2.URLError as e:
# 写异常日志
logging.info('该地址不能访问('+str(e)+'):'+url)
except urllib2.HTTPError as e:
# 写异常日志
logging.info('该地址访问出错('+str(e)+'):'+url)
except socket.timeout:
# 写异常日志
logging.info('该地址访问超时:'+url) def parser(content):
pattern='a data-field=.*? class="frs-author-name j_user_card " href="(.*?)" target="_blank">(.*?)</a>'
user_dict={}
users=[]
regex = re.compile(pattern)
items=re.findall(regex,content)
items=set(items)
for item in items:
#print item[0]+item[1]
user=requests.get('http://tieba.baidu.com'+item[0])
pattern2='<a href="javascript:;" style="" class="userinfo_head"><img src="(.*?)"/></a>'
regex2 = re.compile(pattern2)
imgurl=re.findall(regex2,user.content)
name=item[1]
#判断用户是否存在
if imgurl:
user_dict['name']=name
user_dict['imgurl']=imgurl[0]
users.append(user_dict)
user_dict={}
#print user_dict
else:
print '该用户不存在' # #
#
#
#
#print users
return users def urlretrieve(users,folder,rdb):
if not os.path.isdir(folder):
os.mkdir(folder) for user in users:
path=unicode(folder+'/'+user['name']+'.jpg', 'utf-8')
rdb.hset('tieba_user_info',user['name'],user['imgurl'])
#print path
#print path
print u'线程:%s 正在下载图片: %s \r' %(threading.current_thread(),user['imgurl'])
urllib.urlretrieve(user['imgurl'],path,reporthook=details)
rdb.save()
#
print '下载完成'
def run(users,folder,rdb):
urlretrieve(users=users,folder=folder,rdb=rdb) #def _fname():
#return f
# if __name__ == '__main__':
rdb = redis.Redis(host='localhost',port=6379,db=0,password='test')
r=get_content('http://tieba.baidu.com/f?kw=python&fr=ala0&tpl=5')
users=parser(r)
run(users=users,folder='img',rdb=rdb)

百度贴吧python吧抓取用户名和图片的更多相关文章

  1. python学习-抓取知乎图片

    #!/bin/usr/env python3 __author__ = 'nxz' """ 抓取知乎图片webdriver Chromedriver驱动需要安装,并指定d ...

  2. Python爬虫抓取糗百的图片,并存储在本地文件夹

    思路: 1.观察网页,找到img标签 2.通过requests和BS库来提取网页中的img标签 3.抓取img标签后,再把里面的src给提取出来,接下来就可以下载图片了 4.通过urllib的urll ...

  3. Python 爬虫: 抓取花瓣网图片

    接触Python也好长时间了,一直没什么机会使用,没有机会那就自己创造机会!呐,就先从爬虫开始吧,抓点美女图片下来. 废话不多说了,讲讲我是怎么做的. 1. 分析网站 想要下载图片,只要知道图片的地址 ...

  4. python requests抓取NBA球员数据,pandas进行数据分析,echarts进行可视化 (前言)

    python requests抓取NBA球员数据,pandas进行数据分析,echarts进行可视化 (前言) 感觉要总结总结了,希望这次能写个系列文章分享分享心得,和大神们交流交流,提升提升. 因为 ...

  5. WordPress快速增加百度收录,加快网站内容抓取

    本文已同步到专业技术网站 www.sufaith.com, 该网站专注于前后端开发技术与经验分享, 包含Web开发.Nodejs.Python.Linux.IT资讯等板块. 利用百度站长平台提供的链接 ...

  6. python爬虫抓网页的总结

    python爬虫抓网页的总结 更多 python 爬虫   学用python也有3个多月了,用得最多的还是各类爬虫脚本:写过抓代理本机验证的脚本,写过在discuz论坛中自动登录自动发贴的脚本,写过自 ...

  7. python 爬虫抓取心得

    quanwei9958 转自 python 爬虫抓取心得分享 urllib.quote('要编码的字符串') 如果你要在url请求里面放入中文,对相应的中文进行编码的话,可以用: urllib.quo ...

  8. python爬取某个网页的图片-如百度贴吧

    python爬取某个网页的图片-如百度贴吧 作者:vpoet mail:vpoet_sir@163.com 注:随意copy,不用告诉我 #coding:utf-8 import urllib imp ...

  9. python爬虫抓站的一些技巧总结

    使用python爬虫抓站的一些技巧总结:进阶篇 一.gzip/deflate支持现在的网页普遍支持gzip压缩,这往往可以解决大量传输时间,以VeryCD的主页为例,未压缩版本247K,压缩了以后45 ...

随机推荐

  1. 关于z-index

    某些情况下z-index设置多高都不起作用. 1.这种情况有三个前提条件:父标签position属性为relative:问题标签无position属性(不包括static):问题标签含有浮动(floa ...

  2. sql一个表中两个字段合并求和

    sql一个表中两个字段,合并求和 SELECT SUM(字段a+'.'+字段b) as total  from TABLE

  3. ES 集群

    http://www.cnblogs.com/o-andy-o/p/5067184.html

  4. c++总结01

    今天编写了四个小程序分别是“石头剪刀布游戏”“数字之间加空格输出”“蛇形矩阵”“螺旋矩阵”. 通过编写石头剪刀布代码 熟悉了switch语句和if语句的使用,同时也运用了do..while语句,其中 ...

  5. java io流之字节流

    字节流 字节流主要是操作byte类型数据,以byte数组为准,主要操作类就是OutputStream.InputStream 字节输出流:OutputStream OutputStream是整个IO包 ...

  6. 如何进入IT行业?

    其实IT行业就如一个具有标准配件的机一样是开放的行业,无论你是否科班出身,无论你是什么学历,只要你掌握相关的针对性很强的计算机知识,想在IT行业发展随时可以即插即用,这主要由IT行业的特点确PC定的. ...

  7. C++的一些小的知识点

    1.初始化: 对于内置类型 ]; // 10个未初始化int ](); // 10个值初始化为0的int 对于自定义类型: 只要一调用new,那么编译器不仅仅给它分配内存,还调用它的默认构造函数初始化 ...

  8. Android笔记:DrawerLayout抽屉布局的使用

    DrawerLayout(抽屉布局),在各种app中经常出现,比如csdn.. 如下示,只要从屏幕侧边滑一下,或者点击左上角的图标,抽屉就会出来. DrawerLayout要点: 1.使用Drawer ...

  9. Java使用正则表达式取网页中的一段内容(以取Js方法为例)

    关于正则表达式: 表1.常用的元字符 代码 说明 . 匹配除换行符以外的任意字符 \w 匹配字母或数字或下划线或汉字 \s 匹配任意的空白符 \d 匹配数字 \b 匹配单词的开始或结束 ^ 匹配字符串 ...

  10. MFC通过txt查找文件并进行复制-备忘

    MFC基于对话框的Demo txt中每行一个23位的卡号. 文件夹中包含以卡号命名的图像文件.(fpt或者bmp文件) 要求遍历文件夹,找到txt中卡号所对应的图像文件,并复制出来. VC6.0写的. ...