Crawl(2)

http://cuiqingcai.com/3179.html

 # *-* coding: UTF-8 *-*

 import urllib2

 import cookielib

 import re

 import time

 import os

 ####################################

 #cookie

 cookie = cookielib.CookieJar()

 handler = urllib2.HTTPCookieProcessor(cookie)

 opener = urllib2.build_opener(handler)

 #####

 def mkdir(path):

     path = path.strip()

     # 判断路径是否存在

     # 存在    True

     # 不存在  Flase

     isExists = os.path.exists(path)

     if not isExists:

         print u'新建了名字叫做',path,u'的文件夹'

         # 创建目录操作函数

         os.makedirs(path)

         return True

     else:

         # 如果目录存在则不创建，并提示目录已经存在

         print u'名为',path,u'的文件夹已经创建成功'

         return False

 #####

 def saveImages(imglist,name):

     print u'共 %s张图片' %len(imglist)

     number = 1

     for imageURL in imglist:

         fileName = name + "/" + str(number) + ".jpg"

         # 对于每张图片地址，进行保存

         try:

             u = urllib2.urlopen(imageURL, timeout = 10)

             print ''

             data = u.read()

             print ''

             f = open(fileName,'wb+')

             print ''

             f.write(data)

             print u'正在保存的一张图片为',fileName

             f.close()

         except Exception, e:

             print Exception,":",e

         break

         #保存封面，大图一般太大，截图过大，容易超时

         number += 1

 #####

 if __name__ == '__main__':

     patter = r'<span id="thread_(\d{7})">'

     reg = re.compile(patter)

     for i in range(1, 5):#前5页

         if i%10 == 0: print 'now is %s' %i

         req = urllib2.Request('http://38.103.161.179/forum/forumdisplay.php?fid=230&filter=type&typeid=172&page=%s' %str(i))

         html = unicode(opener.open(req).read(), 'gbk')

         tar = reg.findall(html)

         for jpos, j in enumerate(tar):#遍历所有子链接

             req2 = urllib2.Request('http://38.103.161.179/forum/viewthread.php?tid='+j)

             html2 = unicode(opener.open(req2).read(), 'gbk')

             endpos = html2.index(u'附件</h4>')

             stapos = html2.index(u'格式')

             html2 = html2[stapos:endpos]

             #print html2

             patter2 = r'src="(.+?\.jpg)"'

             reg2 = re.compile(patter2)

             tar2 = reg2.findall(html2)

             path = u'图集'+str(i)+u'之图'+str(jpos)

             mkdir(path)

             saveImages(tar2, path)

     exit()

感谢weiyinfu学长指出。

urllib2用requests替代。

解析页面re用BeautifulSoup替代。

scrapy框架。

遇到验证码，用PIL，opencv，pybrain等。

多线程threading，python并行库框架celery。

Crawl(2)的更多相关文章

How Google TestsSoftware - Crawl, walk, run.
One of the key ways Google achievesgood results with fewer testers than many companies is that we ra ...
SharePoint Error - An unrecognized HTTP response was received when attempting to crawl this item
SharePoint 2013爬网报错 An unrecognized HTTP response was received when attempting to crawl this item. V ...
Creating a SharePoint BCS .NET Connectivity Assembly to Crawl RSS Data in Visual Studio 2010
from:http://blog.tallan.com/2012/07/18/creating-a-sharepoint-bcs-net-assembly-connector-to-crawl-rss ...
SharePoint Search之(两)持续抓取Continues crawl
于SharePoint 2010与在先前的版本号.有两种类型的抓取,Full和Incremental.故名思议.Full Crawl 抓取的时间.该Content Source里面的内容再次攀升.In ...
scrapy crawl 源码修改爬虫多开
import os from scrapy.commands import ScrapyCommand from scrapy.utils.conf import arglist_to_dict fr ...
Scrapy Crawl 运行出错 AttributeError: 'xxxSpider' object has no attribute '_rules' 的问题解决
按照官方的文档写的demo,只是多了个init函数,最终执行时提示没有_rules这个属性的错误日志如下: ...... File "C:\ProgramData\Anaconda3\lib ...
21天打造分布式爬虫-Crawl类爬取小程序社区（八）
8.1.Crawl的用法实战新建项目 scrapy startproject wxapp scrapy genspider -t crawl wxapp_spider "wxapp-uni ...
运行scrapy crawl （文件名）时显示invalid syntax和no modle 'win32api'解决方案
使用pycharm爬取知乎网站的时候,在terminal端输入scarpy crawl zhihu,提示语法错误,如下: 原因是python3.7中将async设为关键字,根据错误提示,找到manho ...
Python.错误解决：scrapy 没有crawl 命令
确保2点: 1.把爬虫.py复制到spiders文件夹里如执行scrapy crawl demo ,spiders里面就要有demo.py文件 2.在项目文件夹内执行命令在scrapy.cfg所在 ...
阅读OReilly.Web.Scraping.with.Python.2015.6笔记---Crawl
阅读OReilly.Web.Scraping.with.Python.2015.6笔记---Crawl 1.函数调用它自身,这样就形成了一个循环,一环套一环: from urllib.request ...

随机推荐

python002
1.万恶的”+“号字符串拼接字符串中的连接符+”会开辟一个新的空间,多一个“+“就会多开辟一个空间,影响性能 2.字符串格式化 ”%S“ :字符类型 ”%D“ ”数字类型 ...
[学习笔记]编译sensetime发表的Single View Stereo Matching(SVS)遇到的问题
最近在研究用深度学习预测图像深度信息的方法,一开始用的是2017年CVPR上Godard大神的monodepth,代码在这里.这篇文章介绍了利用双目的consistency训练网络以对单张图像进行深度 ...
AssetBundle一些问题
AssetBundle划分过细的问题,比如每个资源都是AssetBundle. 加载IO次数过多,从而增大了硬件设备耗能和发热的压力: Unity 5.3 ~ 5.5 版本中,Android平台上在不 ...
通过扩展方法简化UnityAPI调用
通过扩展方法简化UnityAPI调用扩展方法unity apiapi简化通过扩展方法简化UnityAPI调用能省一秒是一秒,时间就是金钱,没人愿意把时间花在冗长的coding上
PHP的学习路线规划
第一阶段:WEB的快速入门前期入门学习我们需要学一些HTML+CSS+JS前端的一些技术,这个阶段不需要太深入的学习,学习到可以制作出一个像样点的静态页面就可以了.因为大家是学习PHP,对于新人来说 ...
苏州地区--校招IT公司
完整经历了苏州的秋招和春招,在本校和苏州大学跑了许多次的宣讲会,自认为对苏州IT企业的校招有一个充分的认知.原本打算在苏州找一份Java开发的工作,可是发现自己简历连那些公司的简历关都过不去(对双非学 ...
Streamr助你掌控自己的数据(2)——三种整合数据至Streamr的典型场景
博客说明所有刊发内容均可转载但是需要注明出处. 三种整合数据至Streamr的典型场景本系列文档主要介绍怎么通过Streamr管理自己的DATA,整个系列包括三篇教程文档,分别是:教你5分钟上传数 ...
centos下部署禅道流程
原文摘录:https://www.jianshu.com/p/71e9dab130a5 下面将我在Linux系统下搭建禅道服务的过程分享给大家. 第一步:下载禅道 Linux中可以用以下命令来下载安装 ...
Scrum Meeting 8 -2014.11.14
给开发加了个pdf信息提取优化任务. 弄了半天发现服务器也是个好东西.这周末可以和爬虫讨论整合的问题了. Member Today’s task Next task 林豪森协助测试及服务器部署协助 ...
magic mouse 2 使用，移动速度问题，安装问题
一.安装问题首先确保你的OSX里面没有安装USB Overdrive.prefPane这个软件,就是“瑞士军刀”.这个软件会让你的magic mouse 2 连接上Mac后,Mac无限死机重启,有时 ...

Crawl(2)

Crawl(2)的更多相关文章

随机推荐

热门专题