py 爬取页面http://m.sohu.com 并存储

  1 #思路 ： 利用beautiful 省去了正则这个麻烦事，把页面搞出来然后提取js,css,img ,提取命令使用getopt 很方便,使用前需要确保已经安装了beautiful soup,如没有安#装请 到 http://www.crummy.com/software/BeautifulSoup/ 下载

  2 from bs4 import BeautifulSoup

  3 import urllib, urllib2,time

  4 import sys,os

  5 import getopt

  6 reload(sys)  

  7 sys.setdefaultencoding("utf-8")

  8 

  9 #set default value 

 10 clock_time = 60

 11 target_url = "http://m.sohu.com"

 12 target_lib = "/tmp/backup"

 13 

 14 def usage() :

 15     print "simple like this :"

 16     print "main.py -d 60 -u http://m.sohu.com -o \tmp\backup"

 17 

 18 def getHtml(target_url,target_lib,time) :

 19     response = urllib.urlopen(target_url)

 20     Html= response.read()

 21     target_lib=target_lib+'/'+time

 22     os.makedirs(target_lib)

 23     #save html

 24     print target_lib

 25     try :

 26         f = open(target_lib+"/index.html","w")

 27         f.write(Html)

 28         f.close()

 29         print "save index.html ok!"

 30     except Exception,e:

 31         print str(e)

 32     

 33     # save picture     

 34     os.makedirs(target_lib+"/images")

 35     soup = BeautifulSoup(Html)

 36     f=soup.find_all('img')

 37     if f != None :

 38         for i in f :

 39             pic_url=i.get('src')

 40             response = urllib.urlopen(pic_url)

 41             pic_url=pic_url.split('/')

 42             pic= response.read()

 43             try :

 44                 f = open(target_lib+"/images/"+pic_url[-1],"wb")

 45                 f.write(pic)

 46                 f.close()

 47             except Exception,e :

 48                 print str(e)

 49                            

 50     print "save picture ok!"

 51     

 52     #save js 

 53     os.makedirs(target_lib+"/js")

 54     f=soup.find_all('script')

 55     noName=0

 56     if f != None :

 57         for i in f :

 58             if i.get('src')!=None :

 59                 js_url=i.get('src')

 60                 response = urllib.urlopen(js_url)

 61                 js_url=js_url.split('/')

 62                 js= response.read()

 63                 try :

 64                     f = open(target_lib+"/js/"+js_url[-1],"w")

 65                     f.write(js)

 66                     f.close()

 67                 except Exception,e :

 68                     print str(e)

 69             else :  # js 可以嵌入在文档里 保存为wuming

 70                 f = open(target_lib+"/js/"+"wuming"+str(noName)+".js","w")

 71                 noName+=1

 72                 f.write(i.string)

 73                 f.close()

 74     print "save js ok!"    

 75     

 76     #save css

 77     os.makedirs(target_lib+"/css")

 78     f=soup.find_all('link')

 79     if f != None :

 80             for i in f :

 81                 if i.get('type') != None and i.get('type') == "text/css" :

 82                     css_url=i.get('href')

 83                     response = urllib.urlopen(css_url)

 84                     css_url=css_url.split('/')

 85                     css= response.read()

 86                     try :

 87                         f = open(target_lib+"/css/"+css_url[-1],"w")

 88                         f.write(css)

 89                         f.close()

 90                     except Exception,e :

 91                         print str(e)

 92     print "save css ok!"

 93     

 94 def main() :

 95     global clock_time

 96     global target_url

 97     global target_lib

 98     

 99     if not len(sys.argv[1:]) :

         usage()

     try :

         opts,args = getopt.getopt(sys.argv[1:], "d:u:o:",[])

     except getopt.GetoptError as err :

         print str(err) 

         usage()

         

     for o,a in opts :

         if o in ("-d") :

             clock_time = a

         if o in ("-u") :

             target_url = a

         if o in ("-o") :

             target_lib = a

     

     lastTime = int(time.time())

     timeArray = time.localtime(lastTime)

     otherStyleTime = time.strftime("%Y%m%d%H%M", timeArray)    

     getHtml(target_url,target_lib,otherStyleTime)

     

     while True :

         nowTime=int(time.time())

         if nowTime - lastTime >= 60 :

             lastTime=nowTime

             timeArray = time.localtime(nowTime)

             otherStyleTime = time.strftime("%Y%m%d%H%M", timeArray)            

             getHtml(target_url,target_lib,otherStyleTime)     

             print "update at time" + otherStyleTime

 if __name__=="__main__" :

     main()

py 爬取页面http://m.sohu.com 并存储的更多相关文章

[实战演练]python3使用requests模块爬取页面内容
本文摘要: 1.安装pip 2.安装requests模块 3.安装beautifulsoup4 4.requests模块浅析 + 发送请求 + 传递URL参数 + 响应内容 + 获取网页编码 + 获取 ...
MinerHtmlThread.java 爬取页面线程
MinerHtmlThread.java 爬取页面线程 package com.iteye.injavawetrust.miner; import org.apache.commons.logging ...
【java】使用URL和CookieManager爬取页面的验证码和cookie并保存
使用java的net包和io包下的几个工具爬取页面的验证码图片并保存到本地. 然后可以把获取的cookie保存下来,做进一步处理.比如通过识别验证码,进一步使用验证码和用户名,密码,保存下来的cook ...
scrapy中使用selenium来爬取页面
scrapy中使用selenium来爬取页面 from selenium import webdriver from scrapy.http.response.html import HtmlResp ...
爬取豆瓣电影TOP 250的电影存储到mongodb中
爬取豆瓣电影TOP 250的电影存储到mongodb中 1.创建项目sp1 PS D:\scrapy> scrapy.exe startproject douban 2.创建一个爬虫 PS D: ...
py爬取英文文档学习单词
最近开始看一些整本整本的英文典籍,虽然能看个大概,但是作为四级都没过的我来说还是有些吃力,总还有一部分很关键的单词影响我对句子的理解,因为看的是纸质的,所以查询也很不方便,于是想来个突击,我想把程序单 ...
python 爬虫之requests爬取页面图片的url，并将图片下载到本地
大家好我叫hardy 需求:爬取某个页面,并把该页面的图片下载到本地思考: img标签一个有多少种类型的src值?四种:1.以http开头的网络链接.2.以“//”开头网络地址.3.以“/”开头绝对 ...
python爬取豌豆荚中的详细信息并存储到SQL Server中
买了本书<精通Python网络爬虫>,看完了第6章,我感觉我好像可以干点什么:学的不多,其中的笔记我放到了GitHub上:https://github.com/NSGUF/PythonLe ...
Python 爬取美女图片，分目录多级存储
最近有个需求:下载https://mm.meiji2.com/网站的图片. 所以简单研究了一下爬虫. 在此整理一下结果,一为自己记录,二给后人一些方向. 爬取结果如图: 整体研究周期 2-3 天, ...

随机推荐

uvm_globals——告诉这个世界我爱你
uvm_globals.svh 存放全局的变量和方法.当UVM平台启动时,便在uvm_globals查找相应的方法,uvm_globals 的方法实现也比较简单,就是调用uvm_root对应的方法.其 ...
警告: [SetPropertiesRule]{Server/Service/Engine/Host/Context} 解决方法
Tomcat启动时出现红色警告内容警告: [SetPropertiesRule]{Server/Service/Engine/Host/Context} Setting property 'sour ...
SQL 视图、事务
假设看多个不同的表 select *from student ,score,course,teacher 有重复的改为select student.Sno,sname,ssex,sbirthd ...
sqlserver数据库备份方法
须事先准备一个工具curl,把它放在c盘.然后,在数据库所在服务器安装7z.最后把这2个存储过程执行,在sqlserver的代理中新建作业,即可实现备份操作. --备份指定数据库到本地和远程指定位置( ...
【2016新年版】年度精品 XP，32/64位Win7,32/64位Win8，32/64位Win10系统
本系统是10月5日最新完整版本的Windows10 安装版镜像,win10正式版,更新了重要补丁,提升应用加载速度,微软和百度今天宣布达成合作,百度成为win10 Edge浏览器中国默认主页和搜索引擎 ...
Fiddler模拟POST请求
在进行接口测试时,会模拟post请求,发送不同的请求参数,返回不同的结果,今天我们就来分享一下,怎么用Fiddler工具模拟post请求: 打开Fiddler工具,在右侧点击“composer”的选项 ...
转义字符 & sizeof & strlen
在定义了数组大小时: sizeof是运算符,表示编译时分配的空间大小,即数组定义的大小,char t[20] = "sfa".sizeof: 20; strlen: 3.在未定义数 ...
java 操作mongodb查询条件的常用设置
java操作mongodb进行查询,常用筛选条件的设置如下: 条件列表:BasicDBList condList = new BasicDBList(); 临时条件对象:BasicDBObject c ...
javaEE(17)_邮件原理与JavaMail开发
一.Java邮件开发介绍为什么要学习javamail开发 •现在很多WEB应用在开发时都需要集成邮件发送功能,例如: •给新注册的用户自动发送一封包含其注册信息的欢迎E-Mail. •给过生日的注册 ...
Respond.js-----20150415
Respond.js让IE6-8支持CSS3 Media Query. Bootstrap里面就引入了这个js文件,从名字看出来是自适应的兼容.打开IE看了一下,效果挺好的,自适应的效果挺好的.Res ...

py 爬取页面http://m.sohu.com 并存储

py 爬取页面http://m.sohu.com 并存储的更多相关文章

随机推荐

热门专题