用Python定时爬取网站最新资源

记录一下。

写做个网站，爬了另一个网站的内容来做自己网站的内容。

把脚本挂到服务器，每隔一个小时去爬一次资源，然后保存到一个HTML文件里。

用flask做web对接，当有请求的时候就返回那个HTML文件。

这样就实现了一个api接口。思路大概就这样，比较简单，没做什么防护。

下面这个是脚本代码。

 import requests,time,re     #一共三个模块，没装的先装

 def zyw():

     while(True):

         url='https://www.525zyw.com/'  #爬的网站URL

         html=requests.get(url).text        #获取网站的首页源代码

         re_url=re.findall('<li class="column half"><div class="lbbt_c00">(.*?)</div>.*?</li>',html,re.S)   #比配最新资源

         list_r=''

         for i in re_url:

             tiem=re.findall('.*?>(.*?)</span>.*?',i,re.S)[0]   #这里的四个正则主要是进一步的提取我们需要的东西

             src=re.findall('.*?<img src="(.*?)"/>.*?',i,re.S)[0]   #

             href=re.findall('.*?<a href="(.*?)".*?',i,re.S)[0]

             title=re.findall('.*?title="(.*?)".*?',i,re.S)[0]

             res='<span style="font-weight: bold;">%s</span><img src="%s%s"/> <a href="%s%s" title="%s" style="color:#000000;" target="_blank">%s</a><br><br>'%(tiem,url,src,url,href,title,title)

             list_r=list_r+res   #经过上面的拼接，这里是所有的内容加入一个字符串

         f=open('./templates/zyw.html','w')   #打开文件

         f.write(list_r)    #把字符串写入文件

         f.close()

         time.sleep(3600)    #这里是每隔1个小时去爬一次，测试时先注释掉

 if __name__ == '__main__':

     zyw()    #调用

这里是用flask框架做对接。本来是想直接返回HTML文件的，但是出现了点问题，我就读HTML文本直接返回文本。

 from flask import Flask

 from flask import request

 app=Flask(__name__)

 @app.route('/zyw/ziyuan/')

 def hm():

     ff=open("templates/zyw.html")

     str=ff.read()

     ff.close()

     return str

用Python定时爬取网站最新资源的更多相关文章

python 实现爬取网站下所有URL
python3 实现爬取网站下所有URL 获取首页元素信息: 首页的URL链接获取: 遍历第一次返回的结果: 递归循环遍历: 全部代码如下: 小结: python3.6 requests && ...
Python：爬取网站图片并保存至本地
Python:爬取网页图片并保存至本地 python3爬取网页中的图片到本地的过程如下: 1.爬取网页 2.获取图片地址 3.爬取图片内容并保存到本地实例:爬取百度贴吧首页图片. 代码如下: imp ...
Python脚本爬取网站美女照片
上次无意之中看到一个网站,里面全是美女的照片,我就心想,哪天有时间了得把这网站的所有美女照片都得爬下来.今天有时间,写了点代码,爬去了网站的所有照片.附上战果!图片实在是太多了,爬半个多小时先附上所 ...
【Python】爬取网站图片
import requests import bs4 import urllib.request import urllib import os hdr = {'User-Agent': 'Mozil ...
python 定时爬取内容并发送报告到指定邮箱
import requests import smtplib import schedule import time from bs4 import BeautifulSoup from email. ...
Python 利用 BeautifulSoup 爬取网站获取新闻流
0. 引言介绍下 Python 用 Beautiful Soup 周期性爬取 xxx 网站获取新闻流: 图 1 项目介绍 1. 开发环境 Python: 3.6.3 BeautifulSoup: ...
python爬取网站数据保存使用的方法
这篇文章主要介绍了使用Python从网上爬取特定属性数据保存的方法,其中解决了编码问题和如何使用正则匹配数据的方法,详情看下文编码问题因为涉及到中文,所以必然地涉及到了编码的问题,这一次借这 ...
使用scrapy爬取网站的商品数据
目标是爬取网站http://www.muyingzhijia.com/上全部的商品数据信息,包括商品的一级类别,二级类别,商品title,品牌,价格. 搜索了一下,python的scrapy是一个不错 ...
利用linux curl爬取网站数据
看到一个看球网站的以下截图红色框数据,想爬取下来,通常爬取网站数据一般都会从java或者python爬取,但本人这两个都不会,只会shell脚本,于是硬着头皮试一下用shell爬取,方法很笨重,但旨在 ...

随机推荐

唯品会API网关设计与实践--转
原文地址:https://609518.kuaizhan.com/86/70/p4108366952248f 刘璟宇Leo 唯品会资深研发工程师,在大型高性能分布式系统设计和开发方面有丰富的经验.目前 ...
ActiveMQ学习笔记（16）----Message Dispatch高级特性（二）
1. Optimized Acknowledgetment ActiveMQ缺省支持批量确认消息,由于批量确认会提高性能,如果希望在应用程序中禁止经过优化的确认方式,可以采用以下几种方式: 1. 在C ...
[SCOI2009]windy数数位dp
Code: #include<cmath> #include<iostream> #include<cstdio> using namespace std; con ...
[Python随笔]>>字符串大小写是如何转换的？
首先看下Python的源码 Emmmm,说明是底层的C实现的,所以只放了说明再看看别人家孩子的博客:https://blog.csdn.net/world6/article/details/6994 ...
服务器搭建域控与SQL Server的AlwaysOn环境过程（三）配置故障转移
0 引言主要讲述如何搭建故障转移集群,因为AlwaysOn是基于Windows的故障转移集群的. 在讲解步骤之前需要了解一下故障转移集群仲裁配置下面图片来自<Windows Server20 ...
S-T表学习笔记
$O(nlogn)$构造$O(1)$查询真是太强辣然而不支持修改= = ShØut! #include<iostream> #include<cstring> #includ ...
浏览器解析，HTTP/HTTPS、TCP/IP、WebSocket协议
浏览器相关浏览器对同一个域名有连接数限制,大部分是 6. 浏览器指的是 Chrome.Firefox,而浏览器内核则是 Blink.Gecko,浏览器内核只负责渲染,GUI 及网络连接等跨平台工作则 ...
Qt5.7新特性
简述 Qt5.7发布了,新特性如下. 简述新特性 C11 Support Required from the compiler New Features within existing module ...
在Windows上面安装多个Memcached
在Windows上面安装多个Memcached sc create "memcached Server3" start= auto binPath= "D:\memcac ...
严重: 文档无效: 找不到语法。 at (null:2:19)
1.错误描写叙述严重: 文档无效: 找不到语法. at (null:2:19) org.xml.sax.SAXParseException; systemId: file:/D:/MyEclipse ...

用Python定时爬取网站最新资源

用Python定时爬取网站最新资源的更多相关文章

随机推荐

热门专题