Ubuntu定时执行任务（定时爬取数据）

cron是一个Linux下的后台进程，用来定期的执行一些任务。因为我用的是Ubuntu，所以这篇文章中的所有命令也只能保证在Ubuntu下有效。

1：编辑crontab文件，用来存放你要执行的命令


sudo crontab -e

2：第一次用这个命令，会让你选择文本编辑器，我选的是vim
（输入数字选择就是了！）

3：添加执行命令


0 7 * * *  /usr/bin/python /root/world.py

这句话的意思就是每天早上七点都会自动执行这个脚本！

4：重启cron来应用这个计划任务


sudo service cron restart

0|1corntab详细说明

1：crontab文件的基本格式如下所示

* * * * * command

分 时 天 月 周 命令

crontab中的每一行代表一个定期执行的任务，分为6个部分。前5个部分表示何时执行命令，最后一个部分表示执行的命令。每个部分以空格分隔，除了最后一个部分（命令）可以在内部使用空格之外，其他部分都不能使用空格。前5个部分分别代表：分钟，小时，天，月，星期，每个部分的取值范围如下：
分钟 0 - 59
小时 0 - 23
天 1 - 31
月 1 - 12
星期 0 - 6 0表示星期天
* （星号）表示任意值，比如在小时部分填写 * 代表任意小时（每小时）
，（逗号）可以允许在一个部分中填写多个值，比如在分钟部分填写 1,3 表示一分钟或三分钟
/（斜线）一般配合 * 使用，代表每隔多长时间，比如在小时部分填写 /2 代表每隔两分钟。所以 /1 和 * 没有区别

2：crontab例子
（1）30 20 * * * date >> /home/date.log //每天的20:30将日期信息追加home目录下的date.log中
（2）5 20 13,14 * * date >> /home/date.log //每月的13日，14日20:5分将日期信息最追加home目录下的date.log中
（3）0,10 10,12 * * * date >> /home/date.log //每天10点至12点之间，隔10分钟将日期信息最追加home目录下的date.log中
（4）/5 * * * date >> /home/date.log //每5分钟将日期信息最追加home目录下的date.log中

3：crontab是UNIX系统下定期执行任务的触发器。用户把要定期执行的任务记录在这个文件下面，然后crond定期的去检查这个定期执行列表，有要执行的工作时便自动执行。
通过man crontab可以查看到下面的信息
（1）/etc/crond.allow 表示的是允许使用crontab的用户列表
（2）/etc/crond.deny 表示的是不允许使用crontab的用户列表

4： crontab常用的几个命令格式
crontab -l //显示用户的crontab文件的内容
crontab -e //编辑用户的crontab文件的内容
crontab -r //删除用户的crontab文件

实例分析：

更换成unix的换行符

vim world.py

查看格式

:set ff

发现是dos，我们要将其更换成unix

:set ff=unix

1 创建脚本文件world.py，在文件开头需要加上下面一行

　#!/usr/bin/python

# encoding=utf-8

上面这行的作用是说明使用那个解释器来执行该文件，如果不知道python解释器在哪，可以使用命令which python来查看

设置编码格式

2 给该文件添加可执行的权限

　　chmod +x test.py

　　注意：在脚本文件中如果涉及文件操作，请使用绝对路径，我就是在这上面掉坑里了。

3 添加计划任务

　　crontab -e

　　在文件中追加一行，* 7 * * * * /usr/bin/python /root/world.py

　　保存退出，:wq

4 重启cron服务

　　service cron restart

结束

Ubuntu定时执行任务（定时爬取数据）的更多相关文章

node.js爬取数据并定时发送HTML邮件
node.js是前端程序员不可不学的一个框架,我们可以通过它来爬取数据.发送邮件.存取数据等等.下面我们通过koa2框架简单的只有一个小爬虫并使用定时任务来发送小邮件! 首先我们先来看一下效果图差不 ...
Python使用Scrapy框架爬取数据存入CSV文件(Python爬虫实战4)
1. Scrapy框架 Scrapy是python下实现爬虫功能的框架,能够将数据解析.数据处理.数据存储合为一体功能的爬虫框架. 2. Scrapy安装 1. 安装依赖包 yum install g ...
如何提升scrapy爬取数据的效率
在配置文件中修改相关参数: 增加并发默认的scrapy开启的并发线程为32个,可以适当的进行增加,再配置文件中修改CONCURRENT_REQUESTS = 100值为100,并发设置成了为100. ...
借助Chrome和插件爬取数据
工具 Chrome浏览器 TamperMonkey ReRes Chrome浏览器 chrome浏览器是目前最受欢迎的浏览器,没有之一,它兼容大部分的w3c标准和ecma标准,对于前端工程师在开发过程 ...
web scraper——简单的爬取数据【二】
web scraper——安装[一] 在上文中我们已经安装好了web scraper现在我们来进行简单的爬取,就来爬取百度的实时热点吧. http://top.baidu.com/buzz?b=1&a ...
关于js渲染网页时爬取数据的思路和全过程（附源码）
于js渲染网页时爬取数据的思路首先可以先去用requests库访问url来测试一下能不能拿到数据,如果能拿到那么就是一个普通的网页,如果出现403类的错误代码可以在requests.get()方法里 ...
【Spider】使用CrawlSpider进行爬虫时，无法爬取数据，运行后很快结束，但没有报错
在学习<python爬虫开发与项目实践>的时候有一个关于CrawlSpider的例子,当我在运行时发现,没有爬取到任何数据,以下是我敲的源代码:import scrapyfrom UseS ...
【个人】爬虫实践，利用xpath方式爬取数据之爬取虾米音乐排行榜
实验网站:虾米音乐排行榜网站地址:http://www.xiami.com/chart 难度系数:★☆☆☆☆ 依赖库:request.lxml的etree (安装lxml:pip install ...
python模拟浏览器爬取数据
爬虫新手大坑:爬取数据的时候一定要设置header伪装成浏览器!!!! 在爬取某财经网站数据时由于没有设置Header信息,直接被封掉了ip 后来设置了Accept.Connection.User-A ...
scrapy爬取数据的基本流程及url地址拼接
说明:初学者,整理后方便能及时完善,冗余之处请多提建议,感谢! 了解内容: Scrapy :抓取数据的爬虫框架异步与非阻塞的区别异步:指的是整个过程,中间如果是非阻塞的,那就是异步 ...

随机推荐

STM32的启动方式
STM32三种启动模式对应的存储介质均是芯片内置的,它们是: 1. 用户闪存=芯片内置的Flash. 2. SRAM=芯片内置的RAM区,就是内存啦. 3. 系统存储器system memory=芯片 ...
JVM 专题五：类加载子系统（三）补充内容
3. 补充内容 3.1 在jvm中表示两个class对象是否为同一个类的两个必要条件类的完整类名必须一致,包括包名. 加载这个类的ClassLoader(指ClassLoader实例对象)必须相同 ...
python之爬虫（四）之 Requests库的基本使用
什么是Requests Requests是用python语言基于urllib编写的,采用的是Apache2 Licensed开源协议的HTTP库如果你看过上篇文章关于urllib库的使用,你会发现,其 ...
Java对象与Json字符串的转换
Java对象与Json字符串的转换 JSON是一种轻量级的数据交换格式,常用于前后端的数据交流后端 : 前端 Java对象 > JsonString Java对象 < jsonStrin ...
Python 为什么只需一条语句“a,b=b,a”，就能直接交换两个变量？
从接触 Python 时起,我就觉得 Python 的元组解包(unpacking)挺有意思,非常简洁好用. 最显而易见的例子就是多重赋值,即在一条语句中同时给多个变量赋值: >>> ...
第六章:Android的Drawable
Drawable表示的是一种可以在Canvas上进行绘制的抽象的概念. 6.1 Drawable简介 Drawable常被用来作为View的背景使用. Drawable一般都是通过XML来定义的. D ...
Cyber Security - Palo Alto Firewall Objects Addresses, Services, and Groups(2)
Users Objects and Groups Creating local user objects. Creating local user groups. https://docs.paloa ...
html命名规则
CSS样式命名外套 wrap ------------------用于最外层头部 header ----------------用于头部主要内容 main ------------用于主体内容( ...
Python基础知识点：多进程的应用讲解
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者:东哥IT笔记现在很多CPU都支持多核,甚至是手机都已经开始支持多核 ...
java 成员变量和局部变量的区别
将对象的存储在数组中会报错 public static void main(String[] args) { ArrayList<Goods> arrayList = new ArrayL ...

Ubuntu定时执行任务（定时爬取数据）

0|1corntab详细说明

Ubuntu定时执行任务（定时爬取数据）的更多相关文章

随机推荐

热门专题