数据库(Oracle)运维工作内容及常用脚本命令
1、系统资源状况:
--内存及CPU资源
--linux,solaris,aix
vmstat 5
--说明:
1)观察空闲内存的数量多少,以及空闲内存量是否稳定,如果不稳定就得想办法来解决,怎么解决还得看具体情况,一般可以通过调整相关内存参数来解决,各种操作系统输出指标、解释及内存调整参数及方法不完全一样;
2)观察CPU资源利用情况,首先,需要观察CPU上运行的任务数,也就是vmstat输出中位于第一列上的指标,如果该指标持续大于CPU核心数,应该引起注意;如果该指标持续大于CPU核心数的两倍,那么应该引起重视;如果持续为CPU核心数的多倍,系统一般会出现应用可感知的现象,必须立刻想办法解决。当然,在观察该指标的同时,还要结合CPU利用率的指标情况,如:用户使用百分比,系统使用百分比,空闲百分比等指标,如果空闲百分比持续低于20%,应该引起注意;如果持续低于10%,应该引起重视;如果持续为0,系统一般会出现应用可感知的现象,应该立刻想办法解决问题;
3)CPU用户使用百分比和系统使用百分比的比例,也是应该注意的。一般来说,在一个状态正常的系统上,用户使用百分比应该比系统使用百分比大很多,几倍到十几倍甚至更高,如果系统使用百分比持续接近用户使用百分比,甚至大于用户使用百分比,说明系统的状态是不正常的,可能是硬件或者操作系统问题,也可能是应用问题。有关vmstat输出中各指标及解释等,可以参照本人博客中相关文章:http://blog.csdn.net/tuning_optmization。
--IO状况
--linux,solaris
iostat -dx 5
--aix
iostat 5
--说明:
1)该命令主要用来观察系统存储设备的负载和性能状况,首先,需要观察系统各存储设备的繁忙程度,如果该繁忙程度指标持续超过80%,那么应该引起注意;如果持续超过90%,应该引起重视;如果持续100%,一般会出现应用感知的现象,应该立刻想办法解决问题;
2)其次,需要注意的是系统上各存储设备的IO能力,就是每秒钟各存储设备的输入、输出的数据量,这个和具体设备的硬件及配置有关,没有一个严格的标准,性能好点的能达到每秒上G,甚至几个G,差的只能到每秒几十兆甚至十几兆;
3)最后,需要观察存储设备完成每次读写操作耗费的时间,这个也是和具体设备硬件和配置相关的,好的设备可能不到1毫秒,差的能到几十毫秒甚至上百毫秒;iostat的输出,在各种操作系统上的输出和解释也不尽相同,具体可以参照本人博客的相关文章:http://blog.csdn.net/tuning_optmization。
2、磁盘空间及使用率
df -k
--说明:
1)该命令会输出系统上各存储设备的设备名,总空间量,已使用空间量及百分比,可用空间量及百分比,及挂载点名字等,这里存储空间的单位为K;
3、查看系统日志
--说明:
1)需要查看的日志名字及具体位置,和具体的操作系统及你的关注点有关,具体可以参照相关文章;
4、查看数据库告警日志(alert.log)
--说明:
1)不同的数据库版本,该日志的位置也会不同,一般来说,10g的数据库上,在ORACLE_BASE/admin/ORACLE_SID/bdump/alert_ORACLE_SID.log;而11g数据库上,在ORACLE_BASE/diag/rdbms/ORACLE_SID/ORACLE_SID/trace/alert_ORACLE_SID.log,具体可以登录数据库并通过以下命令查询:
select value from v$diag_info where name ='Diag Trace';
2)找到alert.log日志后,可以检查是否有异常情况,例如:报错,可疑告警,可疑命令等,如果有这些异常,可以将这些信息报告专业DBA,由专业DBA结合其他信息进一步跟踪、分析,直到找到引起异常的原因,并妥善解决为止;
5、查看数据库表空间
--说明:
1)最重要的是,查看数据库的空间使用率,数据库各表空间的空间使用情况,可以用以下命令查询,如果发现表空间使用率异常,应该引起注意,需进一步调查是正常使用还是异常使用,如果正常使用引起的空间不够,可以考虑对表空间扩容或其他措施解决,否则,就得看看什么问题导致了表空间的异常使用,查明原因后解决;
Select d.tablespace_name,space "sum_space(m)",blocks sum_blocks,
space-nvl(free_space,0) "used_space",round((1-nvl(free_space,0)/space)*100,2) "used_rate(%)",
Free_space "free_space(M)"
From (select tablespace_name,round(sum(bytes)/(1024*1024),2) space,sum(blocks) blocks
From dba_data_files
Group by tablespace_name) d,
(select tablespace_name,round(sum(bytes)/(1024*1024),2) free_space
From dba_free_space
Group by tablespace_name) f
Where d.tablespace_name=f.tablespace_name(+)
Union all
Select d.tablespace_name,space "sum_space(M)",blocks sum_blocks,used_space "used_space(M)",round(nvl(used_space,0)/space*100,2) "used_rate(%)",
Nvl(free_space,0) "free_space(m)"
From
(select tablespace_name,round(sum(bytes)/(1024*1024),2) space,
Sum(blocks) blocks
From dba_temp_files
Group by tablespace_name) d,
(select tablespace_name,round(sum(bytes_used)/(1024*1024),2) used_space,round(sum(bytes_free)/(1024*1024),2) free_space
From v$temp_space_header
Group by tablespace_name) f
Where d.tablespace_name=f.tablespace_name(+)
order by tablespace_name;
2)其次,要查看表空间的设置及状态,最该注意的是用户数据表空间数据文件的自动扩展设置,一般来说,建议关闭用户数据表空间数据文件的自动扩展,这样,可以避免意外事件的发生,例如:表空间异常使用导致的系统空间耗尽等;关闭数据文件自动增长,当表空间耗尽时,继续使用数据库会在用户端报错,从而可以起到空间告警的作用,表空间数据文件可以查询ba_data_files及dba_temp_files等视图;
6、查看数据库用户
--说明:
1)可以查看dba_users视图来了解数据库用户的情况,如果发现异常信息,及时通知专业DBA等相关人员,并进一步跟踪、分析,直到找到引起异常的原因并妥善解决,例如:发现了新的数据库用户;原来被锁定的用户被打开了;用户默认表空间发生了变化;用户默认资源配置梗概或资源消耗组发生了变化等。
7、查看用户权限及审计信息
--说明:
1)查看用户权限,看用户权限是否发生了变化,是否存在过度授权的情况,查看用户拥有的所有权限可以用以下语句:
SELECT 'ROLE' TYPE,grantee,granted_role privilege,admin_option ad,
'/' table_name,'/' column_name,'/' owner
FROM dba_role_privs
WHERE grantee = UPPER ('&&1')
UNION ALL
SELECT 'SYSTEM' TYPE,grantee,privilege privilege,admin_option ad,
'/' table_name,'/' column_name,'/' owner
FROM dba_sys_privs
WHERE grantee = UPPER ('&&1')
UNION ALL
SELECT 'TABLE' TYPE,grantee,privilege privilege,grantable ad,
table_name,'/' column_name,owner
FROM dba_tab_privs
WHERE grantee = UPPER ('&&1')
UNION ALL
SELECT 'COLUMN' TYPE,grantee,privilege privilege,
grantable ad,table_name,column_name,owner
FROM dba_col_privs
WHERE grantee = UPPER ('&&1')
ORDER BY 1;
2)如果系统启用了审计功能,根据审计具体配置的不同,可以查看相应表、视图、字典或操作系统文件;
8、查看系统会话数及会话情况
--说明:
1)查看系统会话数,可以多次运行以下命令查看,看看总会话数是否稳定,也可以分用户查看会话数,并查看各用户会话数是否稳定,并和之前的数据进行对比,如果发现不稳定或异常,及时通知专业DBA等相关人员,并进一步跟踪、分析,直至找到出现异常的原因并妥善解决,例如:会话的异常增长等。
select count(*) from v$session;
select username,count(*) from v$session group by username;
2)大体查看会话,看看是否有异常信息,如果发现异常情况,及时通知专业DBA等相关人员,并进一步跟踪、分析,直到找到出现异常的原因并妥善解决,例如:异常主机的登录;异常用户的登录等;
select * from v$session;
9、查看数据库等待事件
--说明:
1)数据库等待事件,可以反映数据库目前的运行状态,可以用以下命令查询,如果发现异常信息,及时通知专业DBA等相关人员,并进一步跟踪、分析,知道找到出现异常的原因并妥善解决,此外,由于该项检查专业性比较强,很多时候,最好由专业DBA或者运维人员与专业DBA一起检查该项目,以便及时准确的发现和解决问题,具体事件及解释可以参照本人博客相关文章:http://blog.csdn.net/tuning_optmization。
Select event "wait event",sum(seconds_in_wait) "waited so far(sec)",
Count(sid) "num sess waiting"
From v$session_wait
Group by event
order by "waited so far(sec)" desc,"num sess waiting" desc;
10、检查用户密码情况
--说明:
1)检查操作系统用户密码,检查各用户密码是否变化,如果发现异常,及时通知系统管理员等相关人员,并进一步跟踪、分析,直到找到异常的原因并妥善解决,最好定期修改密码;
2)检查数据库用户密码,检查数据库各用户密码是否变化,如果发现异常,及时通知专业DBA等相关人员,并进一步跟踪、分析,直到找到异常的原因并妥善解决,最好定期修改密码;
11、定期获取AWR报告并分析
--说明:
1)AWR报告是oracle数据库支持的一个功能,可以反映数据库相应时段的负载和性能等状态,系统默认保留一周的快照以生成相应AWR,快照粒度为1小时;
2)AWR包含信息非常全面,专业DBA可以根据它了解到相应时段数据库乃至服务器的整体状态,分析AWR报告的工作需要专业DBA或者请专业DBA配合来做,一旦发现异常,及时通知相关人员,并进一步跟踪、分析,直到找到异常的原因并妥善解决,获取及分析AWR报告的方法,可以参照本人的博客相关文章:http://blog.csdn.net/tuning_optmization,禁止转载。
数据库(Oracle)运维工作内容及常用脚本命令的更多相关文章
- linux运维工作内容及岗位要求
什么是Linux?大家日常使用电脑听歌.打游戏娱乐或处理日常工作时,接触到最多的就是Windows操作系统,电脑如果不安装Windows系统是无法进行娱乐和工作的,所有的软件程序都必须运行在操作系统之 ...
- 运维工作中常用到的几个rsync同步命令
作为一个运维工程师,经常可能会面对几十台.几百台甚至上千台服务器,除了批量操作外,环境同步.数据同步也是必不可少的技能.说到“同步”,不得不提的利器就是rsync. 下面结合本人近几年运维工作中对这一 ...
- DBA避坑宝典:Oracle运维中的那些事儿
对于Oracle运维中的那些事儿,我的最终目的:不是比谁更惨,而是能够从中吸取经验和教训. 从我的理解来看,我会从下面的几个方面来进行说明DBA运维中的一些事儿. 每个部分都是非常关键的,缺一不可,而 ...
- Oracle运维 专业的事情交给专业的人来做
关于Oracle运维的重要性,随便写了几句,放在这儿和大家共勉. Oracle数据库在RDBMS中独占熬头,07年统计其市场份额占关系数据库市场的48.6%稳居首位,而且逐年增加,上升势头强劲.在使用 ...
- oracle运维(持续更新)
目录 简单命令使用 进入SQL*Plus 退出SQL*Plus 在sqlplus下得到帮助信息 显示表结构命令 DESCRIBE SQL*Plus 中的编辑命令 调用外部系统编辑器 运行命令文件 关于 ...
- 面试 Linux 运维工作至少需要知道哪些知识?
前言 我们已经发过不少 Linux 面试题,但是单独的面试题总感觉会过于零碎,没有体系化内容给人的帮助大. 知乎上有这样一个问题:一个新手面试 Linux 运维工作至少需要知道哪些知识?其中有一个答案 ...
- [Oracle运维工程师手记] 如何从trace 文件,判断是否执行了并行
[Oracle运维工程师手记系列]如何从trace 文件,判断是否执行了并行 客户说,明明指定了并行的hint,OEM 却报说没有并行,并且提供了画面. 客户的SQL文长这样: INSERT/*+ p ...
- Linux 运维工作中的经典应用ansible(批量管理)Docker容器技术(环境的快速搭建)
一 Ansible自动化运维工具 Python 在运维工作中的经典应用 ansible(批量管理操作) .安装ansible(需要bese epel 2种源) wget -O /etc/yum.rep ...
- 关于Linux主流框架运维工作剖析
LINUX是开源的,这也是最主要的原因,想学Windows,Unix对不起,没有源代码.也正是因为这样,LINUX才能够像雪球一样越滚越大,发展到现在这种规模.今天将为大家带来关于Linux主流框架运 ...
随机推荐
- freemarker写select组件(四)
freemarker写select组件 1.宏定义 <#macro select id datas value="" key="" text=" ...
- Flex中对表格中某列的值进行数字格式化并求百分比
1.问题背景 一般的,需要对表格中某列的数值进行格式化,对该数值乘以100,并保留两位小数,添加"%" 2.实现实例 <?xml version="1.0" ...
- 异常-----freemarker.core.NonStringException
一,案例一 1.1.错误描述 <html> <head> <meta http-equiv="content-type" content=" ...
- SpringBoot 文件上传临时文件路径问题
年后放假回来,一向运行OK的项目突然图片上传不了了,后台报错日志如下: java.io.IOException: The temporary upload location [/tmp/tomcat. ...
- 谈谈在.NET Core中使用Redis和Memcached的序列化问题
前言 在使用分布式缓存的时候,都不可避免的要做这样一步操作,将数据序列化后再存储到缓存中去. 序列化这一操作,或许是显式的,或许是隐式的,这个取决于使用的package是否有帮我们做这样一件事. 本文 ...
- 基于puppet分布式集群管理公有云多租户的架构浅谈
基于puppet分布式集群管理公有云多租户的架构浅谈 一.架构介绍 在此架构中,每个租户的业务集群部署一台puppet-master作为自己所在业务集群的puppet的主服务器,在每个业务集群所拥 ...
- 一次SQL慢查询的优化处理
背景 在开发完成,数据验证的过程中,需要对两个非常大的表进行query,运行了十几分钟都跑不完.如下: select * from big_a a, big_b b where a.some_id = ...
- MySQL性能调优与架构设计
1.Scale(扩展):从数据库来看,就是让数据库能够提供更强的服务能力 ScaleOut: 是通过增加处理节点的方式来提高整体处理能力 ScaleUp: 是通过增加当前处理节点的处理能力来提高整体的 ...
- djang-tastypie学习整理
quick start: 配置环境(pip install: Python 2.7+ or Python 3.4+ Django 1.8+ python-mimeparse 0.1.4+ (http: ...
- c运行时函数参考学习地址
https://docs.microsoft.com/zh-cn/cpp/c-runtime-library/c-run-time-library-reference http://pubs.open ...