精心整理了一套Oracle日常巡检脚本，速速收藏！

SQL专栏

前言

0.登录数据库

sqlplus / nolog
conn /as sysdba(或者conn 账号/密码)

1. 检查数据库基本状况

包含：检查Oracle实例状态，检查Oracle服务进程，检查Oracle监听进程，共三个部分。

1.1. 检查Oracle实例状态

设置打印输出一行的字符数，这里设置成500。

set linesize 500;
select instance_name,host_name,startup_time,
status,database_status
from v$instance;

其中v$instance是实例状态视图；

“STATUS”表示Oracle当前的实例状态，必须为“OPEN”；

“DATABASE_STATUS”表示Oracle当前数据库的状态，必须为“ACTIVE”。

1.2. 检查Oracle在线日志状态

select 
group#,status,type,member 
from v$logfile;

其中v$logfile是描述重做日志信息的视图，上面的输出结果应该有3条以上（包含3条）记录，“STATUS”应该为非“INVALID”，非“DELETED”。

注：“STATUS”显示为空表示正常。

1.3. 检查Oracle表空间的状态

select 
tablespace_name,status 
from dba_tablespaces;

dba_tablespaces是所有表空间的描述信息，上面的输出结果中STATUS应该都为ONLINE。

1.4. 检查Oracle所有数据文件状态

select name,status from v$datafile;

其中v$datafile是从oracle的控制文件中获得的数据文件的信息的，上面的输出结果中“STATUS”应该都为“ONLINE”。

1.5. 检查无效对象

select 
owner,object_name,object_type
from dba_objects
where status!='VALID' 
and owner!='SYS' 
and owner!='SYSTEM';

如果有记录返回，则说明存在无效对象。若这些对象与应用相关，那么需要重新编译生成这个对象，或者：

SELECT 
owner, object_name, object_type
FROM dba_objects
WHERE status= 'INVALID';

1.6. 检查所有回滚段状态

select 
segment_name,status 
from dba_rollback_segs;

输出结果中所有回滚段的“STATUS”应该为“ONLINE”。

2. 检查Oracle相关资源的使用情况

a.检查Oracle初始化文件中相关的参数值
b.检查数据库连接情况，检查系统磁盘空间
c.检查Oracle各个表空间使用情况，检查一些扩展异常的对象，
d.检查system表空间内的内容，检查对象的下一扩展与表空间的最大扩展值，总共七个部分。

2.1. 检查Oracle初始化文件中相关参数值

select resource_name,
max_utilization,
initial_allocation, 
limit_value
from v$resource_limit;

若LIMIT_VALU-MAX_UTILIZATION<=5，则表明与RESOURCE_NAME相关的Oracle初始化参数需要调整。

可以通过修改Oracle初始化参数文件$ORACLE_BASE/admin/CKDB/pfile/initORCL.ora来修改。

2.2. 检查数据库连接情况

查看当前会话连接数，是否属于正常范围。

select count(*) from v$session;

select 
sid,serial#,username,program,machine,status 
from v$session;

其中：SID 会话(session)的ID号；

SERIAL# 会话的序列号，和SID一起用来唯一标识一个会话；

USERNAME 建立该会话的用户名；

PROGRAM 这个会话是用什么工具连接到数据库的；

STATUS 当前这个会话的状态，ACTIVE表示会话正在执行某些任务，INACTIVE表示当前会话没有执行任何操作；

如果建立了过多的连接，会消耗数据库的资源，同时，对一些“挂死”的连接可能需要手工进行清理。如果DBA要手工断开某个会话，则执行：

（一般不建议使用这种方式去杀掉数据库的连接，这样有时候session不会断开。容易引起死连接。建议通过sid查到操作系统的spid,

使用ps –ef|grep spidno的方式确认spid不是ORACLE的后台进程。使用操作系统的kill -9命令杀掉连接）

alter system kill session 'SID,SERIAL#';

注意：上例中SID为1到10(USERNAME列为空)的会话，是Oracle的后台进程，不要对这些会话进行任何操作。

2.3. 检查系统磁盘空间

如果文件系统的剩余空间过小或增长较快，需对其进行确认并删除不用的文件以释放空间。

[oracle@local ~]$ df -h

2.4. 检查表空间使用情况

select f.tablespace_name,
a.total,
f.free,
round((f.free / a.total) * 100) '% Free'
from (select tablespace_name, sum(bytes / (1024 * 1024)) total
from dba_data_files
group by tablespace_name) a, 
(select tablespace_name, round(sum(bytes / (1024 * 1024))) free
from dba_free_space
group by tablespace_name) f
WHERE a.tablespace_name = f.tablespace_name(+)
order by '% Free';

如果空闲率%Free小于10%以上（包含10%），则注意要增加数据文件来扩展表空间而不要是用数据文件的自动扩展功能。

请不要对表空间增加过多的数据文件，增加数据文件的原则是每个数据文件大小为2G或者4G，自动扩展的最大限制在8G。

2.5. 检查一些扩展异常的对象

select Segment_Name,
Segment_Type,
TableSpace_Name, 
(Extents / Max_extents) * 100 Percent
From sys.DBA_Segments
Where Max_Extents != 0
and (Extents / Max_extents) * 100 >= 95
order By Percent;

如果有记录返回，则这些对象的扩展已经快达到它定义时的最大扩展值。对于这些对象要修改它的存储结构参数。

2.6. 检查system表空间内的内容

select distinct (owner)
from dba_tables
where tablespace_name = 'SYSTEM'
and owner != 'SYS'
and owner != 'SYSTEM'
union
select distinct (owner)
from dba_indexes
where tablespace_name = 'SYSTEM'
and owner != 'SYS'
and owner != 'SYSTEM';

如果记录返回，则表明system表空间内存在一些非system和sys用户的对象。应该进一步检查这些对象是否与我们应用相关。

如果相关请把这些对象移到非System表空间，同时应该检查这些对象属主的缺省表空间值。

2.7. 检查对象的下一扩展与表空间的最大扩展值

select a.table_name, a.next_extent, a.tablespace_name
from all_tables a, 
(select tablespace_name, max(bytes) as big_chunk 
from dba_free_space 
group by tablespace_name) f
where f.tablespace_name = a.tablespace_name 
and a.next_extent > f.big_chunk
union
select a.index_name, a.next_extent, a.tablespace_name
from all_indexes a, 
(select tablespace_name, max(bytes) as big_chunk 
from dba_free_space 
group by tablespace_name) f
where f.tablespace_name = a.tablespace_name 
and a.next_extent > f.big_chunk;

如果有记录返回，则表明这些对象的下一个扩展大于该对象所属表空间的最大扩展值，需调整相应表空间的存储参数。

3. 检查Oracle数据库备份结果

a.检查数据库备份日志信息;
b.检查backup卷中文件产生的时间;
c.检查oracle用户的email

3.1. 检查数据库备份日志信息

假设：备份的临时目录为/backup/hotbakup，我们需要检查2009年7月22日的备份结果，则用下面的命令来检查：

#cat /backup/hotbackup/hotbackup-09-7-22.log|grep –i error

备份脚本的日志文件为hotbackup-月份-日期-年份.log，在备份的临时目录下面。如果文件中存在“ERROR:”，则表明备份没有成功，存在问题需要检查。

3.2. 检查backup卷中文件产生的时间

#ls –lt /backup/hotbackup

backup卷是备份的临时目录，查看输出结果中文件的日期，都应当是在当天凌晨由热备份脚本产生的。如果时间不对则表明热备份脚本没执行成功。

3.3. 检查oracle用户的email

#tail –n 300 /var/mail/oracle

热备份脚本是通过Oracle用户的cron去执行的。cron执行完后操作系统就会发一条Email通知Oracle用户任务已经完成。查看Oracle email中今天凌晨部分有无ORA-，Error，Failed等出错信息，如果有则表明备份不正常。

4. 检查Oracle数据库性能

在本节主要检查Oracle数据库性能情况，包含：检查数据库的等待事件，检查死锁及处理，检查cpu、I/O、内存性能，查看是否有僵死进程，检查行链接/迁移，定期做统计分析，检查缓冲区命中率，检查共享池命中率，检查排序区，检查日志缓冲区，总共十个部分。

4.1. 检查数据库的等待事件

set pages 80
set lines 120
col event for a40
select sid, event, p1, p2, p3, WAIT_TIME, SECONDS_IN_WAIT
from v$session_wait
where event not like 'SQL%'
and event not like 'rdbms%';

如果数据库长时间持续出现大量像latch free，enqueue，buffer busy waits，db file sequential read，db file scattered read等等待事件时，

需要对其进行分析，可能存在问题的语句。

4.2. Disk Read最高的SQL语句的获取

SELECT SQL_TEXT
FROM (SELECT * FROM V$SQLAREA ORDER BY DISK_READS)
WHERE ROWNUM <= 5;

4.3. 查找前十条性能差的sql

SELECT *
FROM (SELECT PARSING_USER_ID 
EXECUTIONS,
SORTS,
COMMAND_TYPE,
DISK_READS, 
SQL_TEXT
FROM V$SQLAREA
ORDER BY DISK_READS DESC)
WHERE ROWNUM < 10;

4.4. 等待时间最多的5个系统等待事件的获取

SELECT *
FROM (SELECT *
FROM V$SYSTEM_EVENT
WHERE EVENT NOT LIKE 'SQL%'
ORDER BY TOTAL_WAITS DESC)
WHERE ROWNUM <= 5;

4.5. 检查运行很久的SQL

COLUMN USERNAME FORMAT A12
COLUMN OPNAME FORMAT A16
COLUMN PROGRESS FORMAT A8

SELECT USERNAME,
       SID,
       OPNAME,
       ROUND(SOFAR * 100 / TOTALWORK, 0) || '%' AS PROGRESS,
       TIME_REMAINING,
       SQL_TEXT
FROM V$SESSION_LONGOPS, V$SQL
WHERE TIME_REMAINING <> 0
AND SQL_ADDRESS = ADDRESS
AND SQL_HASH_VALUE = HASH_VALUE;

4.6. 检查消耗CPU最高的进程

SET LINE 240
SET VERIFY OFF
COLUMN SID FORMAT 999
COLUMN PID FORMAT 999
COLUMN S_# FORMAT 999
COLUMN USERNAME FORMAT A9 HEADING 'ORA USER'
COLUMN PROGRAM FORMAT A29
COLUMN SQL FORMAT A60
COLUMN OSNAME FORMAT A9 HEADING 'OS USER'
SELECT P.PID PID,
       S.SID SID,
       P.SPID SPID,
       S.USERNAME USERNAME,
       S.OSUSER OSNAME,
       P.SERIAL# S_#,
       P.TERMINAL,
       P.PROGRAM PROGRAM,
       P.BACKGROUND,
       S.STATUS,
       RTRIM(SUBSTR(A.SQL_TEXT, 1, 80)) SQLFROM V$PROCESS P,
       V$SESSION S,
       V$SQLAREA A 
WHERE P.ADDR = S.PADDR 
AND S.SQL_ADDRESS = A.ADDRESS(+) 
AND P.SPID LIKE '%&1%';

4.7. 检查碎片程度高的表

SELECT segment_name table_name, COUNT(*) extents
FROM dba_segments
WHERE owner NOT IN ('SYS', 'SYSTEM')
GROUP BY segment_name
HAVING COUNT(*) = (SELECT MAX(COUNT(*))
                     FROM dba_segments
                    GROUP BY segment_name);

4.8. 检查表空间的I/O比例

SELECT DF.TABLESPACE_NAME NAME,
       DF.FILE_NAME 'FILE',
       F.PHYRDS PYR,
       F.PHYBLKRD PBR,
       F.PHYWRTS PYW,
       F.PHYBLKWRT PBW
  FROM V$FILESTAT F, DBA_DATA_FILES DF
 WHERE F.FILE# = DF.FILE_ID
 ORDER BY DF.TABLESPACE_NAME;

4.9. 检查文件系统的I/O比例

SELECT SUBSTR(A.FILE#, 1, 2) '#',
       SUBSTR(A.NAME, 1, 30) 'NAME',
       A.STATUS,
       A.BYTES,
       B.PHYRDS,
       B.PHYWRTS
  FROM V$DATAFILE A, V$FILESTAT B
 WHERE A.FILE# = B.FILE#;

4.10.检查死锁及处理

查询目前锁对象信息：

select sid,
       serial#,
       username,
       SCHEMANAME,
       osuser,
       MACHINE, 
       terminal,
       PROGRAM,
       owner,
       object_name,
       object_type,
       o.object_id
  from dba_objects o, v$locked_object l, v$session s
 where o.object_id = l.object_id
   and s.sid = l.session_id;

oracle级kill掉该session：

alter system kill session '&sid,&serial#';

操作系统级kill掉session：

#kill -9 pid

5. 检查数据库cpu、I/O、内存性能

记录数据库的cpu使用、IO、内存等使用情况，使用vmstat,iostat,sar,top等命令进行信息收集并检查这些信息，判断资源使用情况。

5.1 CPU使用情况：

#top

注意显示结果中的蓝色字体部分，此部分内容表示系统剩余的cpu，当其平均值下降至10%以下的时视为CPU使用率异常，需记录下该数值，并将状态记为异常。

5.2 内存使用情况：

# free -m

结果中的蓝色部分表示系统总内存，红色部分表示系统使用的内存，黄色部分表示系统剩余内存，当剩余内存低于总内存的10%时视为异常。

5.3 系统I/O情况：

# iostat -k 1 3

结果中蓝色字体部分表示磁盘读写情况，红色字体部分为cpu IO等待情况。

5.4 系统负载情况：

#uptime

结果中蓝体字部分表示系统负载，后面的3个数值如果有高于2.5的时候就表明系统在超负荷运转了，并将此值记录到巡检表，视为异常。

5.5.查看是否有僵死进程

select spid 
from v$process 
where addr not in (
select paddr from v$session
);

有些僵尸进程有阻塞其他业务的正常运行，定期杀掉僵尸进程。

5.6.检查行链接/迁移

select table_name, num_rows, chain_cnt
From dba_tables
Where owner = 'CTAIS2'
And chain_cnt <> 0;

注：含有long raw列的表有行链接是正常的,找到迁移行保存到chained_rows表中,如没有该表执行../rdbms/admin/utlchain.sql

analyze table tablename list chained rows;

可通过表chained_rows中table_name,head_rowid看出哪些行是迁移行

create table aa as 
select a.* 
from sb_zsxx a,chained_rows b 
where a.rowid=b.head_rowid 
and b.table_name ='SB_ZSXX';

delete from sb_zsxx 
where rowid in (
select head_rowid 
from chained_rows 
where table_name = 'SB_ZSXX'
);

insert into sb_zsxx 
select * from chained_row 
where table_name = 'SB_ZSXX';

5.7 定期做统计分析

对于采用Oracle Cost-Based-Optimizer的系统，需要定期对数据对象的统计信息进行采集更新，使优化器可以根据准备的信息作出正确的explain plan。在以下情况更需要进行统计信息的更新：

a. 应用发生变化

b. 大规模数据迁移、历史数据迁出、其他数据的导入等

c .数据量发生变化

查看表或索引的统计信息是否需更新，如：

Select 
table_name,num_rows,last_analyzed 
From user_tables 
where table_name ='DJ_NSRXX'

select count(*) from DJ_NSRXX如num_rows和count(*)

如果行数相差很多,则该表需要更新统计信息，建议一周做一次统计信息收集，如：

exec sys.dbms_stats.gather_schema_stats(ownname=>'CTAIS2',cascade => TRUE,degree => 4);

5.8 检查缓冲区命中率

SELECT a.VALUE + b.VALUE logical_reads,
       c.VALUE phys_reads,
       round(100 * (1 - c.value / (a.value + b.value)), 4) hit_ratio
FROM v$sysstat a, v$sysstat b, v$sysstat c
WHERE a.NAME = 'db block gets'
   AND b.NAME = 'consistent gets'
   AND c.NAME = 'physical reads';

如果命中率低于90%则需加大数据库参数db_cache_size。

5.9 检查共享池命中率

select sum(pinhits) / sum(pins) * 100 from v$librarycache;

如低于95%，则需要调整应用程序使用绑定变量，或者调整数据库参数shared pool的大小。

5.10 检查排序区

select name,value from v$sysstat where name like '%sort%';

如果disk/(memoty+row)的比例过高，则需要调整sort_area_size(workarea_size_policy=false)或pga_aggregate_target(workarea_size_policy=true)。

5.11 检查日志缓冲区

select name,value from v$sysstat 
where name in (
'redo entries','
redo buffer allocation retries'
);

如果redo buffer allocation retries/redo entries超过1%，则需要增大log_buffer。

6. 检查数据库安全性

在本节主要检查Oracle数据库的安全性，包含：检查系统安全信息，定期修改密码，总共两个部分。

6.1. 检查系统安全日志信息

系统安全日志文件的目录在/var/log下，主要检查登录成功或失败的用户日志信息。

检查登录成功的日志：

# grep -i accepted /var/log/secure

检查登录失败的日志：

# grep -i inval /var/log/secure &&grep -i failed /var/log/secure

在出现的日志信息中没有错误(Invalid、refused)提示，如果没有(Invalid、refused)视为系统正常，出现错误提示，应作出系统告警通知。

6.2. 检查用户修改密码

在数据库系统上往往存在很多的用户，如：第三方数据库监控系统，初始安装数据库时的演示用户，管理员用户等等，这些用户的密码往往是写定的，被很多人知道，会被别有用心的人利用来攻击系统甚至进行修改数据。需要修改密码的用户包括：

数据库管理员用户SYS，SYSTEM；其他用户。

登陆系统后，提示符下输入cat /etc/passwd，在列出来的用户中查看是否存在已经不再使用的或是陌生的账号。若存在，则记录为异常。

修改密码方法：

alter user USER_NAME identified by PASSWORD;

7、生成AWR报告

7.1. 登录SQLPLUS，直接执行

exec dbms_workload_repository.create_snapshot();

7.2. 快照生成完成后，再进行输出报告awr文件

@?/rdbms/admin/awrrpt.sql

7.3. 选择生成格式，默认是html可以默认即。

7.4. 要输出报告的天数，可根据自己情况设定

填写1表示1天前的报告

7.5. 输入开始节点和结束节点

7.6. 输入想要生成的报告名称，以html格式结尾（例如：awr_20200116.html）

7.7. 生成的awr默认在登陆数据库的路径，也可以使用!pwd命令来查看

8、AWR报告解读

8.1 DB Time不包括Oracle后台进程消耗的时间。

如果DB Time远远小于Elapsed时间，说明数据库比较空闲。

db time= cpu time + wait time（不包含空闲等待）（非后台进程）

CPU利用率=DB Time/(cpus*Elapsed)

8.2 Redo size：Redo size 单位 bytes，redo size可以用来估量update/insert/delete的频率，大的redo size往往对lgwr写日志，和arch归档造成I/O压力。

如何解决每秒钟产生大量redo？

增加redo log的size

增加redo log组

增加redo buffer

8.3 Logical reads 的单位是块，例如表中每秒读了50290.4块，那么大小就是50290.4*8K=393M；逻辑读影响全表扫描

8.4 Parses、Hard parses：SQL软解析以及硬解析的次数，评估SQL是否需要优化。

8.5 Executes、Transactions：每秒/每事务SQL执行次数、每秒事务数.每秒产生的事务数，反映数据库任务繁重与否。

8.6 Recursive Call：递归调用占所有操作的比率.递归调用的百分比，如果有很多PL/SQL，那么这个值就会比较高。

8.7 Rollback：每秒回滚率及每事物回滚率，因为回滚很耗资源，如果回滚率过高，可能说明你的数据库经历了太多的无效操作 ,过多的回滚可能还会带来Undo Block的竞争。

——End——

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。