前言:
近期处理了一起数据库AWR快照无法自动生成的问题,用户发现数据库在近期出现了AWR快照无法自动生成的问题,数据库整体负载正常,后面分析发现原因是由于AWR快照在生成过程中,执行的SQL语句出现超时导致。
问题:
Oracle11.2.0.4版本AWR快照无法自动生成,27-30号之间出现AWR快照无法自动生成问题
问题原因:
1 awr快照生成任务进程m00x发起wrh$_sql_bind_metadata表的插入语句执行超时,导致AWR快照生成失败
2 wrh$_sql_bind_metadata表的插入语句超时是由于插入语句需要访问内存基表x$kqlfbc(x$kqlfbc基表是绑定变量的内存缓存表),而当前数据库里面语句使用了大量的绑定变量,导致在访问该X$基表时需要检索内存里面大量的绑定变量信息,执行效率非常缓慢。
问题分析:
查看数据库后台日志,可以发现有MMON进程挂起suspend 82800 seconds的告警
mmon进程的trc文件,可以发现类似的slave进程挂起操作挂起Unable to schedule a MMON slave at: Auto Flush Main 1,Slave action has been temporarily suspended,- Slave action had prior policy violations.
查看AWR快照子进程m000进程trc文件,出现关于wrh$_sql_bind_metadata表的插入语句执行超时的情况,报ORA-12751: cpu time or run time policy violation
到这里,我们可以确认 awr快照生成任务进程m00x发起wrh$_sql_bind_metadata表的插入语句执行超时,导致AWR快照生成失败
语句主要通过关联查询基表x$kewrattrnew,x$kewrsqlidtab以及v$sql_bind_capture,将结果插入到wrh$_sql_bind_metadata表
insert into wrh$_sql_bind_metadata
(snap_id, dbid, sql_id, name, position, dup_position, datatype, datatype_string, character_sid, precision, scale, max_length)
SELECT /*+ ordered use_nl(bnd) index(bnd sql_id) */ :lah_snap_id, :dbid, bnd.sql_id, name, position, dup_position, datatype, datatype_string, character_sid, precision, scale, max_length
FROM x$kewrattrnew new,
x$kewrsqlidtab tab,
v$sql_bind_capture bnd
WHERE new.str1_kewrattr = tab.sqlid_kewrsie AND tab.sqlid_kewrsie = bnd.sql_id AND tab.childaddr_kewrsie = bnd.child_address
从表的命名来看x$kewrattrnew是存放属性配置的表,x$kewrsqlidtab是存放sqlid信息的表,v$sql_bind_capture是访问v_$sql_bind_capture视图的同义词
查看v$sql_bind_capture的底层访问基表,通过查询视图的定义语句,我们可以确认底层的基表为x$kqlfbc
SQL> select VIEW_DEFINITION
from V$FIXED_VIEW_DEFINITION
where view_name ='GO$SQL_BIND_CAPTURE'; 2 3
VIEW_DEFINITION
----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
select INST_ID, KQLFBC_PADD, KQLFBC_HASH, KQLFBC_SQLID, KQLFBC_CADD, KQLFBC_CHNO, substr(KQLFBC_NAME, 1, 128), KQLFBC_POS, to_number(decode(KQLFBC_DUPPOS, 65535, NULL, KQLFBC_DUPPOS)), KQLFBC_OACDTY, substr(KQLFBC_DTYSTR, 1, 15),
decode(KQLFBC_OACCSI, 0, to_number(null), KQLFBC_OACCSI), decode(KQLFBC_OACPRE, 0, to_number(null), KQLFBC_OACPRE), decode(KQLFBC_OACSCL, 0, to_number(null), KQLFBC_OACSCL), KQLFBC_OACMXL, decode(KQLFBC_WCAP, 0, 'NO', 'YES'), decode(KQLFBC_WCAP, 0, to_date(NULL), decode(KQLFBC_WCAP, 2, to
_date(NULL), KQLFBC_LCAP)), KQLFBC_STRVAL, decode(KQLFBC_WCAP, 0, NULL, sys.sys$rawtoany(KQLFBC_BINVAL, KQLFBC_OACDTY, KQLFBC_OACCSF, KQLFBC_OACCSI)), CON_ID
from x$kqlfbc
查询三个基表x$kewrattrnew,x$kewrsqlidtab,x$kqlfbc的数据,x$kewrattrnew、x$kewrsqlidtab基表的数据不多结果很快返回,而x$kqlfbc查询几分钟都没有返回结果,可见数据量很大
所以,到这里我们基本可以确认wrh$_sql_bind_metadata表的插入语句超时是由于插入语句需要访问内存基表x$kqlfbc(x$kqlfbc基表是绑定变量的内存缓存表),而当前数据库里面语句使用了大量的绑定变量,导致在访问该X$基表时需要检索内存里面大量的绑定变量信息,执行效率非常缓慢。
---x$kewrattrnew,x$kewrsqlidtab基表的数据不多,很快返回
select count(*) from X$KEWRATTRNEW;
select count(*) from X$KEWRSQLIDTAB;
---x$kqlfbc查询几分钟都没有返回结果,数据量很大
select count(*) from x$kqlfbc;
问题解决:
由于涉及到x$数据库内核基表,我们首先通过Oracle的官方mos查看是否有相关案例的处理办法
在文档Error ORA-32701 'On Current SQL: insert into wrh$_sql_bind_metadata' (Doc ID 2226216.1)里面找到了类似相关问题的处理办法
原因跟我们之前分析的基本一致,x$kqlfbc基表是绑定变量的内存缓存表,而当数据库里面语句使用了大量的绑定变量,会导致在访问该X$基表时需要检索内存里面大量的绑定变量信息,使执行效率非常缓慢
而提供的解决方法为
1 收集基表x$kewrattrnew,x$kewrsqlidtab,确保语句的执行计划生成正确,避免由于执行计划的错误,导致语句执行缓慢
2 重启数据库释放内存基表的数据
3 刷新shared_pool释放内存基表的数据
随后,我们采纳了方法1,对基表x$kewrattrnew,x$kewrsqlidtab进行统计信息收集,但问题没有得到解决,方法1不适合本场景问题
而对于方法2,3,我们并没有采纳实施,因为两个方法对在线的业务都会造成影响,并且都是通过释放内存临时规避内存里面绑定变量过多的问题,随着数据库的运行,内存里面的绑定变量依然会继续堆积起来,无法解决根本的问题
接下来,我们继续寻求其他的解决方法,由于是内存里面的绑定变量过多导致了这个问题的发生,而绑定变量绝大部分都是应用的SQL所带来的,所以,我们可以通过优化减少应用的绑定变量使用,来解决这个问题
查询使用绑定变量语句过多的SQL,可以发现多个语句使用了大量的绑定变量
---查询绑定变量过多的sql_id
select a.sql_id,count(POSITION)
from (select sql_id,POSITION
from v$sql_bind_capture
where rownum<100000) a
group by a.sql_id
order by 2;
---通过sql_id去确认sql语句
set linesize 400
set long 99999
set longc 99999
select sql_fulltext
from v$sql
where sql_id='';
而SQL语句使用这么多的绑定变量,使为了将数据通过union+dual的方式去构造表进行匹配比对
MERGE INTO xxxxx s
USING (
select :1 AS XXX, :3
AS XXX,
:6 AS XXX,
:9 AS XXX,
:10 AS XXX, :11 AS
xxx,
:12 AS XXX,
:13 AS XXX,
:16 AS XXX,
:17 AS XXX,
:19 AS XXX,:20 AS
xxxxXXX,
:21 AS XXX, :22 AS
xxxx,
:23 AS XXX,
:24 AS XXX,
:25 AS XXX,
:26 AS XXX,
:27 AS XXX,
:29 AS XXX, :30
AS XXX,
:31 AS XXX,
:32 AS XXX,
:33 AS XXX, :34 AS xxxx
from dual
.......
union
select :5407 AS XXX, :5409
AS XXX,
:5412 AS XXX,
:5415 AS XXX,
:5416 AS XXX, :5417 AS
xxxx,
:5418 AS XXX,
:5419 AS XXX,
:5422 AS XXX,
:5423 AS XXX,
:5425 AS XXX,:5426 AS
xxxx,
:5427 AS XXX, :5428 AS
xxxx,
:5429 AS XXX,
:5430 AS XXX,
:5431 AS XXX,
:5432 AS XXX,
:5433 AS XXX,
:5435 AS XXX, :5436
AS XXX,
:5437 AS XXX,
:5438 AS XXX,
:5439 AS XXX, :5440 AS xxx
from dual
找到使用绑定变量过多的SQL之后,我们将语句提供给了应用进行优化整改,并建议不要使用union+dual这种大量绑定变量的方式构造表,而是从应用端先将数据分批写入表,在与关联表进行匹配比对
后续,应用也采纳了我们的建议,进行优化整改,数据库内存的绑定变量数量也慢慢得到释放,awr快照自动生成也恢复了正常。
其他问题:
1 由于应用的语句改造需要时间,在此期间有没有其他办法,确保awr快照自动生成
除了可以通过重启数据库,刷新shared_pool释放内存临时规避,还可以通过禁用awr刷新表wrh$_sql_bind_metadata进行规避,但这会导致awr缺少关于此表的数据
alter system set "_AWR_DISABLED_FLUSH_TABLES"='wrh$_sql_bind_metadata';
2 手动kill了MMON进程,但MMON进程没有重新启动,怎么解决
-
重启数据库实例,恢复MMON进程,对应用有影响,需要停机窗口操作
-
设置实例为restricted session,然后在设置回正常模式,注意这种设置也会造成数据库不可用,对应用有影响,需要停机窗口操作
alter system enable restricted session;
alter system disable restricted session;
-
在11.2.0.4版本,存在Bug 19565533,导致MMON进程被KILLED之后无法自动启动的情况,需要应用one-off补丁Patch 19565533解决