书签分享收藏举报版权申诉 / 128

立即下载

当前位置：首页 > 应用文书 > 工作计划 > 数据库项目组日常运维及应急故障处理手册.docx

数据库项目组日常运维及应急故障处理手册.docx

上传人：飞****

文档编号：45619276

上传时间：2022-09-24

格式：DOCX

页数：128

大小：423.10KB

( 4.5 )

《数据库项目组日常运维及应急故障处理手册.docx》由会员分享，可在线阅读，更多相关《数据库项目组日常运维及应急故障处理手册.docx（128页珍藏版）》请在淘文阁 - 分享文档赚钱的网站上搜索。

1、编号：时间：2021年x月x日书山有路勤为径，学海无涯苦作舟页码：第128页共128页常见问题及处理方案CPU使用率高的问题通过操作系统命令top topas glance等查看top进程号，确认是系统进程还是oracle应用进程，查询当前top进程执行的操作和sql语句进行分析。根据进程号获取正在执行的sqlSELECT a.osuser, a.username,b.address,b.hash_value, b.sql_text from v$session a, v$sqltext b, v$process pwhere p.spid = &spid and p.addr = a.pa

2、ddr and a.STATUS = ACTIVE and a.sql_address =b.address order by address, piece;数据库无法连接数据库无法连接，一般可能是如下原因造成：（1）数据库宕了（2）监听异常（3）数据库挂起（4）归档目录满（5）数据库或应用主机的网卡出现问题不能正常工作（6）应用主机到数据库主机的网络出现问题。1、数据库宕了立即启动数据库。2、监听异常此时一般体现为：监听进程占用CPU资源大；监听日志异常。此时，立即重启监听，监听重启一般能在1分钟之内完成。3、数据库挂起立即重启数据库。4、归档目录满（1）在没有部署OGG数据同步的情况下，立

3、即清理归档日志文件。（2）如果部署了OGG数据同步，查看OGG正在读取的归档日志文件，立即清理OGG不再需要的日志文件。5、数据库或应用主机的网卡出现问题不能正常工作。立即联系主机工程师处理。6、应用主机到数据库主机的网络出现问题。立即联系网络维护人员查看。CRS/GI无法启动对于10g及11gR1版本的CRS问题1、进入/tmp目录下，看是否产生了crsctl.xxxxx文件如果有的话，看文件内容，一般会提示OCR无法访问，或者心跳IP无法正常绑定等信息。2、如果/tmp目录下没有crsctl.xxxxx文件此时查看ocssd.log文件，看是否能从中得到有价值的信息。可能的问题：网络心跳不

4、通。3、/tmp目录无crsctl.xxxxx且日志中没有报错信息，只有停CRS时的日志信息。此时可能是RAC两个节点对并发裸设备的访问有问题，此时考虑：（1）停掉两个节点的CRS。（2）两个节点先同时去激活并发VG，然后再激活VG。（3）重新启动CRS。对于11gR2的GI问题分析$GRID_HOME/log/nodename目录下的日志文件，看是否能从中找出无法启动的原因。常见问题：1、心跳IP不同。2、ASM实例无法启动。对CRS的故障诊断和分析,参加本文档中RAC部分的MOS文档.数据库响应慢应急处理步骤：（1）找到占用CPU资源大的sql或者模块，然后停掉此应用模块。（2）如果属于由

5、于种种原因引起的数据库hang住情况，立即重启数据库，此时重启需要约15分钟时间。重要说明：如果重启数据库的话，会有如下负面影响：（1）要kill掉所有连接到数据库中的会话，所有会话都会回滚。（2）立即重启的话，不能获取并保留分析数据库挂起原因的信息，在后续分析问题时，没有足够信息用于分析问题产生的根本原因。一般正常重启的话，都需要手动获取用于分析数据库重启原因的信息，以便编写分析报告，但是在最长情况下，获取日志信息可能就要40分钟时间。此时一般做systemstate dump，且如果是rac情况的话，需要2个节点都做，且需要做2次或以上。常规处理步骤，分如下几种情况处理：（1）所有业务模

6、块都慢。（2）部分业务模块慢。（3）数据库hang住。所有业务模块都慢此时首先查看系统资源，看是否属于CPU资源使用率100%的问题，如果是，参考本章“CPU使用率高的问题”解决办法。如果系统资源正常，那很可能是数据库hang住了，此时参考数据库Hang部分。部分业务模块慢分析运行慢的模块的sql语句：（1）看是否是新上的sql。（2）看执行计划是否高效。（3）优化运行慢的模块的sql语句。数据库hang住应急处理方式：重启数据库。常规处理方式：（1）分析alert日志，看是否能从alert日志中，可以很快找到引起问题的原因。（2）做3级别的hanganalyze，先做一次，然后隔一分钟以后再

7、做一次。并分析hanganalyze 生成的trace文件，看是否可以找到引起数据库hang住的会话的信息。（3）做systemstate dump此时生成systemstate dump的时间会比较长，尤其是在会话数量较多的情况下。且生成dump文件的大小较大，在G级别以上。在生成一次以后，过一分钟再收集一次，另外如果是RAC，那么两个节点都需要收集。对hang做dump请参考“对数据库HANG做DUMP一章”。数据误删除此问题，没有应急办法，只能按如下步骤处理：1、对于10g及以上版本，看是否可以通过闪回进行恢复。2、查看测试环境数据库，看其中是否有需要的数据。3、使用备份进行恢复，此方法

9、m v$process p, v$bgprocess bpwhere p.ADDR = bp.PADDR(+)and bp.PADDR is nulland p.SPID is not null;在命令行执行：C: orakill db1 7642C: orakill db1 76444. 停止数据库SQL shutdown immediate清理分布式事务- 9i需要设置_sum_debug_modeSQL alter session set _smu_debug_mode = 4; alter session set nls_date_format=YYYY-MM-DD HH24:MI:S

10、S;column local_trna_id format a20column global_tran_id format a25SELECT LOCAL_TRAN_ID, GLOBAL_TRAN_ID, FAIL_TIME,STATE, MIXED FROM DBA_2PC_PENDING;LOCAL_TRAN_ID GLOBAL_TRAN_ID FAIL_TIME STATE MIX- - - - -12.29.103137 TAXIS.9572b613.12.29.103137 30-aug-2011 10:09:11 collecting noSQL commit force 12.2

11、9.103137; Commit complete.SQL EXECUTE DBMS_TRANSACTION.PURGE_LOST_DB_ENTRY(12.29.103137);PL/SQL procedure successfully completed.SQL commit;- 清理每个分布式事务都需要commit;数据泵1. 相关参数PARALLEL参数考虑可以设置成物理CPU（不是逻辑CPU）数的两倍数目，然后调整对于Data Pump Export，PARALLEL参数必须要小于等于dump files数对于Data Pump Import，PARALLEL不要比dump文件数大很多

12、，可以大一些。这个参数也指定了导入时创建索引的并行度。PARALLEL只允许在企业版使用。nohup expdp system/manager schemas=kdjm DIRECTORY=DUMP_FILES PARALLEL=3 dumpfile=expCASES_%U.dmp logfile=nnsiexp2008_12_28.log &通配符 %U,它指示文件将按需要创建,格式将为expCASES_nn.dmp,其中nn 从 01 开始,然后按需要向上增加相关监控- 监控长事务set linesize 120column opname heading Operation format

13、a25column target heading Target format a15column pct heading Percent format 999column es heading Elapsed|Seconds format 999999column tr heading Time|Remaining|Seconds format 99999column program format a30column machine format a16select L.sid ssid, substr(opname,1,25) opname, target, trunc(sofar/tota

14、lwork)*100) pct, to_char(60*sofar*8192/(24*60*(last_update_time-start_time)/1024/1024/60, 9999.0) Rate, round(elapsed_seconds/60, 2) es, round(time_remaining/60, 2) tr, program, machine from v$session_longops L, v$session s where time_remaining 0 and l.sid = s.sidorder by start_time;坏块恢复在遇到坏块的时，一般应按

15、以下的流程来处理：1 如果坏块的对象是索引，重建索引2 使用备份来进行恢复3 使用10231事件，或者DBMS_REPAIR.SKIP_CORRUPT_BLOCKS过程，让oracle跳过坏块，然后用exp导出表和使用CREATE TABLE AS创建新表。4 尝试使用SQL脚本将完好的数据复制到一个新表中，或者用EXP配合QUERY参数导出完好的数据。5 手工修改坏块。有两种情况是不能使用事件10231和DBMS_REPAIR.SKIP_CORRUPT_BLOCKS来跳过坏块的：1 硬件问题造成OS层不能读取数据。2 表中的非数据块，或者说是元数据块。比如段头，Extent Map块。这种坏

16、块是不能跳过的。3 在表中存在有其他异常的块，从单个块来看都没有损坏，checksum值也是正确的，但是有的块在段内却是有问题的。比如在段的高水位下存在未格式化的块，查询这样的表时，会报ORA-8103错误；如果块的object id与段在数据字典里的data object id不相符，则会报ORA-1401错误。Oracle数据文件的坏块，可分为物理坏块和逻辑坏块。物理坏块（也称为介质坏块），指的是块格式本身是坏的，块内的数据没有任何意义。而逻辑坏块，指的是块内的数据在逻辑上存在问题。比如说索引块的索引值没有按从小到大排列。物理坏块一般是由于内存问题、OS问题、IO子系统问题和硬件问题，逻辑

17、坏块是由于ORACLE BUG等原因引起。对数据库中的坏块进行验证。RMAN backup validate database;恢复一个数据文件上的多个坏块RMAN blockrecover datafile 14 block 56,107,276,517;检验后我们查 V$DATABASE_BLOCK_CORRUPTIONSQL select * from v$database_block_corruption; FILE# BLOCK# BLOCKS CORRUPTION_CHANGE# CORRUPTIO- - - - - 14 276 1 0 CHECKSUM 14 517 1 0 C

18、HECKSUM 14 107 1 0 CHECKSUM 14 56 1 0 CHECKSUM还可以通过blockrecover corruption list进行块的恢复，这是在大量块损坏时或全部块损坏时使用，前提是先执行backup validate database,在V$DATABASE_BLOCK_CORRUPTION里有对应的坏块的列表。RMAN blockrecover corruption list;SQL TUNINGSQL PROFILE创建PROFILEdeclare v_hhint sys.sqlprof_attr; cl_sql_text clob;begin sele

19、ct SQL_TEXT into cl_sql_text from v$sql where sql_id = 1304vvhkfctzq and rownum true, replace = true);end;/获取PFOFILE的名字SELECTname,created,category,sql_Textfromdba_sql_profilesORDERBYcreatedDESC;删除PFOFILEBEGIN DBMS_SQLTUNE.DROP_SQL_PROFILE(name=PROFILE_NAME);END;/ 获取OUTLINE HINT的信息SELECT sql_attr.att

20、r_val outline_hints FROM dba_sql_profiles sql_profiles, sys.SQLPROF$ATTR sql_attr WHERE sql_profiles.signature = sql_attr.signature AND sql_profiles.name = SQLPROFILE_1304vvhkfctzq ORDER BY sql_attr.attr# ASC;STAIn order to execute Sql Tuning Adviser API, one must be granted with “ADVISER” role.gran

21、t adviser to ; for a specific statement from AWRSET SERVEROUTPUT ON- Tuning task created for specific a statement from the AWR.DECLAREl_sql_tune_task_id VARCHAR2(100);BEGINl_sql_tune_task_id := DBMS_SQLTUNE.create_tuning_task (begin_snap = 764,end_snap = 938,sql_id = 19v5guvsgcd1v,scope = DBMS_SQLTU

22、NE.scope_comprehensive,time_limit = 60,task_name = 19v5guvsgcd1v_AWR_tuning_task,description = Tuning task for statement 19v5guvsgcd1v in AWR.);DBMS_OUTPUT.put_line(l_sql_tune_task_id: | l_sql_tune_task_id);END; or for a specific statement from Shared Library CacheDECLAREl_sql_tune_task_id VARCHAR2(

23、100);BEGINl_sql_tune_task_id := DBMS_SQLTUNE.create_tuning_task (sql_id = fhahkc71k304u,scope = DBMS_SQLTUNE.scope_comprehensive,time_limit = 60,task_name = fhahkc71k304u_tuning_task,description = Tuning task for statement fhahkc71k304u.);DBMS_OUTPUT.put_line(l_sql_tune_task_id: | l_sql_tune_task_id

24、);END;/- Interrupt and resume a tuning task.EXEC DBMS_SQLTUNE.interrupt_tuning_task (task_name = emp_dept_tuning_task);EXEC DBMS_SQLTUNE.resume_tuning_task (task_name = emp_dept_tuning_task);- Cancel a tuning task.EXEC DBMS_SQLTUNE.cancel_tuning_task (task_name = emp_dept_tuning_task);- Reset a tuni

25、ng task allowing it to be re-executed.EXEC DBMS_SQLTUNE.reset_tuning_task (task_name = emp_dept_tuning_task);execute the tuning taskEXEC DBMS_SQLTUNE.execute_tuning_task(task_name = fhahkc71k304u_AWR_tuning_task);report tuning task findingsSET LONG 100000;SET PAGESIZE 1000SET LINESIZE 300SELECT DBMS

26、_SQLTUNE.report_tuning_task(fhahkc71k304u_AWR_tuning_task) AS recommendations FROM dual;SET PAGESIZE 24accept recommendationsexecute dbms_sqltune.accept_sql_profile(task_name =fhahkc71k304u_AWR_tuning_task, replace = TRUE);useful viewsDBA_ADVISOR_TASKSDBA_ADVISOR_FINDINGSDBA_ADVISOR_RECOMMENDATIONSD

27、BA_ADVISOR_RATIONALEDBA_SQLTUNE_STATISTICSDBA_SQLTUNE_BINDSDBA_SQLTUNE_PLANSDBA_SQLSETDBA_SQLSET_BINDSDBA_SQLSET_STATEMENTSDBA_SQLSET_REFERENCESDBA_SQL_PROFILESV$SQLV$SQLAREAV$ACTIVE_SESSION_HISTORY收集统计信息exec dbms_stats.gather_table_stats(ownname = SYS, tabname = T2, estimate_percent = 100, cascade

28、= true, method_opt = for all columns size 1 );显示执行计划select * from table(dbms_xplan.display);select * from table(dbms_xplan.display_cursor(null,null,ALLSTATS LAST);select * from table(dbms_xplan.display_awr(a7tgurqg403wp, null, null, ALL);显示执行计划的outlineselect * from table(dbms_xplan.display_cursor(sq

29、l_id, null, outline);显示query block(qb_name)select*fromtable(dbms_xplan.display(null,null,typical alias -rows -bytes -cost);柱状图删除柱状图declare srec dbms_stats.statrec; m_distcnt number; m_density number; m_nullcnt number; m_avgclen number; n_array dbms_stats.numarray; begin dbms_stats.get_column_stats(

30、ownname = user, tabname = t1, colname = n1, distcnt = m_distcnt, density = m_density, nullcnt = m_nullcnt, srec = srec, avgclen = m_avgclen ); srec.bkvals := null; srec.novals := dbms_stats.numarray( utl_raw.cast_to_number(srec.minval), utl_raw.cast_to_number(srec.maxval) ); srec.epc := 2; dbms_stat

31、s.prepare_column_values(srec, srec.novals); m_density := 1/m_distcnt; dbms_stats.set_column_stats( ownname = user, tabname = t1, colname = n1, distcnt = m_distcnt, density = m_density, nullcnt = m_nullcnt, srec = srec, avgclen = m_avgclen );exception when others then raise; - should handle div/0end;

32、/表碎片整理Oracle 10g之前一般使用alter table table_name move tablespace，然后rebuild索引，因为move会导致rowid改变，从而原来的索引失效。查看哪些表在空间上存在问题，可以查看dba_tables视图的avg_space列，这列显示的是数据库块的平均空闲空间大小，我们在建表的时候可以通过制定PCTFREE参数来设置每个数据块中保留空间的百分比，这部分空间用于因更新块内的行而导致的增长，默认值是10%，也就是819 bytes左右（块大小为8KB）。如果avg_space大于2KB，可能重整空间会有意义，这个值太大说明空间利用率较低，块

33、空闲较多。我们调整空间的主要目的是降低高水位线（HIGH WATER MARK），使扫描的表块数变小，从而提高效率。Oracle 10g之后alter table table_name enable row movement;alter table table_name shrink space cascade;alter table table_name move disable row movement;清除监听日志lsnrctlsetlog_statusofflsnrctlsetlog_statuson重建oraInventory$ cat /etc/oraInst.locinvento

34、ry_loc=/oracle/oraInventoryinst_group=oinstall$ cd $ORACLE_HOME/oui/bin$ ./runInstaller -silent -attachHome ORACLE_HOME=$ORACLE_HOME ORACLE_HOME_NAME=OraDb11g_home1或者（/oracle/oraInventory目录可以mv掉，新建个目录）export ORACLE_HOME=/oracle/product/crs/10.2.0cd $ORACLE_HOME/oui/bin./attachHome.sh物化视图删除基于DBLINK的物

35、化视图的时候要确认DBLINK的存在，否则会造成物化视图注册信息无法清除。删除物化视图并不意味着要删除物化视图日志。因为物化视图日志可以同时支持多个物化视图的刷新，如果物化视图日志被删除，那么所有基于这个物化视图日志的物化视图无法再进行快速刷新。在ON COMMIT刷新模式下, 如果基表的DML很频繁, 会造成刷新很频繁, 这可能会造成DROP物化视图的语句一直挂起。迁移数据文件1.使数据文件离线alter database datafile old_path offline2.移动数据文件RMAN copy datafile old_path to new_path;3 重命名数据文件SQ

36、Lalter tablespace tbs_name rename datafile old_path to new_path;4 恢复数据文件RMAN recover datafile new_path;5 使数据文件在线alter database datafile new_path online;SQLNETIP访问限制修改（需重启监听）$ORACLE_HOME/network/admin/sqlnet.ora :tcp.validnode_checking=yestcp.invited_nodes=(localhost, 本机ip, 应用服务器ip，管理机ip等)重启监听：lsnrct

37、l stop；lsnrctl start。参考文章When do SQLNET.ORA changes take effect ? (Doc ID 562589.1)How to Centralize TNSNAMES.ORA, LISTENER.ORA And SQLNET.ORA files (Doc ID 362761.1)Configure Multiple DB Instances To Share SQLNET.ORA Without Giving WALLET_LOCATION For EUS (Doc ID 405682.1)Parameter OUTBOUND_CONNECT

38、_TIMEOUT in SQLNET.ORA (Doc ID 519391.1)增加Current SCN主要针对ORA-00600 2662通过adjust_scn event来调整MOS 30681.1文章如下Doc ID: Note:30681.1 Subject: EVENT: ADJUST_SCN - Quick Reference Type: REFERENCE Status: PUBLISHED Content Type: TEXT/PLAIN Creation Date: 20-OCT-1997 Last Revision Date: 04-AUG-2000 Language:

39、 USAENG ADJUST_SCN Event* WARNING * This event should only ever be used under the guidance of an experienced Oracle analyst. If an SCN is ahead of the current database SCN, this indicates some form of database corruption. The database should be rebuilt after bumping the SCN. * The ADJUST_SCN event is

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

25 金币

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 数据库项目日常应急故障处理手册

淘文阁 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：数据库项目组日常运维及应急故障处理手册.docx
链接地址：https://www.taowenge.com/p-45619276.html