数据库项目组日常运维及应急故障处理手册62508.docx
《数据库项目组日常运维及应急故障处理手册62508.docx》由会员分享,可在线阅读,更多相关《数据库项目组日常运维及应急故障处理手册62508.docx(225页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、常见问题及处理方案CPU使用率高的问题通过操作系统命令top topas glance等查看top进程号,确认是系统进程还是oracle应用进程,查询当前top进程执行的操作和sql语句进行分析。根据进程号号获取正正在执行行的sqqlSELECCT aa.ossuseer, a.uuserrnamme,bb.adddreess,b.hhashh_vaaluee, bb.sqql_ttextt frrom v$ssesssionn a, v$sqlltexxt bb, vv$prroceess pwheree p.spiid = &sspidd andd p.adddr = a.padddr a
2、ndd a.STAATUSS = ACCTIVVE andd a.sqll_adddreess =b.adddresss orderr byy adddreess, piiecee;数据库无法法连接数据库无法法连接,一一般可能能是如下下原因造造成:(1)数据据库宕了了(2)监听听异常(3)数据据库挂起起(4)归档档目录满满(5)数据据库或应应用主机机的网卡卡出现问问题不能能正常工工作(6)应用用主机到到数据库库主机的的网络出出现问题题。1、数据库库宕了立即启动数数据库。2、监听异异常此时一般体体现为:监听进程占占用CPPU资源源大;监听日志异异常。此时,立即即重启监监听,监监听重启启一般能能在
3、1分钟之之内完成成。3、数据库库挂起立即重启数数据库。4、归档目目录满(1)在没没有部署署OGGG数据同同步的情情况下,立立即清理理归档日日志文件件。(2)如果果部署了了OGGG数据同同步,查查看OGGG正在在读取的的归档日日志文件件,立即即清理OGGG不再需需要的日日志文件件。5、数据库库或应用用主机的的网卡出出现问题题不能正正常工作作。立即联系主主机工程程师处理理。6、应用主主机到数数据库主主机的网网络出现现问题。立即联系网网络维护护人员查查看。CRS/GGI无法法启动对于10gg及11ggR1版版本的CCRS问问题1、进入/tmpp目录下下,看是是否产生生了crrscttl.xxxxxx
4、x文件件如果有的话话,看文文件内容容,一般般会提示示OCRR无法访访问,或或者心跳跳IP无法法正常绑定等等信息。2、如果/tmpp目录下下没有ccrscctl.xxxxxx文文件此时查看oocsssd.llog文文件,看看是否能能从中得得到有价价值的信信息。可能的问题题:网络络心跳不不通。3、/tmmp目录录无crscctl.xxxxxx且且日志中中没有报报错信息息,只有有停CRRS时的的日志信信息。此时可能是是RACC两个节节点对并并发裸设设备的访访问有问问题,此此时考虑虑:(1)停掉掉两个节节点的CCRS。(2)两个个节点先先同时去去激活并并发VGG,然后后再激活活VG。(3)重新新启动C
5、CRS。对于11ggR2的的GI问题题分析$GRRID_HOMME/llog/noddenaame目目录下的的日志文文件,看看是否能能从中找找出无法法启动的的原因。常见问题:1、心跳IIP不同同。2、ASMM实例无无法启动动。对CRS的的故障诊诊断和分分析,参加本本文档中中RACC部分的的MOSS文档.数据库响应应慢应急处理步步骤:(1)找到到占用CCPU资资源大的的sqll或者模模块,然然后停掉掉此应用用模块。(2)如果果属于由由于种种种原因引引起的数数据库hhangg住情况况,立即即重启数数据库,此时重重启需要要约155分钟时时间。重要说明:如果重启数数据库的的话,会会有如下下负面影影响:
6、(1)要kkilll掉所有有连接到到数据库库中的会会话,所所有会话话都会回回滚。(2)立即即重启的的话,不不能获取取并保留留分析数数据库挂挂起原因因的信息息,在后后续分析析问题时时,没有有足够信信息用于于分析问问题产生生的根本本原因。 一般正正常重启启的话,都都需要手手动获取取用于分分析数据据库重启启原因的的信息,以以便编写写分析报报告,但但是在最最长情况况下,获获取日志志信息可可能就要要40分钟钟时间。此此时一般般做syysteemsttatee duump,且且如果是是racc情况的的话,需需要2个节点点都做,且且需要做做2次或以以上。常规处理步步骤,分分如下几几种情况况处理:(1)所有有
7、业务模模块都慢慢。(2)部分分业务模模块慢。(3)数据据库haang住住。所有业务模模块都慢慢此时首先查查看系统统资源,看看是否属属于CPPU资源源使用率率1000%的问问题,如如果是,参参考本章章“CPPU使用用率高的的问题”解解决办法法。如果果系统资资源正常常,那很很可能是是数据库库hanng住了了,此时时参考数数据库HHangg部分。部分业务模模块慢分析运行慢慢的模块块的sqql语句句:(1)看是是否是新新上的ssql。(2)看执执行计划划是否高高效。(3)优化化运行慢慢的模块块的sqql语句句。数据库haang住住应急处理方方式:重重启数据据库。常规处理方方式:(1)分析析aleert
8、日日志,看看是否能能从allertt日志中中,可以以很快找找到引起起问题的的原因。(2)做33级别的的hanngannalyyze,先先做一次次,然后后隔一分分钟以后后再做一一次。并分析haangaanallyzee 生成成的trracee文件,看看是否可可以找到到引起数数据库hhangg住的会话的的信息。(3)做ssysttemsstatte ddumpp此时生成ssysttemsstatte ddumpp的时间间会比较较长,尤尤其是在在会话数数量较多多的情况下。且生生成duump文文件的大大小较大大,在GG级别以以上。在在生成一一次以后,过一分分钟再收收集一次次,另外外如果是是RACC,那
9、么么两个节节点都需需要收集。对hangg做dummp请参参考“对对数据库库HANNG做DUMMP一章章”。数据误删除除此问题,没没有应急急办法,只只能按如如下步骤骤处理:1、对于110g及及以上版版本,看看是否可可以通过过闪回进进行恢复复。2、查看测测试环境境数据库库,看其其中是否否有需要要的数据据。3、使用备备份进行行恢复,此此方法一一般花费费时间较较长。快速shuutdoown数数据库1. 停止监听2. 做一个检查查点操作作SQL altter sysstemm chheckkpoiint;3. 杀掉所有LLOCAAL=NNO的操操作系统统进程AIX、HHP-UUX、Linnux、Soll
10、ariis:$ ps -eff|grrep $ORRACLLE_SSID| grrep LOCCAL=NO | ggrepp -vv grrep |awwk prrintt $22|xarrgs -i killl -9 Windoows:SQL sellectt oorakkilll |(seleect vallue froom vv$paarammeteer wwherre nnamee = innstaancee_naame) | |pp.sppidfrom v$pproccesss p, v$bgpproccesss bppwheree p.ADDDR = bpp.PAADDRR(+)a
11、nd bbp.PPADDDR iis nnullland pp.SPPID is nott nuull;在命令行执执行:C: oraakilll ddb1 76442C: oraakilll ddb1 764444. 停止数据库库SQL shuutdoown immmediiatee清理分布式式事务- 9ii需要设设置_ssum_debbug_moddeSQL altter sesssioon sset _ssmu_debbug_modde = 44; alterr seessiion sett nlls_ddatee_foormaat=YYYYY-MMM-DDD HHH244:MII:SSS
12、;colummn llocaal_ttrnaa_idd foormaat aa20colummn gglobbal_traan_iid fformmat a255SELECCT LLOCAAL_TTRANN_IDD, GGLOBBAL_TRAAN_IID, FAIIL_TTIMEE,STTATEE, MMIXEED FROM DBAA_2PPC_PPENDDINGG;LOCALL_TRRAN_ID GLLOBAAL_TTRANN_IDD FFAILL_TIIME SSTATTE MIIX- - - - -12.299.10031337 TAAXISS.95572bb6133.122.299.1
13、0031337 330-aaug-20111 110:009:111 ccolllecttingg nooSQL commmitt foorcee 112.229.11031137; Commiit ccompplette.SQL EXEECUTTE DDBMSS_TRRANSSACTTIONN.PUURGEE_LOOST_DB_ENTTRY(122.299.10031337);PL/SQQL pprocceduure succcesssfuullyy coomplleteed.SQL commmitt;- 清理每每个分布布式事务务都需要要commmitt;数据泵1. 相关参数PARALLLE
14、LL参数考考虑可以设置成成物理CCPU(不不是逻辑辑CPUU)数的的两倍数数目,然然后调整整对于Datta PPumpp Exxporrt,PARRALLLEL参参数必须须要小于于等于ddumpp fiiless数对于Datta PPumpp Immporrt,PARRALLLEL不不要比ddumpp文件数数大很多多,可以以大一些些。这个个参数也也指定了了导入时时创建索索引的并并行度。PARALLLELL只允许许在企业业版使用用。nohupp exxpdpp syysteem/mmanaagerr scchemmas=kdjjm DDIREECTOORY=DUMMP_FFILEES PPARA
15、ALLEEL=33 duumpffilee=exxpCAASESS_%UU.dmmp llogffilee=nnnsieexp220088_122_288.loog &通配符 %U,它它指示文文件将按按需要创创建,格式将将为exxpCAASESS_nnn.dmmp,其其中nnn 从 011 开始始,然后按按需要向向上增加加相关监控- 监控控长事务务set llineesizze 1120colummn oopnaame heaadinng Opeerattionn fformmat a255colummn ttargget heaadinng Tarrgett fformmat a155col
16、ummn ppct heaadinng Perrcennt forrmatt 9999colummn ees hheaddingg EElappsedd|Seeconnds foormaat 99999999colummn ttr hheaddingg TTimee|Reemaiininng|SSecoondss fformmat 999999colummn pproggramm foormaat aa30colummn mmachhinee foormaat aa16selecct LL.siid sssidd, ssubsstr(opnnamee,1,25) oppnamme, ttarg
17、get, ttrunnc(soffar/tottalwworkk)*1100) pcct, tto_ccharr(600*soofarr*81192/(244*600*(llastt_uppdatte_ttimee-sttartt_tiime)/110244/10024/60, 99999.0) RRatee, rrounnd(eelappsedd_seeconnds/60, 2) ess, rrounnd(ttimee_reemaiininng/660, 2) tr, pproggramm, mmachhinee froom vv$seessiion_lonngopps LL, vv$see
18、ssiion s wheree tiime_remmainningg 0 aand l.ssid = ss.siidorderr byy sttartt_tiime;坏块恢复在遇到坏块块的时,一一般应按按以下的的流程来来处理:1 如果坏坏块的对对象是索索引,重重建索引引2 使用备备份来进进行恢复复3 使用1102331事件件,或者者DBMMS_RREPAAIR.SKIIP_CCORRRUPTT_BLLOCKKS过程程,让ooraccle跳跳过坏块块,然后后用exxp导出出表和使使用CRREATTE TTABLLE AAS创建建新表。4 尝试使使用SQQL脚本本将完好好的数据据复制到到一个新新表
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据库 项目 日常 应急 故障 处理 手册 62508
限制150内