服务器硬件知识.ppt
《服务器硬件知识.ppt》由会员分享,可在线阅读,更多相关《服务器硬件知识.ppt(73页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、关于服务器硬件的知识第一张,PPT共七十三页,创作于2022年6月一、PCServer基础知识介绍nPCServer的来源:PCServer从PC机发展而来,在继承了X86架构的同时,加入了服务器的技术;nPCServer的服务器特性:1.Availablity:可用性-即稳定性,指服务器能够持续稳定运行较长时间;实时的生产设备要求极高的稳定性,服务器必须能够长时间稳定和不间断的运行;这种要求除了对服务器的硬件质量有很高的要求外,也催生了一些服务器的技术:CPU的SMP技术、内存的冗余、热插拔及镜像技术;硬盘的RAID技术;电源的热插拔技术、风扇的热插拔技术等等;2.Scalability:可
2、扩展性-可以进行扩容;高要求、高质量、复杂的技术支持,导致了服务器的成本较高,从而要求设备具备可扩展性;业务的关键性、实时性,架构的复杂,让迁移也成为难点;设备的可扩展性,避免了性能瓶颈导致的业务迁移;服务器要有多个CPU、内存、电源、风扇、PCI插槽;高端服务器和存储的联机技术;第二张,PPT共七十三页,创作于2022年6月一、PCServer基础知识介绍3.Usability:易使用性-相关的软件系统的设计;为实际生产需求产生的服务器,具备了相关的硬件技术;同时也要求相应的操作系统来使用和管理硬件;比如Windows的Server版本;AIX;HP-UX;Solaris;Linux的企业版
3、等;专业的系统是经过封装的,在易于使用的同时又加强了专业性,所以我们需要进行学习;4.Manageability:易管理性-硬件故障的在线修复和故障的预警机制;要让服务器易于管理,那么其故障的告警机制、诊断机制、在线修复机制必须要强;所以产生了冗余技术、备份技术、在线诊断技术、故障预警技术、内存纠错技术、热插拔技术和远程诊断技术等;第三张,PPT共七十三页,创作于2022年6月一、PCServer基础知识介绍n智能监控管理技术:我们必须对服务器的整体运行情况进行监控,所以监控管理技术会应运而生;首先,理解serviceprocessor服务处理器;服务器基本都有serviceprocessor
4、;只是各自运用的技术有些差别;设备上的关键部件总是有很多参数来表征他们的状态的,这些参数以电信号的方式通过I2C总线传给serviceprocessor,serviceprocessor处理之后传送给专门的监控软件,软件就在其界面上表现出来,呈现给管理员查看!设备上的每个重要部件都有传感器,传感器将收集到的部件状态通过I2C总线发送给serviceprocessor,这样子,监控软件,serviceprocessor,I2C总线和各部件的传感器连接起来形成了一个网络,这个网络区别于设备硬件系统和操作系统,就是所谓的监控管理网络;主要有以下几种技术:EMP-应急管理端口;需要拨号;很少使用;IS
5、C&ISM-Intel服务控制或管理;Intel架构;局域网通信;客户端监控;IPMI-智能平台管理接口;应用最多;内置BMC芯片,HP和DELL应用较多;SNMP-简单网络管理协议;可以使用工作站终端管理网络设备;第四张,PPT共七十三页,创作于2022年6月一、PCServer基础知识介绍n总线技术:目前的服务器,多采用I2C总线技术;I2C总线技术的作用是集中管理服务器的部件,并监控它们的状态,以便于管理;nCPU技术:RISC:精简指令集;多用于小型机;CISC:复杂指令集;多用于PC机及PCServer;SMP技术:对称多处理器技术;保证了服务器的运算性能和冗余性能;这个技术的存在让
6、我们不会因为坏了多个CPU中的一个而导致设备宕机;DP技术:双处理器技术;SMP技术的低端版;NUMA技术:IBM特有技术,扩展性能;多台设备联机聚成一台性能更高的设备;第五张,PPT共七十三页,创作于2022年6月一、PCServer基础知识介绍n内存技术:ECC校验:只能修正1比特的错误;为了改善ECC性能:IBM:chipkill技术;HP:advancedECC技术;内存镜像技术:单纯提高ECC校验位数是不能解决所有的内存问题的;内存镜像技术就应运而生;-类似于磁盘镜像技术;内存镜像技术可以支持内存热交换和热添加,可以在线解决内存问题和进行内存扩容;HP和IBM各有自己的内存镜像技术;
7、在线内存备份技术:可以使用备份的内存为使用内存做在线备份;类似于硬盘技术中的热备盘;内存RAID技术:类似于硬盘RAID技术,HPDL760灯型号设备上有使用;第六张,PPT共七十三页,创作于2022年6月一、PCServer基础知识介绍n硬件冗余技术:双份硬件;备用件处于待命状态;实时监控部件使用情况,一旦故障,备用件立即顶替,保证设备不宕机;比如:电源的冗余技术,保障供电;风扇的冗余技术,保障散热;n热插拔和热添加技术:硬件冗余技术往往都伴随着热插拔和热添加技术;热插拔技术是指某些部件可以在系统运行的情况下进行插拔,不影响使用;热添加技术是指某些部件的空槽位可以在系统运行的情况下插入相应的
8、部件,类似于USB设备的即插即用;热插拔和热添加技术由特殊的电路来实现,主要是热插拔控制器和针对槽位的电流控制器;第七张,PPT共七十三页,创作于2022年6月一、PCServer基础知识介绍n硬盘RAID技术:硬盘的容量、IO速度、容错能力都成为服务器的性能瓶颈;使用RAID技术,可以解决单硬盘容量小、IO速度慢、出错容易导致数据丢失等问题;要是有RAID技术,必须有RAID控制器和多块硬盘;主要有以下几种RAID级别:RAID0:串接只是单纯扩大容量;并接在扩大容量的同时,提高磁盘的性能和吞吐量。没有冗余或错误修复能力,成本最小;RAID1:RAID1又被称为磁盘镜像,每一个磁盘都具有一个
9、对应的镜像盘。对任何一个磁盘的数据写入都会被复制镜像盘中;系统可以从一组镜像盘中的任何一个磁盘读取数据。能够在不影响性能的情况下最大限度的保证系统的可靠性和可修复性。成本最高;RAID5:有3块以上硬盘组成,使用了校验的概念提供容错能力。总容量为=(N-1)*单盘容量;有较高的可靠性和可修复性;成本为一块盘的容量;第八张,PPT共七十三页,创作于2022年6月一、PCServer基础知识介绍n双网卡绑定技术网卡故障及链路故障容易造成业务中断;使用软件,将两块网卡虚拟成一个网卡,对外进行通信;如果其中一块网卡或其链路出现故障,不影响设备与外界的通信;主要的厂商有brodcom和intel;n诊断
10、技术:指示灯技术:通过指示灯或者液晶面板等手段对设备部件的状态进行监控;IBM:光路诊断板;HP:指示灯技术;新设备也开始使用光路诊断技术;DELL:液晶面板告警技术;软件诊断:各厂商都使用各自的软件对设备节进行在线诊断;IBM:director;DSAHP:Homepage;SMH;SIM;DELL:openmanagerAdministrator;Dset;第九张,PPT共七十三页,创作于2022年6月二、IBMPCServer产品介绍及故障诊断n产品介绍:Netfinity系列-低端、早期产品集成度低;配置低;技术简单;X系列-曾经的主流产品集成度提高;性能提升;采用主流技术;Syste
11、mX系列-最新的产品由X系列发展而来;各项性能均为顶端;目前各外地机场的IBM设备清单中,只有IBMSystemX3650这一款机型;属于最新的产品系列,而且3650本身也是IBM很经典的一款机型;第十张,PPT共七十三页,创作于2022年6月二、IBMPCServer产品介绍及故障诊断nIBM产品命名规则:现在IBM服务器都是X3开始的,比如x3500M3,x3850X5(1):x3说明是在x3架构下的服务器(2):倒数第三个数字是代表功能,数字越大,代表功能越强大。也就是说IBMSystemx3850X5要比IBMSystemx3500M3性能更强(3):倒数第二个数字是代表形状,0代表塔
12、式,其它数字(5,3,2等)代表机架式。如:IBMSystemx3850X5则为机架式服务器,IBMSystemx3500M3则为塔式服务器(4):最后一个数字是代表CPU,0代表是用英特尔的CPU,5代表是用ADC的CPU。还有后面的M3和X5就是内存上的区别,后者采用了MAX5技术,使内存扩展能力更强第十一张,PPT共七十三页,创作于2022年6月二、IBMPCServer产品介绍及故障诊断nIBMSystemX3650主要性能特征:CPU:IntelXeonFC-LGA771双核,4M二级缓存,2个插槽;内存:12个DIMM插槽,单条大小可以为512M、1G、2G、4G,必须成对;内存必
13、须为全缓冲DIMM(FBD)PC2-5300DIMM,而且必须支持chipkill技术;光驱:IDE接口,可以是24倍速的CD,也可以是8倍速的DVD;硬盘:只支持SAS硬盘;可以为3.5英寸,也可以是2.5英寸;3.5英寸最多可以插6个,2.5英寸最多可以插8个;PCI:集成在主板上有两个PCIE插槽,使用可选件可以支持PCIX的卡;风扇:标准5个,最多可以10个(支持冗余散热);电源:835W,最少一个,最多两个(支持冗余);RAID:主板上集成了RAID控制器,但是只有在安装了ServeRAID8k或8k-lSAS控制器时才处于活动状态;ServeRAID8k-l只支持RAID0、1和1
14、0;ServeRAID8k,256MB带有备用电池,支持RAID0、1、1E、5、6和10;第十二张,PPT共七十三页,创作于2022年6月二、IBMPCServer产品介绍及故障诊断n主要故障诊断方法:LED指示灯法:前面板LED指示灯、光路诊断板指示灯、后面板LED指示灯、主板LED指示灯;POST蜂鸣声代码、错误消息和错误日志:POST为开机自检;poweronself-test;开机自检(POST)生成蜂鸣声代码和消息,以表明测试成功完成或检测到问题。诊断程序、消息和错误代码:IBMPCServer在只读存储器上集成了一个诊断程序;需要重启,按下F2键,运行诊断程序;ServeRAID
15、manager程序:安装在系统中,在线查看RAID和硬盘状态DSA程序:收集系统信息、底层硬件日志,借以判断硬件及系统状态;第十三张,PPT共七十三页,创作于2022年6月二、IBMPCServer产品介绍及故障诊断nLED指示灯法:前面板:3.5英寸硬盘:2.5英寸硬盘:第十四张,PPT共七十三页,创作于2022年6月二、IBMPCServer产品介绍及故障诊断前面板指示灯分析:不管是安装了3.5英寸的还是2.5英寸的硬盘,设备前面板的指示灯基本都一样,主要需要关注两个:操作员信息面板和硬盘驱动器状态指示灯;操作员信息面板:需要注意:硬盘驱动器活动指示灯:当该指示灯闪烁时,表明硬盘驱动器正在
16、使用中。信息指示灯:当该指示灯点亮时,表明发生了一般性事件。光通路诊断面板上的某个指示灯也会点亮,以帮助找出错误。系统错误指示灯:当该指示灯点亮时,表明发生了系统错误。光通路诊断面板上的某个指示灯也会点亮,以帮助找出错误。释放滑锁:将该滑锁滑向左侧可操作光通路诊断面板,该面板位于操作员信息面板的后面。第十五张,PPT共七十三页,创作于2022年6月二、IBMPCServer产品介绍及故障诊断光路诊断板分析:使用释放滑锁将光路诊断板拉出的时候,可以看到如下图所示:OVERSPEC:电源功率超过最大额定值PSX:托架X中的电源发生故障;CPU:微处理器发生故障;VRM:微处理器稳压器模块(VRM)
17、上发生错误。CNFG:发生硬件配置错误MEM:当该指示灯点亮时,表明发生了内存错误。NMI:发生机器检查错误SP:服务处理器发生故障DASD:发生硬盘驱动器错误RAID:发生RAID控制器错误FAN:风扇发生故障TEMP:系统温度已超出阈值级别BRD:系统板上发生错误PCI:PCI总线或系统板上发生错误第十六张,PPT共七十三页,创作于2022年6月二、IBMPCServer产品介绍及故障诊断指示灯问题操作无,但无系统错误指示灯点亮。已发生错误但无法诊断,或IMM发生故障。光通路诊断指示灯不表示该错误。使用SetupUtility来查看系统事件日志,获取有关错误的信息。BRD主板上发生错误。1
18、.检查主板上的指示灯,确定引起错误的组件。在下列情况下,BRD指示灯可能会点亮:电池缺少PCI转接卡组合件稳压器发生故障2.查看系统事件日志,获取有关错误的信息。3.更换所有发生故障的可更换组件或安装缺少的可更换组件,如电池或PCI转接卡组合件。4.如果稳压器发生故障,请更换主板。第十七张,PPT共七十三页,创作于2022年6月二、IBMPCServer产品介绍及故障诊断指示灯问题操作CNFG发生硬件配置错误。CPU当只有CPU指示灯点亮时,才表示微处理器发生故障。当CPU指示灯和CNFG指示灯都点亮时,表示微处理器配置无效。1.确定CNFG指示灯是否也点亮。如果CNFG指示灯不亮,表示微处理
19、器发生故障。2.如果CNFG指示灯点亮,表示微处理器配置无效。DASD发生硬盘驱动器错误。硬盘驱动器发生故障或缺失。1.检查硬盘驱动器上的指示灯以找出状态指示灯点亮的那个驱动器,然后重新安装该硬盘驱动器。2.重新安装硬盘驱动器底板。3.如果该错误仍然存在,请按所示顺序更换以下组件:a.更换硬盘驱动器。b.更换硬盘驱动器底板FAN风扇发生故障,或者是运行过慢,或者是已卸下风扇。TEMP指示灯可能也会点亮。1.重新安装由主板上风扇接口附近点亮的指示灯所指示的故障风扇。2.更换由主板上风扇接口附近点亮的指示灯所指示的故障风扇。LOG已将错误消息写入系统事件日志查看IMM系统事件日志和系统错误日志,获
20、取有关错误的信息。更换错误日志中指出的所有组件。第十八张,PPT共七十三页,创作于2022年6月二、IBMPCServer产品介绍及故障诊断指示灯问题操作MEM当只有MEM指示灯点亮时,才表示发生了内存错误。当MEM指示灯和CNFG指示灯都点亮时,表示内存配置无效。1.确定CNFG指示灯是否也点亮。如果是,请运行内存测试试验程序以确定问题。a.如果测试报告有内存错误发生,请更换由主板上点亮的指示灯所指示的故障DIMM。b.如果测试报告内存配置无效,请将DIMM重新插入具有受支持配置的插槽中。2.如果CNFG指示灯不亮,那么应该出现了以下某种情况:v服务器未引导且DIMM故障指示灯点亮。a.查看
21、系统事件日志(SEL)中是否存在PFA日志事件。b.重新安装DIMM。c.如果问题仍然存在,请将DIMM移到其他插槽中。1)如果主板上与这个新DIMM插槽对应的DIMM指示灯点亮,请更换DIMM。2)如果主板上与原DIMM插槽对应的DIMM指示灯点亮,请更换主板(仅限经过培训的技术服务人员)。v服务器已引导,发生故障的DIMM被禁用且其对应的指示灯点亮。a.如果两个DIMM对应的指示灯都点亮,请查看系统事件日志以找出有关其中一个DIMM的PFA,然后更换该DIMM。否则,请同时更换这两个DIMM。b.如果只有一个DIMM对应的指示灯点亮,请更换该DIMM。c.在服务器固件设置中重新启用DIMM
22、插槽。NMI发生不可屏蔽的中断,或按下了NMI按钮。查看系统事件日志,获取有关错误的信息。第十九张,PPT共七十三页,创作于2022年6月二、IBMPCServer产品介绍及故障诊断指示灯问题操作OVERSPEC由于某个电源通道上出现电源超负荷情况,所以关闭了服务器。电源功率超过最大额定值。1.检查电源指示灯以了解是否有错误指示(交流电源指示灯和直流电源指示灯未同时点亮,或信息指示灯点亮)。更换发生故障的电源。2.从服务器卸下可选设备。PCIPCI总线或主板上发生错误。发生故障的PCI插槽旁的附加指示灯点亮。1.检查PCI插槽上的指示灯,确定导致错误的组件。2.查看系统事件日志,获取有关错误的
23、信息。3.如果无法通过指示灯和系统事件日志中的信息确定发生故障的适配器,请从发生故障的PCI总线上逐个卸下适配器,并且每卸下一个适配器都重新启动一次服务器。PS电源发生故障。1.检查电源指示灯以了解是否有错误指示(交流电源指示灯和直流电源指示灯未同时点亮)。2.确保发生故障的电源已正确安装到位。3.更换发生故障的电源。RAIDRAID卡发生故障RAID卡有错误信息或RAID卡有硬件错误SP服务处理器(IMM)发生故障。1.切断服务器的电源;然后将服务器重新连接到电源并重新启动服务器。2.更新IMM上的固件。TEMP系统温度已超出阈值级别。发生故障的风扇会导致TEMP指示灯点亮。1.查看错误日志
24、,以确定在哪里测得温度过高情况。如果风扇发生故障,请进行更换。2.确保室温不会太高。了解温度信息。3.确保通风孔未堵塞。第二十张,PPT共七十三页,创作于2022年6月二、IBMPCServer产品介绍及故障诊断nLED指示灯法:后面板:交流电源指示灯、直流电源指示灯:每个热插拔电源都有一个直流电源指示灯和一个交流电源指示灯。系统错误指示灯:当该指示灯点亮时,表明发生了系统错误。光通路诊断面板上的某个指示灯也会点亮,以帮助找出错误。和前面板上的系统错误指示灯对应;交流直流操作员信息面板供电指示灯描述灭灭灭服务器无电源,或交流电源发生问题。亮灭灭直流电源问题亮亮灭备用电源问题第二十一张,PPT共
25、七十三页,创作于2022年6月二、IBMPCServer产品介绍及故障诊断nLED指示灯法:主板LED指示灯:在一些情况下,比如光路诊断板上的CPUMEM灯亮起了,我们并不能断定是哪个槽位的部件故障了,这个时候就需要打开机器上盖板,查看主板上哪个具体的部件出现了故障,借以做具体的故障定位;第二十二张,PPT共七十三页,创作于2022年6月二、IBMPCServer产品介绍及故障诊断nPOST蜂鸣声代码、错误消息和错误日志:当您开启服务器时,它会执行一系列测试来检查服务器组件以及服务器上的某些可选设备的运行情况。这一系列的测试称为开机自检或POST。如果设置了开机密码,则必须在出现提示时输入该密
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 服务器 硬件 知识
限制150内