文档介绍:HACMP全攻略HACMP全攻略之概念篇HACMP全攻略之概念篇——一些容易混淆或常被问及的问题、基本概念、什么情况下不要用HA一直想把自己对HACMP认识写下来,一直却难得动笔。不管写得如何,今天开始吧!一些容易混淆或常被问及的问题:hacmp不是错误避免,只能减少宕机时间,不可能避免。不是有了HA就OK的,它需要包括各种软硬件、仔细的设计规划及管理等,ha软件只是其中一部分。hacmp是通过减少单点故障来减少宕机时间的。hacmp的plan非常重要,要仔细考虑。hacmp既可以减少计划外的宕机时间,也可以减少计划内的宕机时间。90%的宕机时间是计划内的,减少计划内的宕机时间只能靠管理员不断提高自己的水平来解决了。hacmp是无法解决所有问题的,ha解决不了诸如硬盘、硬盘适配器、硬盘总线的损坏,当然也解决不了ha自身的问题。这些问题应该在操作系统层面上解决。可以通过自定义的事件来实现大多数个性化的需求。hacmp心跳信号用的是snmp协议,同时在TCP/IP和非TCP/IP网络上跑,非TCP/IP包括RS232/RS422、SSA、SCSI等。所以心跳线不只是使用串口线。没有配非TCP/IP网络的,即没有心跳线的HA是可以跑的。前面已经说了心跳信号在TCP/IP网络上也在跑。但是,没有非TCP/IP网络的HA是无法区分TCP/IP失败还是节点失败,这样的话网络的失败会造成孤立的节点,备用会对资源进行错误的接管。hacmpes最多可支持128个节点,但实际很少会见到超过3个节点的Cluster。任何时候都不要killha进程。即使用了ha,备份依旧是不可缺少的。基本概念拓扑:一个逻辑概念,包括节点、网络、网卡以及之间的关系。资源:ip地址、文件系统、卷组、应用等。资源组:一组资源,包含在接管中所要用的所有资源。一个节点可以有多个资源组。应用服务器:启动/停止应用的脚本。同步:在所有节点中更新配置,,5以后就只要同步一次就可以了。事件:状态的改变。可以通过自定义事件来实现个性化的要求。进程:核心进程包括clstrmgr和clsmuxpd。此外还有,clinfo-提供显示群集的状态,cllockd-提供并发控制,在concurrent模式下使用。cascading模式,有优先级,按优先级来接管资源。优先级高的节点恢复后将回拉资源。rotating模式,节点是平等的,按预先定义的顺序接管资源,节点恢复后不会回拉资源。concurrent模式,并发模式,应用跑在所有的的节点上,不存在资源接管的问题。什么情况下不要用HA如果不能忍受任何宕机时间。7*24小时的服务或生命系统的服务需要使用错误避免。如果你的系统安全和网络安全得不到保障的话,使用HA也是没有意义的。如果没有经过培训的系统管理员,或常有用户在上面瞎搞得话,还是不用为好。HACMP全攻略之准备篇HACMP全攻略之准备篇首先当然是要安装操作系统了。AIX的安装这儿就不讲了,记着打补丁、升微码,应该没什么问题吧。共享硬盘的准备。1、共享硬盘为scsi盘。要考虑scsi卡和总线可能是单点故障,scsi硬盘的id号不要设为7。2、共享硬盘为ssa盘,即7133之类。每个节点要有两个ssa卡并仔细规划好结构,保证没有单点故障。3、确保各节点都能访问到共享的硬盘,并保证各节点上使用