| HA+解决方案是基于开放式关键业务集群架构系统上的高可用解决方案,HA+是由支撑OMCS的中间件群组VALUMO中的以下的5个软件组成,这5软件分别可以从不同的层面提高系统的可用性,如下图所示:

High Availability Plus
的解决方案
1. 很多计算机系统会为以下的问题感到困扰:
因系统经常停止而苦恼 花费大量时间进行系统的故障解析 只有在用户投诉时,才意识到系统发生故障 希望简单有效地排除故障但又不知道应该怎样做
⇒HA+
解决方案为您解决此类问题。 IT系统扩大了业务机会,并快速提高了业务效率。但另一方面,IT系统故障的频频发生使企业丧失信用,不仅造成销售额下降而且还被要求赔偿损失,这种案例也层出不穷。因此对IT系统的Mission
Criticality的要求与日俱增。
对于这种市场需求,可以说以前的中间件能够充分满足吗?仅凭世界知名厂家的软件包产品即能够构建满足客户需求的高可用系统吗?
我们NEC提倡OMCS(Open Mission Critical
System),开发了增加集群系统的高可用性的中间件。“HA plus(HA+)
解决方案”是一种无需重新构建客户系统,仅通过简单安装便可提高系统的高可用性和操作性的解决方案。
2. 什么是HA+ 解决方案?
系统由于各种原因停止,其原因也是多种多样。据Gartner
Group的调查显示,意料之外的系统停止原因分为运行操作失误 (40%) 、应用程序的问题 (40%),
HW/OS/环境原因 (20%) 三种。

一般系统故障及对其典型的原始处理方法分为以下6种:
|
故障分类 |
故障种类 |
对故障的典型的原始处理方法 |
| (1) |
HW/OS/环境原因 |
硬件的故障 |
向正常硬件进行切换/交换 |
| (2) |
|
作为OS及系统平台的中间件的故障 |
重启发生故障的OS的进程及中间件,或者在其他服务器上重新启动 |
| (3) |
|
DB故障 |
重启发生故障的进程,或者在其他服务器上重新启动 |
| (4) |
|
Web应用服务器的故障 |
重启发生故障的进程,或者在其他服务器上重新启动 |
| (5) |
应用程序的问题 |
业务AP的错误 |
如有可能,进行业务AP的重启。获取故障解析信息,委托相应AP制造者进行调试。 |
| (6) |
运行操作失误 |
操作人员执行了错误处理而导致的故障
|
确定故障位置,根据事先制订的故障处理方法由操作者进行恢复操作。 | 在HA+解决方案中,针对此表的②~④提供尝试自动恢复的方案,对于⑤提供调试所需的解析信息。另外,发生(1)~(6)的故障时,在最终用户提出投诉之前,将系统哪一部分发生了何种故障切实传达给操作人员,向操作人员指示对于所发生的故障的处理方法。
3. HA Plus 解决方案的概要
所谓HA+
解决方案,是指仅通过在现有系统上进行Add-on来提高系统的高可用性,为终端用户、操作人员、故障解析人员带来利益的解决方案,而且几乎无需对现有系统手动更改设置。
4. HA Plus 解决方案的软件
HA+ 由以下5个产品构成:
Operations
Navigator 提高服务器的操作性 MCOne APServer
Watcher 提高应用服务器的可用性 ApplicationMonitor
for Oracle/RAC 提高DBMS的可用性 MCOne Biz
Trace 提高应用程序的故障解析性 ProcessSaver 提高系统级别的可用性

5. HA+的核心产品“ProcessSaver”
应用服务器产品对其上面运行的AP(下称业务AP)进行启动及监视。应用服务器产品在其上面运行的业务AP出错停止时,可以使其执行事先定制的处理。因此,可以说应用服务器产品的作用就是提高业务AP的可用性。 但是,应用服务器产品本身的进程一般不受到任何监视。因此,需要通过ProcessSaver
等外部工具进行监视及故障时的重启。
同样,Oracle本身的进程也不受到任何监视。它们需要通过ProcessSaver等外部工具进行监视及故障时的重启。
另外,OS 启动的进程也一般不受到任何监视。它们也需要通过ProcessSaver
等外部工具进行监视及故障时的重启。

6. 监视应用服务器的MCOne APServer
Watcher
此产品用于监视J2EE
应用服务器的正常运行。 对J2EE应用服务器中部署的监视组件定期执行监视事务,监视有无错误及事务的执行时间(Turn
Around Time;
TAT值)。由此查出通常系统级别监视难以发现的无应答故障(无响应故障)。 查出故障时,不是单纯自动重启服务器,而是可以自动获取用于解析故障原因的堆栈跟踪等。
7. 监视DB的ApplicationMonitor for Oracle
/RAC
此产品用于监视Oracle的正常运行。 通过定期访问Oracle的实例、监听器、表空间(table),查出系统级别的监视难以发现的无应答故障(无响应故障)。备有用于Oracle的HA配置及用于RAC
(Real Application Cluster) 的解决方案。

8. 便于进行业务AP伤害解析的MCOne Biz
Trace
可以在客户开发的Java应用程序中轻松嵌入输出丰富信息的跟踪功能。由此提高应用程序的故障解析性。

9. 统一监视系统的Operations
Navigator 此产品是可以轻松进行导入/操作的服务器统一监视产品。 由于是统一提供操作管理所需功能的All-in-one产品,仅进行一次安装即可迅速开始监视。另外,为支持复杂的服务器操作,还提供以下功能。
从业务观点进行故障监视 (Business-view
Monitoring) 用高亮点显示发生故障的地方,与系统提供的“业务”相结合,分类显示故障消息。这样在发生故障的瞬间便可以一目了然地把握对哪种业务有影响。
Knowledge功能 针对发生的故障显示“应该怎样操作”的指导消息。这样即使经验较少的操作人员也可以迅速无误地进行处理。

详细资料请下载:
http://www.necsl.com.cn/solution/omcs/HA+solutionLeasflet.pdf
如对NEC的机群软件感兴趣,请点击: http://www.nec-as.com.cn/nec-as/nec-as/detail.aspx?nodeID=30 |