该系列文章的目的是把分散在公共领域不同地方的、用各种硬件和软件创建工作的 Linux 集群的过程所需要的信息,集中在一个地方.但是,这些文章并不打算介绍关于设计一个完整的新的大型 Linux 集群所需的基础知识.请参阅参考资料下的参考资料和红皮书获得一般性的架构指南. 本系列的前两部分介绍集群的安装,概述了使用 IBM 系统管理软件 —— 集群系统管理(ClusterSystemsManagement,CSM)进行的硬件配置和安装.第一篇文章直切主题,介绍了硬件配置过程.第二篇文章介绍管理服务器的配置和节点安装.本系列后续文章将介绍集群的存储后端,包括存储硬件配置以及 IBM 共享文件系统 —— 通用并行文件系统(General Parallel FileSystem,GPFS)的安装和配置. 这个系列可供系统架构师和系统工程师在使用 IBM eServer 集群 1350 框架规划和实现 Linux 集群时使用.(请参阅参考资料).出于培训目的,正常集群操作中的一些内容可能还与集群管理员有关. 第 1 部分:集群的通用架构 在采取任何配置步骤之前,一个良好的设计至关重要.设计分为两个部分: ?物理设计 ?每种机架类型的机架布局(例如,管理机架和计算机架) ?机房设计:在安装和生产期间(如果两者不同)应当如何布置机架 ?机架间的连接图(用于网络、电源、控制台访问等等) ?机架内的电缆连接(用于存储、终端服务器等等) ?逻辑设计 ?网络设计包括:IP 地址范围、子网配置、计算机命名规范等等 ?CSM 配置,包括:定制脚本位置、硬件设置、监视需求 ?操作系统需求、定制包列表、系统配置选项 ?存储布局,包括文件系统布局、分区、复制等等 示例集群(请参阅图 1)完全由基于 Intel® 或 AMD 的 IBM Systems 计算机以及附加的 TotalStorage 子系统构成(关于这些系统的更多信息,请参阅参考资料 )为简单起见,用千兆铜线以太网电缆提供集群的内部连接.电缆在多数情况下可以用 bonded/port-channeled/etherchannel 链接提高机架间的带宽,从而提供良好的传输速率 在这里插入自己喜欢的中继项 . 网络拓扑采用星形结构,所有机架向后连接到管理机架的主交换机.示例集群使用三个网络:一个用于管理/数据(计算网络),一个用于集群文件系统(存储网络),一个用于管理性设备的管理.前两个网络是普通的 IP 网络.多数任务使用计算机网络,包括进程间通信(例如MPI)和集群管理.存储网络专门用于集群文件系统的通信和访问. 图 1. 集群架构图
示例集群的一些额外设计和布局细节包括: ? 管理服务器—— 管理服务器的功能可以放在一台服务器或多台服务器上.在单台服务器环境中,管理服务器以独立模式运行.也可以设置高可用性管理服务器.可以使用 CSM 高可用性(HA)软件在两台服务器之间进行 “心跳测试”,在发生故障情况时管理服务器之间的动态故障屏蔽.引入额外管理服务器的另一种可行方法是:当HA在环境中不重要的时候,使用复制设置.在这种情况下,可以把管理服务器的数据备份到其他活动系统,可以通过手动设置将备份系统联机以便接管管理工作(如果有必要的话).在图 1中,管理网络连接用红色显示.管理服务器是 CSM 服务器,它使用 CSM 功能专门控制集群:负责系统安装、监视、维护和其他任务.在这个集群中,只有一台管理服务器. ? 存储服务器和磁盘 —— 可以用多种机制把多台存储服务器连接到基于磁盘的后端.可以用光纤、铜缆或结合使用二者,直接把存储器连接到集群,或者通过存储区域网络(SAN)交换机连接(请参阅图 1). 这些服务器为集群中的其他服务器提供共享的存储访问.如果需要数据备份,请用额外的铜缆 |