HPC WORLD
High Performance Computing
High Performance Computing
|
Loading Digu...
|
Aug 16th
在看Membership Service时,其中也谈到了IBM BlueGene/L。作为曾经Top500第一的超级计算机,我觉得还是挺有必要深入的了解一下。第一部分,介绍一下BlueGene/L(BGL,蓝色基因)的系统架构(System Architecture)。
BlueGene/L超级计算机,作为美国ASCI战略计划的一部分,是IBM与Lawrence Livermore National Laboratory一同开发研制的。拥有2^16=65536个结点的超大规模并行系统,基于一种全新的System-on-a-chip(SoC,片上系统)架构(Soc将之后详细介绍),其峰值处理能力到达360TFLOPS。
具有2^16=65536个计算节点的BlueGene/L系统,通过64*32*32的3D Torus网络结构构成。每个结点由一个ASIC和内存组成,支持达2GB的本地内存,并具有9个256MB内存的SDRAM-DDR内存芯片。用来构成结点的ASIC是完全基于IBM的Soc技术的。每个结点才11.1平方毫米大,具有高密度处理能力。ASIC使用的是700MHZ的IBM PowerPC 400处理器。
其组成可以简单表述如下:
Aug 15th
10/08/09:配置Xfinity环境,了解项目架构,学习心跳机制。
10/08/10:阅读项目源码,学习Extjs,JS,Ajax。
10/08/11:Xfinity项目相关学习,编写心跳机制模块代码。
10/08/12:实验集群blade01结点BLCR配置成功。
10/08/13:OpenMPI+BLCR测试,checkpoint有效,restart失败,初步定位为NSCD问题,待处理;Xfinity项目例会,汇报工作进展,继续完善心跳机制。
Aug 12th
实验集群用的是SLES10,从最初打算在该实验集群上配置BLCR,到今天终于配置成功,可谓一波三折。但是在我自己的单机结点和自己搭建的实验集群上,配置都是很容易和顺利。主要原因是BLCR需要加载内核模块,所以需要编译好的内核源码包和内核头文件。而在SLES10上,并没有完全安装,并且受到一些操作的限制,需要自行下载相应的源码包,进行安装配置。
实验集群环境:
配置需求:
配置过程总结如下:
Aug 9th
ExtJS+Eclipse+Tomcat+SVN
Aug 8th
10/08/02:为本机结点上配置了容错环境,基于LAM/MPI的局限性,改用了同样对BLCR支持很好的OpenMPI。
10/08/03:实验结点(c7,Fedora)成功配置了容错环境。
10/08/04:在c7结点加入作业管理系统Torque并测试成功。
10/08/05:实验结点(blade)上环境配置调试。
10/08/06:和曙光技术人员关于BLCR及相关问题进行了交流;加入Xfinity开发团队,例会,“心跳机制”任务。
Recent Comments