阳光石油网|石油技术交流|石油人论坛

 找回密码
 欢迎注册
查看: 679|回复: 0

斯伦贝谢Simulation Cluster Manager(SCM)集群管理软件简介

[复制链接]
火星来客  发表于 2019-12-30 21:29:33 |阅读模式

马上注册,下载丰富资料,享用更多功能,让你轻松玩转阳光石油论坛。

您需要 登录 才可以下载或查看,没有账号?欢迎注册

x

SCM系统简介

主要内容
1SCM (Simulation Cluster Manager) 系统简介
2)某公司SCM系统简介硬件网络配置
3SCM作业提交
4工作负载管理
5SCM集群管理
6SCM系统监控
7SCM性能测试
8SCM上安装应用程序
9SCM 参考文档

1 SCM (SimulationCluster Manager) 系统简介
1)为什么要在Reservoir Simulation中用到集群系统
·        提高效率,并行运算减少运行时间
·        多用户/并发运行
·        可扩展
·        释放工作站/笔记本电脑以进行其它建模和解释任务
·        可运行大型复杂的油藏模型
·        集中计算资源,降低管理成本

2)部署集群的传统方法:非常复杂
·        硬件安装和设置(服务器,存储,网络)
·        每个节点上操作系统的安装,网络设置(IP地址,主机名等)
·        OFED设置(驱动程序安装,配置,启动网络管理器等)
·        操作系统参数调整(如防火墙等)
·        用户创建,身份验证和ssh设置
·        外部NAS设置(网络设备,安装,配置)
·        LSF安装和设置(许可,安装,用户,队列,资源,环境等)
·        ECLIPSE/INTERSECT安装/升级和许可证设置
·        MPI参数设置
·        设置用户环境
·        运行测试并与基准数据进行比较

3SCM:集群系统优化的解决方案
·        在集群系统的部署阶段,系统的安装调试需要花费较长的时间;
·        由于集群系统的硬件/操作系统/软件的复杂,管理起来难度很大,一旦出现故障不能及时解决,将导致生产时间的损失;
·        集群系统也很难进行优化。
SCM (SimulationCluster Manager) 是由IBM Platform公司和Schlumberger 公司共同开发的集群系统优化的解决方案。

4SCM的体系架构(略)


5SCM的主要特性
集群管理工作负载管理作业提交管理。

6SCM集群管理有以下特性
·        服务器快速配置
·        基于Web的访问
·        轻松安装/升级ECLIPSE /INTERSECT
·        工作监控
·        轻松管理HPC集群(队列,用户,应用程序,操作系统)
·        资源利用综合报告(CPU,内存,节点,作业,许可证)
·        确保最长的正常运行时间
·        可以管理大型集群

7)强大的工作负载管理- LSF系统,有以下特性:
·        强大,全面,策略驱动的工作负载管理器
·        非常易于使用和维护
·        非常灵活和可定制

8)作业提交
用户可通过浏览器访问管理节点的Web页面,通过Web GUI界面提交作业,监控作业。
file:///C:\Users\user\AppData\Local\Temp\msohtmlclip1\01\clip_image003.jpg


2 公司SCM系统简介
1)硬件
·        管理节点1个,硬件型号为HP DL380 G8。
不用于模拟计算,而是用于共享应用程序以及用户的home目录等,也用于管理资源,运行Admin和用户界面。
·        2个计算节点,CN01和CN02,共有60个核。
CN01:硬件型号为HP DL380 G9
CN02:硬件型号为HP DL360 G9

2网络
·        Public网络:可用于访问NAS和NIS,允许用户访问集群。地址范围为10.x.x.41—43 /24。
·        Private网络:用于运算节点访问管理节点上的资源如应用程序和NFS共享目录,在kick-start安装时运行DHCP服务,及各个节点之间内部通信。地址范围为10.x.y.55—56 /24。
·        iLO网络:iLO是管理接口,用于远程访问和管理服务器,开/关服务器的电源等。
·        未来还可以选择添加InfiniBand (IB),高速网络,使得作业在计算节点之间高速传输。这个选项很昂贵,目前没有采用。

3配置
在这个集群中主要有2个系统。
第一个系统是SCMSCM是集群的管理控制台,用于报告使用情况,控制作业,监视故障,以及其它任务。
第二个系统是Load Sharing Facility (LSF)LSF管理资源的使用基于优先级和可用资源安排作业的运行。

3 SCM作业提交
1用命令行提交作业
putty登录管理节点用命令行提交作业
eclrun eclipseONEM1.DATA

2)从用户工作站的Eclipse提交作业
从用户工作站的Eclipse可以提交作业,并查看作业的状态。

3)通过Web GUI界面提交作业
用户也可通过浏览器访问管理节点的Web页面,通过Web GUI界面提交作业,监控作业;通过CLI命令行和PRT文件可以查看作业的运行情况。

4 工作负载管理
1LSF 简介
LSF
代表负载共享设施(Load Sharing Facility)
·        LSF是一个产品(来自IBM Platform Computing),它运行批处理作业,根据当前负载情况从集群中选择执行主机。
·        批处理作业保留在队列中,直到有适当的资源可用。
·        LSF提供了对集群中的资源进行透明访问的功能。
·        LSF可以将作业放入队列中。
·        队列可以限制主机的类型,作业何时可以运行(例如:晚上),用户等。
·        如果资源不足,作业将PEND,直到资源条件满足。
·        LSF非常易于配置。

2LSF常用命令
·        Gives detailed information forall queues:   # bqueues –l
·        Shows user activity:    # busers
·        Displays loadinformation for hosts:    # lsload
·        Displays hosts andtheir static and dynamic resources:    #bhosts
·        Displaysinformation about LSF jobs:    # bjobs -uall
·        Shows old, completedjobs:    # bhist -a
·        Check lsf servicestatus:    # service lsfstatus/stop/start
·        Starts LIMs on allhosts in the cluster:     #lsadminlimstartup all
·        Starts RESs on allhosts in the cluster:   #lsadminresstartup all
·        Starts sbatchd onall batch server hosts:   #badminhstartup all

5 SCM集群管理
1增加用户
# adduser<username>
# passwd <user_name>
# updatenode __Managed -F

在管理节点中编辑环境变量文件/etc/profile.d/scm.sh, /etc/profile.d/scm.csh, 然后
# updatenode__Managed -F

2增加外部共享NAS
SCM安装前scm.conf中指定SCM安装完成后NAS会自动加载
SCM已经安装后,可手动安装NAS,在管理节点和计算节点中设置mount点:
1.在所有节点上创建mount目录。以root用户登录管理节点并运行如下命令:
# mkdir 777 /data
# xdsh __Managed mkdir –m 777 /data
2.然后为所有节点在fstab中添加一行
# xdsh __Managed “echo “headnode:/data /data nfs defaults 0 0" >>/etc/fstab"

注意如果要从管理节点共享还需要在/etc/exports中添加
/data *(rw,async,no_root_squash)

3. 用以下命令将文件系统挂载到所有节点上
# xdsh __Managed mount –a

3)节点安装和配置模板
·        节点安装是由配置模板来定义的。
·        配置模板由6部分组成:General,Components, Packages, Partitions, Networks, Post-Install Scripts。
·        配置模板可以在Web GUI中修改:Resources > Node Provisioning > Provisioning Templates。
节点安装可通过操作图形界面来完成,非常方便。

6 SCM系统监控
登录到SCM系统后,可以监控并报告很多信息:
·        Hardware Resources- Monitor and report overall cluster
·        Each Compute Node– Summary
·        Each Compute Node– Performance
·        Each Compute Node– Jobs
·        Each Compute Node –Alerts
·        Each Compute Node– System Info
·        Monitoring and JobReporting
·        Queue Utilization
·        And others

7 SCM性能测试
可以使用ECLIPSE E100中的一百万个cell的基准测试来确定性能,并监控在对系统进行任何修改后它的性能是否发生了变化。可与之前运行的结果进行比较。

8SCM上安装应用程序
Schlumberger SIS应用程序(和第三方应用程序)可安装在SCM上。
有两种安装方式:用SCM 应用程序kit安装;手动安装。
Kit安装非常方便。当客户购买SCM及其支持时,他们将以kit方式获得SIS应用程序(前提是它支持SCM)。目前以kit格式提供的SIS应用程序包括ECLIPSEINTERSECTPetroModVISAGEPIPESIM计划包含在下一版本中。客户购买这些kit无需额外费用。
SCM 应用程序kit的安装方法以及手动安装应用软件的方法,请参见相关的文档。

9 SCM 参考文档
·        SCM, ECLIPSE的文档能从Help 菜单页获得。
·        在缺省状态下, 只有 ECLIPSE的文档能从Help菜单页获得。安装其它的kit 如INTERSECT和PetroMod后会增加相应的文档。
·        另外, SCM 手册的 pdf 文档能从SCM USB Stick 的 doc目录以及管理节点的 /usr/local/scm目录获得。
您需要登录后才可以回帖 登录 | 欢迎注册

本版积分规则

QQ|Archiver|手机版|小黑屋|阳光石油网 ( 鲁ICP备2021003870号-1 )

GMT+8, 2024-6-17 00:49 , Processed in 0.066030 second(s), 17 queries .

Powered by Discuz! X3.4 Licensed

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表