恒網(wǎng)做的網(wǎng)站網(wǎng)站排名優(yōu)化服務(wù)公司
在LSF集群運(yùn)行過(guò)程中,有主機(jī)狀態(tài)變?yōu)?unreach。熟悉LSF的朋友都知道主機(jī)狀態(tài)為 unreach 表示主機(jī)上的 SBD 服務(wù)中斷服務(wù)了,但其它服務(wù) LIM 和 RES 還在正常運(yùn)行。
影響分析
那么主機(jī)上的 SBD 服務(wù)中斷的影響是什么呢?
我們需要先明白 SBD 服務(wù)的功能是什么。主機(jī)上 SBD 服務(wù)的功能主要是從MBD接收派發(fā)到主機(jī)上的任務(wù)并運(yùn)行任務(wù)、向MBD報(bào)告任務(wù)的資源使用情況、監(jiān)控任務(wù)運(yùn)行狀態(tài)。
因此,如果 SBD 服務(wù)中斷的影響有如下幾項(xiàng):
1. 主機(jī)不再接收新的任務(wù),調(diào)度器發(fā)現(xiàn)主機(jī)狀態(tài)異常后不會(huì)再向主機(jī)派發(fā)任務(wù),從而造成計(jì)算資源浪費(fèi);
2. 任務(wù)的資源使用情況不能及時(shí)收集到,會(huì)影響到資源使用的統(tǒng)計(jì)分析功能,從而影響資源使用計(jì)費(fèi)等;
3. 任務(wù)的狀態(tài)不能及時(shí)收集;
4. 不能控制任務(wù),比如掛起任務(wù)、恢復(fù)任務(wù)、終止任務(wù)等;
原因分析
主機(jī)狀態(tài)成為 unreach 的原因有以下幾項(xiàng):
1. 誤操作終止了 SBD 服務(wù);
2. /tmp 空間滿了;SBD 運(yùn)行過(guò)程中需要在 /tmp 下創(chuàng)建臨時(shí)文件,如果 /tmp 沒(méi)有可用空間則會(huì)導(dǎo)致 SBD 服務(wù)終止;
解決方法
對(duì)于 /tmp 空間不足的問(wèn)題,需要先清理空間,或增加存儲(chǔ)空間,然后再啟動(dòng) SBD 服務(wù)。
如果 /tmp 空間充足,則只需要重啟 SBD 服務(wù)。
以 root 身份登錄主機(jī),并運(yùn)行以下命令啟動(dòng) SBD 服務(wù)。
# badmin hstartup
或者在管理節(jié)點(diǎn)上運(yùn)行如下命令,記得將 host_name 替換為主機(jī)名稱。
# badmin hstartup host_name