2012年12月20日 星期四

Ganglia 安裝備忘


一、必要軟體
1. libpcre
2. libconfuse
3. rrdtool (Server必要,節點不用)
4. apr-1

二、安裝

Server:

Ganglia 預設不安裝gmetad,所以Server上的安裝必需指定額外參數
    ./configure --with-gmetad
    make
    make install

Node:

直接安裝就好~
    ./configure
    make
    make install

三、Ganglia Python Modules for GPU

    模組下載 https://github.com/ganglia/gmond_python_modules/tree/master/gpu/nvidia
    按照說明安裝即可。
    備忘:
     1. 若Ganglia的版本為3.2以前,GPU的節點在編譯gmond時"必需"啟用pcre,不然無法使用gmond設定的'name_match'。
     2. 根據不同版本的驅動以及機器的設計不同,能夠啟用的GPU模組陣列不同,如HP SL390+Tesla M2090就無法偵測GPU的溫度以及風扇(根本沒風扇嘛),須視狀況將nvidia.pyconf以及nvidia.py (位於ganglia的python_modules資料夾下)中的內容註解掉。 可於啟動gmond之後看/var/log/messages或是下指令 `gmond -d 10`來確認。

四、建議的穩定版本

   Ganglia 3.1.7
   Ganglia web 3.5.2

   目前Ganglia最新的穩定版本是 3.4.0,但不建議在大型的Cluster上使用,內部網路很吃緊。
    Ganglia 3.1.7 每個節點的rrds檔案大小大約300~600K
    Ganglia 3.4.0 每個節點的rrds檔案大小大約77MB
    如果節點數很多,光傳那些資料就快塞爆了...囧 (切身之痛啊~~)