新儲域科技 - 本站消息 | 2018-03-20 | 人氣:1696

DiskProphet® BGP 案例分析

簡要概述

中國石油集團東方地球物理勘探有限責任公司(Bureau of Geophysical Prospecting Inc., Ch ina National Petroleum Corporation)在高效能計算叢集系統( High Performance Com puting Cluster , HPCC)中,採用先智雲端數據公司的DiskProphet產品來分析預測Disk故障,實現主動式故障通報機制。 在資料處理任務調度時可提前避免存在隱藏性故障風險的計算節點,從而徹底消除長時間運算任務的意 外中斷現象,保證所有任務均可一次性順利完成,平均縮短任務運行週期達30%以上,提升整體計算資 源效率近50%,對其中使用三年以上的老舊硬體資源,有效利用率提升超過90%,同時降低無效供電能 源損耗接近100%,並顯著減少任務運行中系統維護的工作量。

客戶背景

東方地球物理勘探有限責任公司(BGP)是全球最大的油氣勘探資料處理公司,資產總額超過31億 美元,為全球60個國家近200家石油公司提供技術服務,2015年至今市場佔有率持續保持全球第一, 其中陸地勘探資料處理業務自2002年起,連續15年保持全球第一。 東方地球物理勘探有限公司(BGP)在中國、美國、中東和東南亞地區設立有資料處理中心,基於 超高密度x86 Linux高性能計算叢集,運行其自主研發的GeoEast系列軟體,為全球各大石油公司分析 處理各類勘探資料

面臨挑戰

勘探資料分析多為大規模長時間運算任務。一次分析處理過程,往往需要調撥幾百台甚至千餘台計 算節點構成高性能計算叢集,持續運行幾周甚至更長時間。如果中途某節點不幸出現意外故障,將會必 然造成叢集總體運算的部分甚至全部停止。因此個別節點故障在整體系統中造成的資源、工時、人力、 能耗等方面的浪費都非常驚人。 遺憾的是,如東方地球物理公司資料處理中心這樣大規模、超高密度、重負載的叢集中,硬體故障 經常出現,尤其以Disk故障最為常見。如何保障資料分析任務順暢穩定運行,一直是困擾系統建設和維 運工作的最大難題。

解決方案

採用RAID等冗餘保護是最為常見的Disk故障保護機制,但是在東方地球物理公司實際環境中,增 加計算節點內的RAID冗余保護不僅增加硬體成本,而且明顯影響運算處理性能。經計算,附加硬體投 資和額外的計算資源佔用時間,已經基本抵消了改造收益。所以傳統RAID保護機制並不能解決問題, 必須尋求新的解決途徑。 先智雲端數據公司提供的解決方案是利用DiskProphet,對高性能計算叢集中所有節點內Disk進行 分析預測,獲知每個節點可能出現故障的時間點。同時整合GeoEast任務調度系統,在生產任務開始前, 從叢集中排除存在故障風險的節點。以此保證所有承載生產任務的計算節點,在執行生產任務期間不會 出現意外故障停機。

此外系統視角的“磁碟故障事件”並非完全是指物理磁碟本身的壞損,也包括設備接口,鏈路通訊, 供電,散熱,驅動軟體等若干關聯方面臨時或永久性故障。僅僅依靠對磁碟內部壞塊和指令執行失敗的統 計,其基礎信息維度便遠遠不夠。

用戶獲益

  • 資料處理任務執行時間縮短

借助DiskProphet的Disk故障預測技術,幾乎徹底消除以往頻繁出現的生產任務停止,平均縮短任務執 行時間30%以上。東方地球物理公司因此可以在不增加任何硬體資源的前提下,更快速即時的為各石油 公司提供勘探資料處理結果。

  • 老舊硬體設備得以充分有效利用

以往因懼怕節點故障影響叢集整體效率,對運行超過三年的老舊節點,只能謹慎使用,僅執行少量臨時 性或邊緣性任務。利用DiskProphet預測技術之後,叢集調度系統可以放心分配任務到任意節點,舊設 備的資源也可以得到充分利用。

  • 整體資源效率大幅度提升

由於採用了故障預測技術實現主動式防禦機制,系統對冗餘度的依賴程度大大降低。即使運行重要關鍵 任務的節點,也可以只配置基本冗餘度就能滿足系統整體可靠性要求。這樣便在系統中釋放出大量資源, 這些資源都可以用於投入實際生產任務。系統整體資源效率因此得到大幅度提升。

  • 顯著減少系統維護工作量

由於DiskProphet預測精準,大量傳統的意外故障被轉化為可計畫事件,其應對方式也從被動回應變為 主動通知。因此資料中心的日常維運工作計劃性更強,流程管理更為簡潔有效率。維運團隊在可靠性保 障方面節省更多時間精力,更專注於系統優化和新技術引入等其他工作。