硬碟故障可能原因分析
經年累月銷售無數的NAS儲存設備,在規劃儲存設備時第一件事情是了解客戶所使用的功能,第二件事就是花十分鐘時間說明硬碟的選購。除了選購硬碟之外,後續的故障維運才是重點。本文試著以各種已公開數據以及影響硬碟運作的關鍵因素,來分析硬碟故障可能的原因,以及一座資料儲存系統如何達到長時間的資料安全運作。
S.M.A.R.T.
硬碟S.M.A.R.T. 錯誤是硬碟機即將故障的預測,但是大部分的使用者每天使用電腦或儲存資料到NAS系統,卻不曾或不常去觀察硬碟的SMART資訊,以致於有天硬碟突然罷工時,才知道代價非常高。
硬碟S.M.A.R.T. 資訊在WINDOWS 中可以透過一些應用程式執行後得知,如CrystalDiskInfo 等免費軟體,在LINUX 中可以安裝Smartmontools之類的套件達成,在NAS廠商幾乎都有內建硬碟的S.M.A.R.T. 檢測機制連動通報機制。
以下以硬盤硬碟為例進行說明,SSD硬碟也有自己的S.M.A.R.T ,例如很重要的介質損耗指標等,再另文討論。
硬碟S.M.A.R.T. 資訊包含了60項以上的數據,依據不同的廠牌及等級在項目上會有增減,可以參考維基百科
硬碟S.M.A.R.T.的幾個重要指標
這麼多項的數據有出現錯誤時,每一項錯誤對於硬碟的損害程度不一,以下先提出對硬碟損害較大的項目提供參考,這些項目可以判斷硬碟是老化、可能損壞等提前預防指標。
1 Raw Read Error Rate 底層資料讀取錯誤率:硬碟資料讀取錯誤的機率升高,超出安全範圍值時會對效能影響,也可能代表硬碟出現瑕疵
4 Start/Stop Count 啟/停次數:這個值是硬碟主軸馬達啟動/關閉的次數,一般來說就是你開關電源的次數 由於硬碟馬達啟/停時磨耗最大,這是一個壽命參考值
5 Reallocated Sector Count 重分配磁區數量:碟內部在發現弱磁區時會將弱磁區的資料重新分配到備用區, 這個值代表碟片可能出現瑕疵,當磁頭移動到壞磁區時會再移到備用磁區讀取資料,也會影響效能。
9 Power-On Hours Count 總通電時間:硬碟總通電時間,這是一個壽命參考值
10 Spin-up Retry Count 起轉重試次數:可能是電源供應不良,或是主軸馬達損壞前兆
184 End-to-End Error 終端校驗錯誤:HP或SEAGATE 一些特有硬碟才有的數值,記錄硬碟從碟片讀取資料到快取後再傳輸到主機時資料校驗出錯的次數
197 Current Pending Sector Count 等候重定的磁區數:代表了不穩定的磁區數量。
198 Uncorrectable Sector Count 無法校正的磁區數:記錄了確定無法校正的磁區數量。
以上幾點是比較指標性的硬碟S.M.A.R.T. 數值,通常注意這些數值就足以提早進行預防措施。
造成硬碟故障的因素分析
接下來討論的,就是造成以上這些指標可能因素:
1.使用時間:
使用時間對硬碟機穩定性的影響是很容易理解的。
以數學方式來看,下列簡單的方程式即可表示使用時間和產品穩定性的關係,而這也就是代表整體元件累積故障機率的平均無故障時間 (MTBF)。
當使用時間增加時,累積故障機率也會增加。

此數值小於 1 的話,意謂著故障機率愈低,裝置可持續開機、運作及使用。
實際上來說,各廠牌一般桌上型硬碟的MTBF 約為60萬小時,NAS硬碟約為100萬小時,企業級硬碟約為200萬小時。
高溫幾乎會對所有電子和電子機械產品的穩定性帶來負面影響,包括硬碟機也不例外。根據阿列紐斯 (Arrhenius) 定律,溫度愈高,故障率也會快速增加。相對來說,溫度對穩定性和 MTBF 的影響,較廣為人知。經驗法則是要確保硬碟機的溫度愈低愈好,同時還必須維持在產品的指定溫度範圍內。一般來說,不論硬碟機的類型為何,其運作溫度範圍都介於 5°C 到 60°C 之間。因此若想要提升資料中心硬碟機的穩定性,就必須在提供有效散熱這方面下功夫。
3. 工作量壓力:
工作量是定義在正常運作之下,硬碟機所承受的工作壓力量。例如,硬碟機 A 可能每天都要讀取和寫入幾 GB 的資料,而另一款相同設計的硬碟機 B 可能每天要讀取和寫入好幾百 GB 的資料。在這種情況下,我們會說硬碟機 B 運作時的工作壓力更大。
為了瞭解什麼情況下表示工作量太重,我們如下案例說明 (硬碟機 A、B 和 C):
假設這三部硬碟機都在類似的條件 (以及相同伺服器) 中運作
(硬碟機 A) 需持續傳輸 5MB/秒 (或平均 158TB/年)
(硬碟機 B) 需持續傳輸 10MB/秒 (平均 315TB/年)
(硬碟機 C) 需持續傳輸 100MB/秒 (平均 3,150TB/年)
從案例中可看出硬碟機 B 比硬碟機 A 承受高 2 倍的工作量壓力,而硬碟機 C 則比硬碟機 A 承受高 20 倍的工作量壓力。
假設是線性關係,下一步的合理推論就是硬碟機 B 的故障率會比硬碟機 A 高 2 倍,而硬碟機 C 的故障率則比硬碟機 A 高 20 倍。
不過,根據原廠實驗的數據來看,單純用線性延伸來推斷故障率與工作量的關係其實並不正確。
原廠得出了下列結論:
目前,每款硬碟機類型都會有個定義為工作負載率限制的安全工作量臨界值。
只要工作量不超過 ,工作量壓力對產品本身的穩定性影響就微乎其微,甚至沒有影響。
若超過時,產品的穩定性就會衰減。
因此,請務必瞭解實際資料中心的工作量壓力,並選擇適當的硬碟機
震動是硬碟效能影響最大的因素, 甚至是影響硬碟壽命的因素之一,震動會造成讀寫頭的不穩定與讀與寫資料的不準確, 而硬碟為了將正確資料傳送給您的電腦, 在震動狀態下會一直retry 讀取或寫入至資料正確為止, 因此整個效能會大幅的下降!! 而震動造成的原因跟硬碟顆數有絕對關係, 愈多顆的硬碟運轉上造成的震動成為主要幫兇, 裝置在您電腦上的硬碟大部分為一顆或兩顆, 硬碟的震動不會明顯的影響效能, 但是在NAS系統上動輒5顆、8顆甚至更多硬碟, 造成的震動就非常大。
因此在各廠牌部分NAS級以上的硬碟機提供震動感應 RV Sensor,這些技術並不僅僅於"防震、減震", 事實上磁碟碟片數愈來愈多, 讀寫頭愈來愈高, 磁密度愈來愈高, 就算在硬碟上面加上賽車級避震系統都不一定能有效抗震, 這些抗震技術主要能力在偵測震動,並且根據偵測到的數值進行補償修正, 硬碟上配置RV Sensor 可以減低效能損失亦對硬碟壽命延長有幫助, 因此價位也相對高昂。
Backblaze 的硬碟故障分析
Backblaze 這家提供無上限雲端儲存服務的公司,以自己的 25,000 顆硬碟作實驗,測試到底一顆硬碟能夠使用多久,我們引用他的數據對硬碟故障率做一簡單分析,以下是他們的測試報告:
硬碟的故障率是有階段性的,在一開始的一年半是第一階段,這時候硬碟的年故障率是 5.1%,而在一年半到三年之間是第二階段,這時候的年故障率降為 1.4%,而在三年之後又提升至 11.8%,然後在第三到四年急速上升到22%。所以大約有 92% 的硬碟可以撐過 18 個月,而有 90% 左右的硬碟可以使用到三年,在這之後,故障率就大幅提升,到了第四年只剩下約80% 的硬碟還存活。
硬碟的年故障率分為三個階段,而這三個階段也對應了三個硬碟損壞的原因,第一個階段的損壞原因來自於硬碟本身在製造上的瑕疵
第二階段的損壞是因為隨機性的損壞。
自從三年之後,進入最後一個階段,這時候是因為硬碟已經使用一段時間了,裡面的零組件漸漸自然損壞。
因應之道
對上述的所有因素,我們簡單做一個結論,這麼多年來硬碟的損壞率遠遠大過NAS主機的故障率,因此維運一座儲存系統重要的不僅僅在採購時的搭配選擇,後續的維運更是重要;現在很多人採購的儲存系統都屆滿3年以前,對於資料永續的維運該如何處理,我們認為必需要的編列常態性預算,如果硬碟保固期為三年,在屆滿三年後進行硬碟的更換作業是最佳方式,當然前題還是要有預算支持,如果沒有預算,那就要加強對硬碟狀態的監測,一有風吹草動就進行硬碟更換作業。
另外,當然資料備份非常重要,我們不能期望一顆硬碟能至少乖乖的運作到保固期結束前都不發生任何意外,只靠儲存系統陣列的保護,我們還是經常遇到硬碟同時損壞兩顆以上而資料流失的案例,沒有備份的資料,就像撐著傘在風雨飄搖下的人,傘被吹走了,人就淋濕了!
參考資料來源:
Extreme Tech
