真「SSD」不怕火煉?長時間高溫老化測試見真章

Allion Labs / Blake Chu

現今SSD主流已從當初的2.5吋SATA SSD進化到體積只有一半不到的M.2 NVMe SSD。當體積越小,代表了速度將有明顯地提升,延遲也會降低,而體積小的SSD也更能應用在更廣泛的地方,如車載系統、亦或是未來5G架構系統的應用。NAND Flash為SSD內部擔任儲存資料的元件,一般來說,影響NAND Flash資料保存,除了抹寫次數(PE/Cycle),溫度也是另一個因素;如在極端的條件下使用,在長時間與不同的溫度變化也會對NAND Flash資料保存(Data Retention)造成影響。為何這兩點會影響到SSD資料保存呢?我們簡單概述一下NAND Flash基本原理。

NAND Flash基本操作的主要三動作:寫入、讀取、抹除。

  • 寫入: 資料在NAND Flash中是以電子形式(electrical charge)儲存。儲存電子的高低電位,取決於Control Gate所被施加的電壓(圖1),當一正電壓加於Control Gate時,傳送電子通過第一個絕緣體進入Floating Gate內,當Floating Gate被注入負電子時,在位元中1就會變成0,此時為寫入。
  • 讀取: 當讀取資料時,同樣會在Control Gate施加電壓,吸住Floating Gate裡的電子,利用電流來感應Floating Gate裡的電子數量,靠感應到的電子數量轉換為二進制的0與1,最後輸出成資料,此時為讀取。
  • 抹除: 當Control Gate加進負電壓時,會將電子傳送到Floating Gate外,而當負電子從Floating Gate移除後,位元也就從0變回1,此時為抹除。
圖1

隨著讀取、抹寫次數上升,電子多次穿越將造成漏電情況,也就是電子無法維持在Floating Gate,而導致數據錯誤。此類型情況也會隨著晶片製程提升(MLC->TLC),導致薄膜層越薄,使電子穿越所能承受的次數變的更少。另一方面,當SSD處於高溫下,也會影響電子的行為導致無法正確保存數據。針對上述情況,JEDEC固態技術協會已對一般客戶及企業訂出了溫度規範(圖2),可見溫度對於SSD資料存儲的影響不可小覷。

圖2

SSD高溫老化測試案例分析

由於車用乃至於工業用的SSD,特別注重資料保存能力以及可在高溫下維持功能與效能(如延遲時間(Latency))。百佳泰針對溫度是否會對SSD資料保存(Data Retention)造成影響,特別挑選四顆市面上常見M.2 NVMe SSD來進行高溫老化測試,利用長時間高溫加速老化,觀察這些SSD在接近壽命終點時的情況。

在進行測試實驗前,我們已將這些SSD維持相同的條件:已經使用過一段時間、並寫入了大量的資料(寫入資料內容依據JEDEC協會規範制定)。在確認SSD狀態以及SMART(Self-Monitoring Analysis and Reporting Technology)皆正常後,將SSD斷電放進烤箱,設置4種不同時間與溫度進行測試。當完成指定的長時間溫度測試後,再將SSD從烤箱取出,最終在測試儀器上執行SSD SMART檢查以及全碟讀取檢查。 (圖3)

圖3

Phase 0: 40°C/24HR

第一階段測試我們先用正常溫度40°C來檢視這4顆SSD狀態,作用於基準值並跟後續高溫測試進行比較。從圖4來看,經過40°C/24HR後,4顆SSD在執行全碟讀取檢查的執行時間相差不大;但SSD A所需的時間較其他三顆長一些。

另從全碟讀取檢查的指令回應時間統計百分比來看(圖5),SSD A的延遲時間在Rank B區間較其他三顆稍多了些。

圖4
圖5

(Rank A低於0.5mSec,代表延遲低,效能好;而當Rank高於10mSec,則代表延遲高,效能差。故Rank能集中在AB是相對好的)

Phase 1: 125°C/24HR

第二階段測試我們進入高溫狀態(125°C)並連續24小時烘烤SSD,來觀察125度高溫是否對SSD有影響。從圖6來看,經過125°C/24HR後,4顆SSD在執行全碟讀取檢查的執行時間都因為高溫而變長;而SSD A在這階段的測試裡所需的時間也相較於其他3顆明顯變得更長,從結果判斷得知SSD A會因高溫而影響效率。

從全碟讀取檢查的指令回應時間統計百分比來看,SSD A開始在Rank C/D出現些許延遲的現象;SSD B也表現出輕微的延遲,SSD C & D則未有明顯的影響。到目前為止4顆SSD尚未出現狀態錯誤(SMART error),或command error的情況發生。

圖6

Phase 2: 125°C/120HR

從Phase 1結果來看,4顆SSD的性能尚未分出勝負。這一階段,我們一樣維持125度,但將時間拉長5倍到120HR觀察。從圖7來看,經過125°C/120HR後,4顆SSD都因為長時間高溫讓執行全碟讀取檢查的執行時間拉長,尤以SSD A來看,所需的時間竟拉到了近5小時之高。

從全碟讀取檢查的指令回應時間統計百分比來看, SSD A因在長時間及高溫的狀態下,呈現高延遲現象;相較於Phase 1的Rank D數據,竟達12倍之多的差距(18.8%)。此外,SSD B也不遑多讓,延遲時間相對提升;而SSD D也在此時開始出現延遲的情況(Rank B)。

在這一階段測試環節中,SSD C全身而退,尚未出現任何影響。到目前為止4顆SSD也還未出現狀態錯誤(SMART error),及command error情況發生。

圖7

Final Phase: 150°C/168HR

從先前3個測項結果來看,4顆SSD尚未出現狀態錯誤(SMART error),但已有兩顆SSD出現明顯延遲,導致效能顯著下降。為了測試極端狀況並加速老化速度,在最後一項測試環節我們將溫度提升至150度,時間拉長7倍,總共168HR,從中觀察這4顆SSD在極端條件會出現什麼樣的情況。

從測試結果中(圖8)我們發現SSD A在烤完拿到儀器上開始執行全碟讀取檢查時就出現問題,除無法正常讀取外,SSD韌體回報也呈現狀態錯誤(SMART error)。而SSD C & SSD D則是在全碟讀取檢查撐了一段時間後才出現error無法完成讀取,隨後也出現SSD韌體回報狀態錯誤(SMART error)。在最終測試環節中,只有SSD B脫穎而出,能完成全碟讀取檢查;SSD A、C、D在全碟讀取檢查過程均發生command error情況,只有SSD B未出現狀態錯誤(SMART error)及無command error的情況產生。

圖8

測試總結

縱觀上述測試,我們可以發現隨著長時間與溫度的增加,部分SSD在執行全碟檢查時效率下降;其中3顆SSD也因時間不斷的拉長以及溫度的提升最終導致因資料保存出現問題而產生讀取錯誤的情況。從低延遲時間級距Rank A來看,隨著溫度與時間不斷增加,造成延遲時間的情況也隨之加深,並導致控制器糾錯時間增加,回應時間拉長。

值得一提的是,SSD B表現優異,除順利通過長時間高溫測試外,在全碟讀取檢查延遲時間也都保持在高水準之上,相對其他3顆SSD可靠不少。

圖9

結語

經過長時間高溫的嚴峻測試,大部分SSD已無法負荷而出現資料保存問題,然還是有SSD能通過嚴苛的測試環境。雖現今M.2 NVMe SSD會因體積及散熱等問題出現資料保存錯誤情況,但還是可以透過原料控制,以及控制器韌體調校技術,讓SSD能在嚴苛的條件中執行存取任務,完整保留資料,維持資料正確性。除了本次的測試案例外,百佳泰也可依照客戶需求,針對溫度/時間進行客製化、階梯化設置,為您的產品迅速找出極限點;並從所提供的詳細測試報告中協助您改善產品弱點,提升市場競爭力!