每一天,存儲(chǔ)業(yè)界銷售的SSD產(chǎn)品總量高達(dá)數(shù)百萬塊,而其給人留下的最大印象就是能夠顯著加快系統(tǒng)引導(dǎo)與應(yīng)用啟動(dòng)速度。不過其對于全天候不停轉(zhuǎn)的數(shù)據(jù)中心來說意味著什么?管理員們又需要留心SSD所帶來的哪些常見問題?
考慮到上述疑問,卡耐基-梅隆大學(xué)的Justin Meza及OnurNutlu與Facebook公司的Qiang Wu及Sanjeev Kumar共同開展了一項(xiàng)“閃存記憶體現(xiàn)場故障狀況大型研究”,旨在了解SSD在日常運(yùn)作中的實(shí)際表現(xiàn)。
基本方法
Facebook公司可算是SSD方案的早期擁護(hù)者了。他們多年以來一直是Fusion-io公司——PCIe SSD產(chǎn)品的先驅(qū)性開發(fā)廠商——的最大客戶,因此他們擁有著更為深層的SSD使用經(jīng)驗(yàn):每天數(shù)百萬塊驅(qū)動(dòng)器保證其具備充足的考察對象。
遺憾的是,這項(xiàng)研究并沒能針對多家供應(yīng)商分別實(shí)施。相反,此次調(diào)查只能根據(jù)部署時(shí)間對SSD加以考察,這意味著部署時(shí)間最長的SSD屬于第一代設(shè)備,而時(shí)間較短的則為第二代設(shè)備。
更重要的是,該研究團(tuán)隊(duì)對于故障作出了自己的定義,即由不可糾正的讀取錯(cuò)誤(簡稱URE)所導(dǎo)致的數(shù)據(jù)丟失。這類故障狀況并不意味著SSD設(shè)備已經(jīng)徹底損壞,但是那些曾經(jīng)出現(xiàn)過一次URE狀況的SSD往往很容易再次遭遇同樣的問題。
與個(gè)人用戶不同,F(xiàn)acebook公司更傾向于使用容量最大的企業(yè)級SSD產(chǎn)品:其最新一代方案容量可達(dá)3.2 TB。這些可絕不是那些常見于筆記本設(shè)備之上的每GB要價(jià)35美分的SATA固態(tài)硬盤。相反,它們屬于經(jīng)過極限配置的PCIe SSD,在設(shè)計(jì)思路方面專門考慮到了高負(fù)載循環(huán)的需要。
除此之外,由于SSD無需依靠控制器糾正內(nèi)部讀取錯(cuò)誤,因此本次研究當(dāng)中所發(fā)現(xiàn)的錯(cuò)誤只包含那些被報(bào)告至服務(wù)器的狀況。服務(wù)器有時(shí)候能夠重構(gòu)SSD控制器所無法處理的數(shù)據(jù),因此我們可以將其視為設(shè)備層級的報(bào)告、而非介質(zhì)層級。
研究結(jié)果
好消息是,某些人們所擔(dān)心的問題其實(shí)完全并沒那么夸張。壞消息是,我們忽略掉的問題往往時(shí)有出現(xiàn)。
溫度
SSD對于工作環(huán)境的溫度非常敏感——比普通磁盤驅(qū)動(dòng)器更加敏感。當(dāng)溫度過高時(shí),SSD的性能往往會(huì)有所縮水。因此,如果某些服務(wù)器莫名其妙地出現(xiàn)性能下滑,請各位管理員檢查溫度這一指標(biāo)。
第一代SSD產(chǎn)品往往會(huì)在溫度上升時(shí)發(fā)生故障率增加的情況,這可能是因?yàn)槠淙狈?yīng)的抑制機(jī)制所導(dǎo)致。部分第二代SSD則能夠在高溫環(huán)境下顯著降低故障發(fā)生機(jī)率——當(dāng)然,也有一部分第二代SSD的故障率與上代方案基本一致。
總線供電
SSD顯然是一只電老虎。PCIe v2 SSD的正常運(yùn)行功率一般在8瓦到14.5瓦之間,如此巨大的浮動(dòng)區(qū)間以及高額功耗可能遠(yuǎn)超大家的想象。研究團(tuán)隊(duì)發(fā)現(xiàn),當(dāng)功耗水平提升時(shí),SSD設(shè)備的故障率也會(huì)隨之增高。
寫入疲勞
該研究團(tuán)隊(duì)發(fā)現(xiàn),系統(tǒng)級別的寫入活動(dòng)與SSD故障緊密相關(guān),這很可能是因?yàn)殚W存寫入操作需要消耗大量電能。因此對于像日志系統(tǒng)這樣會(huì)帶來高強(qiáng)度寫入操作的應(yīng)用程序來說,普通磁盤可能會(huì)是更好的選擇。
SSD故障
SSD故障——也就是前面提到過的URE——相對比較常見:報(bào)告不可糾正錯(cuò)誤的SSD占比由4.2%到34.1%不等。事實(shí)上,上一周曾經(jīng)報(bào)告過錯(cuò)誤的SSD當(dāng)中,有99.8%會(huì)在下一周再次報(bào)告錯(cuò)誤。
生命周期與故障
SSD故障表現(xiàn)與磁盤驅(qū)動(dòng)器不同,后者的開箱故障率較高,但接下來幾年的可靠性則比較理想,并最終隨著時(shí)間的推移再度呈現(xiàn)出高故障率態(tài)勢。SSD的早期URE狀況往往是由于某些存儲(chǔ)單元被識(shí)別為存在故障,其余正常產(chǎn)品擁有良好可靠性,直到隨時(shí)間推移由于存儲(chǔ)單元損耗而導(dǎo)致故障機(jī)率增長。
數(shù)據(jù)布局
磁盤驅(qū)動(dòng)器的運(yùn)作效果并不會(huì)受到數(shù)據(jù)布局的顯著影響——除非其中涉及大量隨機(jī)搜索操作。不過SSD的情況則完全不同。
稀疏的邏輯數(shù)據(jù)布局——也就是非連續(xù)數(shù)據(jù)——會(huì)導(dǎo)致較高的SSD故障率,當(dāng)然數(shù)據(jù)密度過高亦會(huì)產(chǎn)生同樣的效果。
存儲(chǔ)空間占用
這部分內(nèi)容在此次研究團(tuán)隊(duì)的論文當(dāng)中占有重要比重。我們都知道SSD在空間占用方面與磁盤驅(qū)動(dòng)器存在明顯差異——也就是固態(tài)與機(jī)械間的區(qū)別——但具體差異如何卻不可預(yù)測。
PC SSD往往呈現(xiàn)出較高的錯(cuò)誤率,但用戶——包括我個(gè)人在內(nèi)——卻往往注意不到。而且一旦出現(xiàn)數(shù)據(jù)問題——就像我上周在MacBook Air的500 GB SSD當(dāng)中所遇到的——我們根本不知道問題為何產(chǎn)生。是SSD的毛?。縃FS+文件系統(tǒng)的問題?惡意軟件?還是宇宙射線的干擾?答案很難確定。
如果大家管理著配備有SSD的服務(wù)器,那么不妨從以上方面入手進(jìn)行一番探尋。此次聯(lián)合研究團(tuán)隊(duì)以循證醫(yī)學(xué)的角度對SSD特性作出了調(diào)查,并提供了獨(dú)一無二的SSD實(shí)證結(jié)論。
如果大家在使用SSD的過程中有所發(fā)現(xiàn)或者遇到了莫名其妙的狀況,也請?jiān)谠u論欄當(dāng)中分享您的經(jīng)歷與心得。
轉(zhuǎn)自:http://dc.idcquan.com/jhcc/72842.shtml