數(shù)據(jù)裂變:數(shù)據(jù)以生物形式快速增長

字號(hào):

和數(shù)據(jù)中心相關(guān)的諸多問題都是由數(shù)據(jù)快速增長而衍生的。數(shù)據(jù)的不斷增長,在看似平靜的表層下,孕育著巨大的力量,凡是阻擋數(shù)據(jù)增長進(jìn)程的都會(huì)被摧毀。不可遏止的增長數(shù)據(jù),超出了你的文件系統(tǒng)、磁盤、系統(tǒng)、網(wǎng)絡(luò)、保護(hù)計(jì)劃,甚至你的生活所能承受的。我們只有無休止的擴(kuò)容,奔命于數(shù)據(jù)增長可能帶來的下一個(gè)問題。
    找出問題的癥結(jié)而不是追蹤問題的表象,是我們必須要做的。數(shù)據(jù)增長是自然產(chǎn)生的(世界上新數(shù)據(jù)一直在不斷生成),但大部分?jǐn)?shù)據(jù)是由科學(xué)研究產(chǎn)生的。如數(shù)據(jù)擴(kuò)展、副本、副本的副本、備份副本的副本、備份副本的副本的副本等等,這些不只是容量問題,而是和科學(xué)一樣復(fù)雜的問題。
    生物學(xué)中有一個(gè)被稱為裂變的過程。裂變指一個(gè)細(xì)胞分裂,形成兩個(gè)相同的細(xì)胞。若在合適的環(huán)境下任其發(fā)展,這些細(xì)胞將再次分裂,形成四個(gè)相同的細(xì)胞,以此類推。很快,整張桌子將擺不下快速繁衍的細(xì)胞。如果科學(xué)家采用IT人士的做法,他會(huì)在細(xì)胞過多前,將培養(yǎng)皿中的所有細(xì)胞倒進(jìn)一個(gè)更大的容器中讓它們繼續(xù)快速繁衍。之后,不斷重復(fù)這樣的操作。
    通常,生物科學(xué)家們選擇精確數(shù)量的單細(xì)胞副本,用來進(jìn)行不同的測試或?qū)嶒?yàn)。IT也應(yīng)該考慮這種做法—我們也需要一定的數(shù)據(jù)副本來測試不同應(yīng)用程序的運(yùn)行??茖W(xué)家利用副本進(jìn)行多種實(shí)驗(yàn)來觀察會(huì)發(fā)生什么,而IT部門則利用副本進(jìn)行測試、填充數(shù)據(jù)庫、創(chuàng)建備份副本和災(zāi)難恢復(fù)副本、發(fā)送副本給其他用戶等等。本質(zhì)區(qū)別在于,科學(xué)家們預(yù)先就知道他們需要多少副本,因此,他們是有規(guī)劃的。而且實(shí)驗(yàn)完成后,他們可扔掉副本,不用任其一直復(fù)制下去。而IT行業(yè)中,我們很少清空培養(yǎng)皿,相反,我們不斷創(chuàng)建新的副本。IT進(jìn)程很少有科學(xué)實(shí)驗(yàn)室里的那種預(yù)先規(guī)劃,這種由于副本保留導(dǎo)致的數(shù)據(jù)增長,造成很多數(shù)據(jù)是毫無用處的,我們絕大部分的問題都是由此而造成。而我們解決此問題,就只是從供應(yīng)商手中購買新一代更大的培養(yǎng)皿來應(yīng)對(duì)。
    Data Domain的經(jīng)驗(yàn)證明,在備份進(jìn)程中清除重復(fù)數(shù)據(jù)是一件大好事?,F(xiàn)在我們能聽到一千個(gè)有關(guān)“重復(fù)數(shù)據(jù)刪除”的故事,但一個(gè)不可否認(rèn)的事實(shí)就是,清除不再有用的重復(fù)數(shù)據(jù)是有益的,而無端保留這些重復(fù)無用的數(shù)據(jù)是罪魁禍?zhǔn)住?BR>    如果說在數(shù)據(jù)生命周期結(jié)束時(shí)清除重復(fù)數(shù)據(jù)是件好事—那么越早清除越好,這是一個(gè)前沿領(lǐng)域。在這些毫無價(jià)值的重復(fù)數(shù)據(jù)有機(jī)會(huì)造成問題之前就盡快將其清除,從而避免與生物學(xué)復(fù)制類似的繁衍問題。數(shù)據(jù)清除、壓縮技術(shù)、重復(fù)數(shù)據(jù)刪除、消除或壓縮復(fù)制數(shù)據(jù),這些相近的概念都是可行的,從邏輯上,都為數(shù)據(jù)處理的下游創(chuàng)造出巨大利益。
    如何能使上面的理論實(shí)現(xiàn)呢?目前有兩種可行的方式:第一,根據(jù)進(jìn)程和戰(zhàn)略需求確定所需副本數(shù)量、保存時(shí)間,以及如何處理副本的計(jì)劃。第二,在這些副本不可控之前,采用技術(shù)清除副本,就像清除一些IT中的蟑螂,若最終蟑螂勝出,你就只能被踢出局。
    如果備份目標(biāo)市場中的重復(fù)數(shù)據(jù)刪除創(chuàng)造的價(jià)值遠(yuǎn)遠(yuǎn)超過20億美元(且在持續(xù)增長),那么想象一下該功能更貼近數(shù)據(jù)創(chuàng)建點(diǎn)(我們產(chǎn)生的所有不同數(shù)據(jù)類型的創(chuàng)建點(diǎn))的話,又會(huì)產(chǎn)生什么價(jià)值。我們會(huì)是綠色的(沒有什么比這更綠色)、資源充足的(我們暫時(shí)無需購買任何新系統(tǒng))、穩(wěn)妥的(管理負(fù)擔(dān)更少等于更少問題),而且可能實(shí)際上只花8分鐘即可完成所有工作,并且有時(shí)間去思考如何為企業(yè)增加戰(zhàn)略價(jià)值,這與整天在一個(gè)充滿有害物質(zhì)的房間里忙著傾倒培養(yǎng)皿形成了鮮明對(duì)比。
    那么,我們何時(shí)開始將這項(xiàng)具有奇跡功能的技術(shù)運(yùn)用到“食物鏈”中呢?如果它適用于備份,那應(yīng)該也適用于主存儲(chǔ)。但是主存儲(chǔ)中創(chuàng)建的數(shù)據(jù)類型不同,如記錄、文件、對(duì)象、塊等數(shù)據(jù)。存儲(chǔ)在主存儲(chǔ)的數(shù)據(jù)經(jīng)過了不同階段:何時(shí)?在哪里實(shí)施刪除技術(shù)?這是一個(gè)需要每個(gè)人都考慮和決定的。
    1. 所有數(shù)據(jù)都是動(dòng)態(tài)或交易處理過程產(chǎn)生的—Word、PowerPoint、交易數(shù)據(jù)、 法律文本、視頻和MP3等等,所有數(shù)據(jù)在一段時(shí)間內(nèi)都是動(dòng)態(tài)的。動(dòng)態(tài)數(shù)據(jù)很重要,應(yīng)該受到級(jí)別的保護(hù),此階段,如果數(shù)據(jù)丟失會(huì)造成很大影響。這是我們通常做第一個(gè)數(shù)據(jù)副本的地方,我們很可能在這里做鏡像。
    2. 根據(jù)通用數(shù)據(jù)生命周期,某段時(shí)間后所有數(shù)據(jù)將成為“固定的”或“持久的”。數(shù)據(jù)不是同時(shí)進(jìn)入固定狀態(tài),但最終都會(huì)發(fā)生。UDS的第二階段就是我們稱為的“持續(xù)活動(dòng)數(shù)據(jù)”,也就是不再變化的數(shù)據(jù),而數(shù)據(jù)仍然是非?;钴S的。這并不是說,對(duì)該數(shù)據(jù)的訪問就變得不重要了。通常在這個(gè)階段數(shù)據(jù)訪問會(huì)顯得更為重要,我們往往在這里建立最重要的數(shù)據(jù)副本。通常,我們?yōu)榱藶?zāi)難恢復(fù)而復(fù)制數(shù)據(jù);建立備份副本和快照;復(fù)制數(shù)據(jù)以測試/開發(fā)系統(tǒng);用電子郵件將副本發(fā)送給我們的供應(yīng)商、合作伙伴。之后,我們備份副本的副本并創(chuàng)建更多副本。我不是說我們不該建立副本,我們需要多次創(chuàng)建這些副本。只要不同的系統(tǒng)/應(yīng)用程序需要,我們就要提供副本。我們可能不需持續(xù)支持那么多副本。
    3. 生命周期的第三階段就是數(shù)據(jù)進(jìn)入“持久非活動(dòng)”狀態(tài)。也就是不變動(dòng)、極少訪問的數(shù)據(jù)。90 %的商業(yè)數(shù)據(jù)則處在此生命周期。因此,從過程和技術(shù)方面來講,90 %的資本節(jié)約和運(yùn)營效率的提高也正在這個(gè)階段發(fā)生。既然這些數(shù)據(jù)永不改變,而且你已經(jīng)備份了其副本的副本,為什么有人還備份這些數(shù)據(jù)?在這個(gè)階段,你應(yīng)該考慮與前一個(gè)階段截然不同的方式來處理這些數(shù)據(jù)。這些數(shù)據(jù)應(yīng)該存儲(chǔ)在一個(gè)非常廉價(jià)、一次寫入極少讀取甚至不讀取的、非常節(jié)能的系統(tǒng)中,一個(gè)普通員工就能負(fù)責(zé)所有管理。這也是我們想大規(guī)??s減數(shù)據(jù)副本的階段。這仍然可以在“主”存儲(chǔ),但是,通過應(yīng)用重復(fù)數(shù)據(jù)刪除技術(shù),可能會(huì)節(jié)省50%或更多的總?cè)萘俊浞莩WR(shí)/災(zāi)難恢復(fù)策略相結(jié)合,太棒了—你可能會(huì)有一兩個(gè)輕松的周末。沒有比這更節(jié)能環(huán)保的了!
    4. 第四階段就是恢復(fù)階段。通常需要異地深層歸檔或“以備世界末日的到來”。好在如果你必須要做異地備份,你無需對(duì)9756份同樣的固定數(shù)據(jù)的副本進(jìn)行恢復(fù),是嗎?3或4個(gè)副本對(duì)我來說似乎就足夠了。
    因此,下一步要弄清楚如何使重復(fù)數(shù)據(jù)刪除的起始點(diǎn)更貼近數(shù)據(jù)創(chuàng)建點(diǎn),其的價(jià)值點(diǎn)也在數(shù)據(jù)生命周期的第3階段。我們還必須認(rèn)識(shí)到,壓縮備份數(shù)據(jù)(順便說下,這是明智之舉)意味著重復(fù)刪除文件,但主容量中我們不僅僅有文件。我們需要重復(fù)刪除數(shù)據(jù)塊、記錄和對(duì)象等等。在備份中完成所有這些是很了不起的,因?yàn)槲覀兛梢詫⑺袛?shù)據(jù)類型合并到文件中處理,但當(dāng)我們趨向上游來處理數(shù)據(jù)時(shí),這表示我們做出了更明智的舉措。例如,只有很少部分人考慮數(shù)據(jù)庫壓縮??紤]投入一大筆錢來挖掘資金潛力—在最昂貴、最復(fù)雜和最透明的交易系統(tǒng)上進(jìn)行數(shù)據(jù)壓縮,其投資回報(bào)率將是巨大的。備份當(dāng)然是一個(gè)難題,但如果重復(fù)數(shù)據(jù)刪除已在備份過程中創(chuàng)造了數(shù)十億美元的價(jià)值,想象如果在交易世界中那又會(huì)如何。視頻和多媒體方面的可挖掘的價(jià)值也很大,因?yàn)樗鼉H消耗容量?;趦?nèi)容的對(duì)象本來就很復(fù)制,這一塊除了法規(guī)遵從之外,還不會(huì)被視為價(jià)值的主流。