1,如何實(shí)現(xiàn)大數(shù)存儲2,java 怎樣存儲大數(shù)據(jù)3,大數(shù)據(jù)時代數(shù)據(jù)應(yīng)該如何存儲4,大數(shù)據(jù)存儲需要具備什么5,為什么mongodb適合大數(shù)據(jù)的存儲1,如何實(shí)現(xiàn)大數(shù)存儲
你的大數(shù)意義是不是一個很大的數(shù)字啊。要是的話就用字符串來存儲,然后當(dāng)你要運(yùn)算的時候就一個一個字符去進(jìn)行。數(shù)據(jù)庫分表,分庫。
用一定的算法,
把這些分散的數(shù)據(jù)在歸攏起來。多大
2,java 怎樣存儲大數(shù)據(jù)
bigdicimal: http://wenku.baidu.com/view/26299d4569eae009581bec22.html因?yàn)榛緮?shù)據(jù)類型都有固定的大小,只能儲存一定范圍的數(shù)據(jù)
所以,對于較大的數(shù)據(jù),只能通過數(shù)據(jù)類的方式實(shí)現(xiàn):
java.math.bigdecimal
java.math.biginteger由于8字節(jié) 64位 1符號 11科學(xué)記數(shù)位數(shù)還有52位數(shù)儲存數(shù)字能精確16-17位 最好寫個加法方法 可用字符串從后往前加先判斷誰位數(shù)多 每位加10進(jìn)一返回字符串 這樣就精確了
3,大數(shù)據(jù)時代數(shù)據(jù)應(yīng)該如何存儲
pb或多pb級基礎(chǔ)設(shè)施與傳統(tǒng)大規(guī)模數(shù)據(jù)集之間的差別簡直就像白天和黑夜的差別,就像在筆記本電腦上處理數(shù)據(jù)和在raid陣列上處理數(shù)據(jù)之間的差別。當(dāng)day在2009年加入shutterfly時,存儲已經(jīng)成為該公司最大的開支,并且以飛快的速度增長。每n個pb的額外存儲意味著我們需要另一個存儲管理員來支持物理和邏輯基礎(chǔ)設(shè)施,day表示,面對大規(guī)模數(shù)據(jù)存儲,系統(tǒng)會更頻繁地出問題,任何管理超大存儲的人經(jīng)常都要處理硬件故障。大家都在試圖解決的根本問題是:當(dāng)你知道存儲的一部分將在一段時間內(nèi)出現(xiàn)問題,你應(yīng)該如何確保數(shù)據(jù)可用性,同時確保不會降低性能?raid問題解決故障的標(biāo)準(zhǔn)答案是復(fù)制,通常以raid陣列的形式。但day表示,面對龐大規(guī)模的數(shù)據(jù)時,raid解決問題的同時可能會制造更多問題。在傳統(tǒng)raid數(shù)據(jù)存儲方案中,每個數(shù)據(jù)的副本都被鏡像和存儲在陣列的不同磁盤中,以確保完整性和可用性。但這意味著每個被鏡像和存儲的數(shù)據(jù)將需要其本身五倍以上的存儲空間。隨著raid陣列中使用的磁盤越來越大(從密度和功耗的角度來看,3tb磁盤非常具有吸引力),更換故障驅(qū)動器的時間也將變得越來越長。實(shí)際上,我們使用raid并不存在任何操作問題,day表示,我們看到的是,隨著磁盤變得越來越大,當(dāng)任何組件發(fā)生故障時,我們回到一個完全冗余的系統(tǒng)的時間增加。生成校驗(yàn)是與數(shù)據(jù)集的大小成正比的。當(dāng)我們開始使用1tb和2tb的磁盤時,回到完全冗余系統(tǒng)的時間變得很長??梢哉f,這種趨勢并沒有朝著正確的方向發(fā)展。對于shutterfly而言,可靠性和可用性是非常關(guān)鍵的因素,這也是企業(yè)級存儲的要求。day表示,其快速膨脹的存儲成本使商品系統(tǒng)變得更具吸引力。當(dāng)day及其團(tuán)隊在研究潛在技術(shù)解決方案以幫助控制存儲成本時,他們對于一項叫做糾刪碼(erasure code)的技術(shù)非常感興趣。采用擦除代碼技術(shù)的下一代存儲里德-所羅門糾刪碼最初作為前向糾錯碼(forward error correction, fec)用于不可靠通道的數(shù)據(jù)傳輸,例如外層空間探測的數(shù)據(jù)傳輸。這項技術(shù)還被用于cd和dvd來處理光盤上的故障,例如灰塵和劃痕。一些存儲供應(yīng)商已經(jīng)開始將糾刪碼納入他們的解決方案中。使用糾刪碼,數(shù)據(jù)可以被分解成幾塊,單塊分解數(shù)據(jù)是無用的,然后它們被分散到不同磁盤驅(qū)動器或者服務(wù)器。在任何使用,這些數(shù)據(jù)都可以完全重組,即使有些數(shù)據(jù)塊因?yàn)榇疟P故障已經(jīng)丟失。換句話說,你不需要創(chuàng)建多個數(shù)據(jù)副本,單個數(shù)據(jù)就可以確保數(shù)據(jù)的完整性和可用性?;诩m刪碼的解決方案的早期供應(yīng)商之一是cleversafe公司,他們添加了位置信息來創(chuàng)建其所謂的分散編碼,讓用戶可以在不同位置(例如多個數(shù)據(jù)中心)存儲數(shù)據(jù)塊或者說數(shù)據(jù)片。每個數(shù)據(jù)塊就其自身而言是無用的,這樣能夠確保隱私性和安全性。因?yàn)樾畔⒎稚⒓夹g(shù)使用單一數(shù)據(jù)來確保數(shù)據(jù)完整性和可用性,而不是像raid一樣使用多個副本,公司可以節(jié)省多達(dá)90%的存儲成本。當(dāng)你將試圖重組數(shù)據(jù)時,你并不一定需要提供所有數(shù)據(jù)塊,cleversafe公司產(chǎn)品策略、市場營銷和客戶解決方案副總裁russ kennedy表示,你生成的數(shù)據(jù)塊的數(shù)量,我們稱之為寬度,我們將重組數(shù)據(jù)需要的最低數(shù)量稱之為門檻。你生成的數(shù)據(jù)塊的數(shù)量和重組需要的數(shù)量之間的差異決定了其可靠性。同時,即使你丟失節(jié)點(diǎn)和驅(qū)動器,你仍然能夠得到原來形式的數(shù)據(jù)。
4,大數(shù)據(jù)存儲需要具備什么
大數(shù)據(jù)存儲作為一個數(shù)據(jù)平臺,其并不僅僅是一個用于數(shù)據(jù)存儲的設(shè)備,其需要能夠提供符合成本效益的規(guī)模和能力,消除數(shù)據(jù)遷移,沒有存儲孤島,提供全局可訪問的數(shù)據(jù)保護(hù)和保持?jǐn)?shù)據(jù)的可用性。1.提供符合成本效益的規(guī)模和能力,不僅需要購買行業(yè)標(biāo)準(zhǔn)的服務(wù)器和存儲產(chǎn)品,同時還要保證產(chǎn)品的擴(kuò)展能力和性能。而且隨著硬件的推移,能夠根據(jù)需要進(jìn)行擴(kuò)展,存儲系統(tǒng)需要能夠持續(xù)保證企業(yè)的需求,通過增加存儲系統(tǒng)來維持?jǐn)?shù)據(jù)增長的性能需求。2.消除數(shù)據(jù)遷移,大數(shù)據(jù)平臺必須滿足數(shù)據(jù)增長而不會受到系統(tǒng)約束的能力。3.拒絕存儲孤島,為了能夠充分利用大數(shù)據(jù)的機(jī)會,企業(yè)必須能夠訪問所有的數(shù)據(jù),要實(shí)現(xiàn)這一點(diǎn),新的存儲平臺必須能夠滿足這個要求,消除那些傳統(tǒng)的存儲孤島,而不是簡單的添加另一個存儲解決方案。4.提供全局管理方式,一個集中的數(shù)據(jù)管理方式在大數(shù)據(jù)增長迅速的年代已經(jīng)是不可行的了,一個單點(diǎn)故障的成本會很高,一個大數(shù)據(jù)存儲平臺必須能夠管理分布在全球企業(yè)中的數(shù)據(jù)。5.保護(hù)和維護(hù)數(shù)據(jù)的可用性,數(shù)據(jù)價值越來越重要,為了防止企業(yè)級的產(chǎn)品硬件發(fā)生故障,存儲平臺必須通過智能軟件來保持?jǐn)?shù)據(jù)的可用性和完整性。大數(shù)據(jù)之大大是相對而言的概念。例如,對于像saphana那樣的內(nèi)存數(shù)據(jù)庫來說,2tb可能就已經(jīng)是大容量了;而對于像谷歌這樣的搜索引擎,eb的數(shù)據(jù)量才能稱得上是大數(shù)據(jù)。大也是一個迅速變化的概念。hds在2004年發(fā)布的usp存儲虛擬化平臺具備管理32pb大數(shù)據(jù)存儲需要具備什么?大數(shù)據(jù)之大大是相對而言的概念。例如,對于像saphana那樣的內(nèi)存數(shù)據(jù)庫來說,2tb可能就已經(jīng)是大容量了;而對于像谷歌這樣的搜索引擎,eb的數(shù)據(jù)量才能稱得上是大數(shù)據(jù)。大也是一個迅速變化的概念。hds在2004年發(fā)布的usp存儲虛擬化平臺具備管理32pb內(nèi)外部附加存儲的能力。當(dāng)時,大多數(shù)人認(rèn)為,usp的存儲容量大得有些離譜。但是現(xiàn)在,大多數(shù)企業(yè)都已經(jīng)擁有pb級的數(shù)據(jù)量,一些搜索引擎公司的數(shù)據(jù)存儲量甚至達(dá)到了eb級。由于許多家庭都保存了tb級的數(shù)據(jù)量,一些云計算公司正在推廣其文件共享或家庭數(shù)據(jù)備份服務(wù)。有容乃大由此看來,大數(shù)據(jù)存儲的首要需求存儲容量可擴(kuò)展。大數(shù)據(jù)對存儲容量的需求已經(jīng)超出目前用戶現(xiàn)有的存儲能力。我們現(xiàn)在正處于pb級時代,而eb級時代即將到來。過去,許多企業(yè)通常以五年作為it系統(tǒng)規(guī)劃的一個周期。在這五年中,企業(yè)的存儲容量可能會增加一倍。現(xiàn)在,企業(yè)則需要制定存儲數(shù)據(jù)量級(比如從pb級到eb級)的增長計劃,只有這樣才能確保業(yè)務(wù)不受干擾地持續(xù)增長。這就要求實(shí)現(xiàn)存儲虛擬化。存儲虛擬化是目前為止提高存儲效率最重要、最有效的技術(shù)手段。它為現(xiàn)有存儲系統(tǒng)提供了自動分層和精簡配置等提高存儲效率的工具。擁有了虛擬化存儲,用戶可以將來自內(nèi)部和外部存儲系統(tǒng)中的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)全部整合到一個單一的存儲平臺上。當(dāng)所有存儲資產(chǎn)變成一個單一的存儲資源池時,自動分層和精簡配置功能就可以擴(kuò)展到整個存儲基礎(chǔ)設(shè)施層面。在這種情況下,用戶可以輕松實(shí)現(xiàn)容量回收和容量利用率的最大化,并延長現(xiàn)有存儲系統(tǒng)的壽命,顯著提高it系統(tǒng)的靈活性和效率,以滿足非結(jié)構(gòu)化數(shù)據(jù)增長的需求。中型企業(yè)可以在不影響性能的情況下將hus的容量擴(kuò)展到近3pb,并可通過動態(tài)虛擬控制器實(shí)現(xiàn)系統(tǒng)的快速預(yù)配置。此外,通過hdsvsp的虛擬化功能,大型企業(yè)可以創(chuàng)建0.25eb容量的存儲池。隨著非結(jié)構(gòu)化數(shù)據(jù)的快速增長,未來,文件與內(nèi)容數(shù)據(jù)又該如何進(jìn)行擴(kuò)展呢?不斷生長的大數(shù)據(jù)與結(jié)構(gòu)化數(shù)據(jù)不同,很多非結(jié)構(gòu)化數(shù)據(jù)需要通過互聯(lián)網(wǎng)協(xié)議來訪問,并且存儲在文件或內(nèi)容平臺之中。大多數(shù)文件與內(nèi)容平臺的存儲容量過去只能達(dá)到tb級,現(xiàn)在則需要擴(kuò)展到pb級,而未來將擴(kuò)展到eb級。這些非結(jié)構(gòu)化的數(shù)據(jù)必須以文件或?qū)ο蟮男问絹碓L問?;趗nix和linux的傳統(tǒng)文件系統(tǒng)通常將文件、目錄或與其他文件系統(tǒng)對象有關(guān)的信息存儲在一個索引節(jié)點(diǎn)中。索引節(jié)點(diǎn)不是數(shù)據(jù)本身,而是描述數(shù)據(jù)所有權(quán)、訪問模式、文件大小、時間戳、文件指針和文件類型等信息的元數(shù)據(jù)。傳統(tǒng)文件系統(tǒng)中的索引節(jié)點(diǎn)數(shù)量有限,導(dǎo)致文件系統(tǒng)可以容納的文件、目錄或?qū)ο蟮臄?shù)量受到限制。hnas和hcp使用基于對象的文件系統(tǒng),使得其容量能夠擴(kuò)展到pb級,可以容納數(shù)十億個文件或?qū)ο?。位于vsp或hus之上的hnas和hcp網(wǎng)關(guān)不僅可以充分利用模塊存儲的可擴(kuò)展性,而且可以享受到通用管理平臺hitachicommandsuite帶來的好處。hnas和hcp為大數(shù)據(jù)的存儲提供了一個優(yōu)良的架構(gòu)。大數(shù)據(jù)存儲平臺必須能夠不受干擾地持續(xù)擴(kuò)展,并具有跨越不同時代技術(shù)的能力。數(shù)據(jù)遷移必須在最小范圍內(nèi)進(jìn)行,而且要在后臺完成。大數(shù)據(jù)只要復(fù)制一次,就能具有很好的可恢復(fù)性。大數(shù)據(jù)存儲平臺可以通過版本控制來跟蹤數(shù)據(jù)的變更,而不會因?yàn)榇髷?shù)據(jù)發(fā)生一次變更,就重新備份一次所有的數(shù)據(jù)。hds的所有產(chǎn)品均可以實(shí)現(xiàn)后臺的數(shù)據(jù)移動和分層,并可以增加vsp、hus數(shù)據(jù)池、hnas文件系統(tǒng)、hcp的容量,還能自動調(diào)整數(shù)據(jù)的布局。傳統(tǒng)文件系統(tǒng)與塊數(shù)據(jù)存儲設(shè)備不支持動態(tài)擴(kuò)展。大數(shù)據(jù)存儲平臺還必須具有彈性,不允許出現(xiàn)任何可能需要重建大數(shù)據(jù)的單點(diǎn)故障。hds可以實(shí)現(xiàn)vsp和hus的冗余