1,大數(shù)據(jù)中高效運(yùn)算和低耗能存儲(chǔ)依賴(lài)以下哪些技術(shù)2,怎樣存儲(chǔ)大數(shù)據(jù)3,hadoop是怎么存儲(chǔ)大數(shù)據(jù)的4,大數(shù)據(jù)時(shí)代數(shù)據(jù)應(yīng)該如何存儲(chǔ)5,大數(shù)據(jù)存儲(chǔ)需要具備什么1,大數(shù)據(jù)中高效運(yùn)算和低耗能存儲(chǔ)依賴(lài)以下哪些技術(shù)
主要由以下三點(diǎn)作用:第一,對(duì)大數(shù)據(jù)的處理分析正成為新一代信息技術(shù)融合應(yīng)用的結(jié)點(diǎn)。移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、社交網(wǎng)絡(luò)、數(shù)字家庭、電子商務(wù)等是新一代信息技術(shù)的應(yīng)用形態(tài),這些應(yīng)用不斷產(chǎn)生大數(shù)據(jù)。云計(jì)算為這些海量、多樣化的大數(shù)據(jù)提供存儲(chǔ)和運(yùn)算平臺(tái)。通過(guò)對(duì)不同來(lái)源數(shù)據(jù)的管理、處理、分析與優(yōu)化,將結(jié)果反饋到上述應(yīng)用中,將創(chuàng)造出巨大的經(jīng)濟(jì)和社會(huì)價(jià)值。第二,大數(shù)據(jù)是信息產(chǎn)業(yè)持續(xù)高速增長(zhǎng)的新引擎。面向大數(shù)據(jù)市場(chǎng)的新技術(shù)、新產(chǎn)品、新服務(wù)、新業(yè)態(tài)會(huì)不斷涌現(xiàn)。在硬件與集成設(shè)備領(lǐng)域,大數(shù)據(jù)將對(duì)芯片、存儲(chǔ)產(chǎn)業(yè)產(chǎn)生重要影響,還將催生一體化數(shù)據(jù)存儲(chǔ)處理服務(wù)器、內(nèi)存計(jì)算等市場(chǎng)。在軟件與服務(wù)領(lǐng)域,大數(shù)據(jù)將引發(fā)數(shù)據(jù)快速處理分析、數(shù)據(jù)挖掘技術(shù)和軟件產(chǎn)品的發(fā)展。第三,大數(shù)據(jù)利用將成為提高核心競(jìng)爭(zhēng)力的關(guān)鍵因素。各行各業(yè)的決策正在從“業(yè)務(wù)驅(qū)動(dòng)” 轉(zhuǎn)變“數(shù)據(jù)驅(qū)動(dòng)”。-
2,怎樣存儲(chǔ)大數(shù)據(jù)
用一塊2tb硬盤(pán)存儲(chǔ)大量文件、數(shù)據(jù)??梢杂袃煞N方式,一種是分表,另一種是分區(qū) 首先是分表,就像你自己所說(shuō)的,可以按月分表,可以按用戶(hù)id分表等等,至于采用哪種方式分表,要看你的業(yè)務(wù)邏輯了,分表不好的地方就是查詢(xún)有時(shí)候需要跨多個(gè)表。 然后是分區(qū),分區(qū)可以將表分離在若干不同的表空間上,用分而治之的方法來(lái)支撐無(wú)限膨脹的大表,給大表在物理一級(jí)的可管理性。將大表分割成較小的分區(qū)可以改善表的維護(hù)、備份、恢復(fù)、事務(wù)及查詢(xún)性能。分區(qū)的好處是分區(qū)的優(yōu)點(diǎn): 1 增強(qiáng)可用性:如果表的一個(gè)分區(qū)由于系統(tǒng)故障而不能使用,表的其余好的分區(qū)仍然可以使用; 2 減少關(guān)閉時(shí)間:如果系統(tǒng)故障只影響表的一部分分區(qū),那么只有這部分分區(qū)需要修復(fù),故能比整個(gè)大表修復(fù)花的時(shí)間更少; 3 維護(hù)輕松:如果需要重建表,獨(dú)立管理每個(gè)分區(qū)比管理單個(gè)大表要輕松得多; 4 均衡i/o:可以把表的不同分區(qū)分配到不同的磁盤(pán)來(lái)平衡i/o改善性能; 5 改善性能:對(duì)大表的查詢(xún)、增加、修改等操作可以分解到表的不同分區(qū)來(lái)并行執(zhí)行,可使運(yùn)行速度更快; 6 分區(qū)對(duì)用戶(hù)透明,最終用戶(hù)感覺(jué)不到分區(qū)的存在。
3,hadoop是怎么存儲(chǔ)大數(shù)據(jù)的
hadoop本身是分布式框架,如果在hadoop框架下,需要配合hbase,hive等工具來(lái)進(jìn)行大數(shù)據(jù)計(jì)算。如果具體深入還要了解hdfs,map/reduce,任務(wù)機(jī)制等等。如果要分析還要考慮其他分析展現(xiàn)工具。大數(shù)據(jù)還有分析才有價(jià)值用于分析大數(shù)據(jù)的工具主要有開(kāi)源與商用兩個(gè)生態(tài)圈。開(kāi)源大數(shù)據(jù)生態(tài)圈:1、hadoop hdfs、hadoopmapreduce, hbase、hive 漸次誕生,早期hadoop生態(tài)圈逐步形成。2、. hypertable是另類(lèi)。它存在于hadoop生態(tài)圈之外,但也曾經(jīng)有一些用戶(hù)。3、nosql,membase、mongodb商用大數(shù)據(jù)生態(tài)圈:1、一體機(jī)數(shù)據(jù)庫(kù)/數(shù)據(jù)倉(cāng)庫(kù):ibm puredata(netezza), oracleexadata, sap hana等等。2、數(shù)據(jù)倉(cāng)庫(kù):teradataasterdata, emc greenplum, hpvertica 等等。3、數(shù)據(jù)集市:qlikview、 tableau 、 以及國(guó)內(nèi)的yonghong data mart 。存放到hdfs 一般都是要分析的數(shù)據(jù)。分析完成的數(shù)據(jù)直接存儲(chǔ)到mysql 或者oracle 中。這種處理方式是離線(xiàn)處理。如日志文件存儲(chǔ)到hdfs 分析出網(wǎng)站的流量 uv pv 等等。一般都是用pig hive 和mr 等進(jìn)行分析的。 存放到hbase 一般都是數(shù)據(jù)拿過(guò)來(lái)直接用的。而且他是實(shí)時(shí)的。也就是說(shuō)數(shù)據(jù)就是成型的而且不需要進(jìn)行分析就能得到結(jié)果的數(shù)據(jù)。 大致就是這么個(gè)意思。有點(diǎn)啰嗦了。
4,大數(shù)據(jù)時(shí)代數(shù)據(jù)應(yīng)該如何存儲(chǔ)
pb或多pb級(jí)基礎(chǔ)設(shè)施與傳統(tǒng)大規(guī)模數(shù)據(jù)集之間的差別簡(jiǎn)直就像白天和黑夜的差別,就像在筆記本電腦上處理數(shù)據(jù)和在raid陣列上處理數(shù)據(jù)之間的差別。當(dāng)day在2009年加入shutterfly時(shí),存儲(chǔ)已經(jīng)成為該公司最大的開(kāi)支,并且以飛快的速度增長(zhǎng)。每n個(gè)pb的額外存儲(chǔ)意味著我們需要另一個(gè)存儲(chǔ)管理員來(lái)支持物理和邏輯基礎(chǔ)設(shè)施,day表示,面對(duì)大規(guī)模數(shù)據(jù)存儲(chǔ),系統(tǒng)會(huì)更頻繁地出問(wèn)題,任何管理超大存儲(chǔ)的人經(jīng)常都要處理硬件故障。大家都在試圖解決的根本問(wèn)題是:當(dāng)你知道存儲(chǔ)的一部分將在一段時(shí)間內(nèi)出現(xiàn)問(wèn)題,你應(yīng)該如何確保數(shù)據(jù)可用性,同時(shí)確保不會(huì)降低性能?raid問(wèn)題解決故障的標(biāo)準(zhǔn)答案是復(fù)制,通常以raid陣列的形式。但day表示,面對(duì)龐大規(guī)模的數(shù)據(jù)時(shí),raid解決問(wèn)題的同時(shí)可能會(huì)制造更多問(wèn)題。在傳統(tǒng)raid數(shù)據(jù)存儲(chǔ)方案中,每個(gè)數(shù)據(jù)的副本都被鏡像和存儲(chǔ)在陣列的不同磁盤(pán)中,以確保完整性和可用性。但這意味著每個(gè)被鏡像和存儲(chǔ)的數(shù)據(jù)將需要其本身五倍以上的存儲(chǔ)空間。隨著raid陣列中使用的磁盤(pán)越來(lái)越大(從密度和功耗的角度來(lái)看,3tb磁盤(pán)非常具有吸引力),更換故障驅(qū)動(dòng)器的時(shí)間也將變得越來(lái)越長(zhǎng)。實(shí)際上,我們使用raid并不存在任何操作問(wèn)題,day表示,我們看到的是,隨著磁盤(pán)變得越來(lái)越大,當(dāng)任何組件發(fā)生故障時(shí),我們回到一個(gè)完全冗余的系統(tǒng)的時(shí)間增加。生成校驗(yàn)是與數(shù)據(jù)集的大小成正比的。當(dāng)我們開(kāi)始使用1tb和2tb的磁盤(pán)時(shí),回到完全冗余系統(tǒng)的時(shí)間變得很長(zhǎng)??梢哉f(shuō),這種趨勢(shì)并沒(méi)有朝著正確的方向發(fā)展。對(duì)于shutterfly而言,可靠性和可用性是非常關(guān)鍵的因素,這也是企業(yè)級(jí)存儲(chǔ)的要求。day表示,其快速膨脹的存儲(chǔ)成本使商品系統(tǒng)變得更具吸引力。當(dāng)day及其團(tuán)隊(duì)在研究潛在技術(shù)解決方案以幫助控制存儲(chǔ)成本時(shí),他們對(duì)于一項(xiàng)叫做糾刪碼(erasure code)的技術(shù)非常感興趣。采用擦除代碼技術(shù)的下一代存儲(chǔ)里德-所羅門(mén)糾刪碼最初作為前向糾錯(cuò)碼(forward error correction, fec)用于不可靠通道的數(shù)據(jù)傳輸,例如外層空間探測(cè)的數(shù)據(jù)傳輸。這項(xiàng)技術(shù)還被用于cd和dvd來(lái)處理光盤(pán)上的故障,例如灰塵和劃痕。一些存儲(chǔ)供應(yīng)商已經(jīng)開(kāi)始將糾刪碼納入他們的解決方案中。使用糾刪碼,數(shù)據(jù)可以被分解成幾塊,單塊分解數(shù)據(jù)是無(wú)用的,然后它們被分散到不同磁盤(pán)驅(qū)動(dòng)器或者服務(wù)器。在任何使用,這些數(shù)據(jù)都可以完全重組,即使有些數(shù)據(jù)塊因?yàn)榇疟P(pán)故障已經(jīng)丟失。換句話(huà)說(shuō),你不需要?jiǎng)?chuàng)建多個(gè)數(shù)據(jù)副本,單個(gè)數(shù)據(jù)就可以確保數(shù)據(jù)的完整性和可用性?;诩m刪碼的解決方案的早期供應(yīng)商之一是cleversafe公司,他們添加了位置信息來(lái)創(chuàng)建其所謂的分散編碼,讓用戶(hù)可以在不同位置(例如多個(gè)數(shù)據(jù)中心)存儲(chǔ)數(shù)據(jù)塊或者說(shuō)數(shù)據(jù)片。每個(gè)數(shù)據(jù)塊就其自身而言是無(wú)用的,這樣能夠確保隱私性和安全性。因?yàn)樾畔⒎稚⒓夹g(shù)使用單一數(shù)據(jù)來(lái)確保數(shù)據(jù)完整性和可用性,而不是像raid一樣使用多個(gè)副本,公司可以節(jié)省多達(dá)90%的存儲(chǔ)成本。當(dāng)你將試圖重組數(shù)據(jù)時(shí),你并不一定需要提供所有數(shù)據(jù)塊,cleversafe公司產(chǎn)品策略、市場(chǎng)營(yíng)銷(xiāo)和客戶(hù)解決方案副總裁russ kennedy表示,你生成的數(shù)據(jù)塊的數(shù)量,我們稱(chēng)之為寬度,我們將重組數(shù)據(jù)需要的最低數(shù)量稱(chēng)之為門(mén)檻。你生成的數(shù)據(jù)塊的數(shù)量和重組需要的數(shù)量之間的差異決定了其可靠性。同時(shí),即使你丟失節(jié)點(diǎn)和驅(qū)動(dòng)器,你仍然能夠得到原來(lái)形式的數(shù)據(jù)。
5,大數(shù)據(jù)存儲(chǔ)需要具備什么
大數(shù)據(jù)之大大是相對(duì)而言的概念。例如,對(duì)于像saphana那樣的內(nèi)存數(shù)據(jù)庫(kù)來(lái)說(shuō),2tb可能就已經(jīng)是大容量了;而對(duì)于像谷歌這樣的搜索引擎,eb的數(shù)據(jù)量才能稱(chēng)得上是大數(shù)據(jù)。大也是一個(gè)迅速變化的概念。hds在2004年發(fā)布的usp存儲(chǔ)虛擬化平臺(tái)具備管理32pb內(nèi)外部附加存儲(chǔ)的能力。當(dāng)時(shí),大多數(shù)人認(rèn)為,usp的存儲(chǔ)容量大得有些離譜。但是現(xiàn)在,大多數(shù)企業(yè)都已經(jīng)擁有pb級(jí)的數(shù)據(jù)量,一些搜索引擎公司的數(shù)據(jù)存儲(chǔ)量甚至達(dá)到了eb級(jí)。由于許多家庭都保存了tb級(jí)的數(shù)據(jù)量,一些云計(jì)算公司正在推廣其文件共享或家庭數(shù)據(jù)備份服務(wù)。有容乃大由此看來(lái),大數(shù)據(jù)存儲(chǔ)的首要需求存儲(chǔ)容量可擴(kuò)展。大數(shù)據(jù)對(duì)存儲(chǔ)容量的需求已經(jīng)超出目前用戶(hù)現(xiàn)有的存儲(chǔ)能力。我們現(xiàn)在正處于pb級(jí)時(shí)代,而eb級(jí)時(shí)代即將到來(lái)。過(guò)去,許多企業(yè)通常以五年作為it系統(tǒng)規(guī)劃的一個(gè)周期。在這五年中,企業(yè)的存儲(chǔ)容量可能會(huì)增加一倍?,F(xiàn)在,企業(yè)則需要制定存儲(chǔ)數(shù)據(jù)量級(jí)(比如從pb級(jí)到eb級(jí))的增長(zhǎng)計(jì)劃,只有這樣才能確保業(yè)務(wù)不受干擾地持續(xù)增長(zhǎng)。這就要求實(shí)現(xiàn)存儲(chǔ)虛擬化。存儲(chǔ)虛擬化是目前為止提高存儲(chǔ)效率最重要、最有效的技術(shù)手段。它為現(xiàn)有存儲(chǔ)系統(tǒng)提供了自動(dòng)分層和精簡(jiǎn)配置等提高存儲(chǔ)效率的工具。擁有了虛擬化存儲(chǔ),用戶(hù)可以將來(lái)自?xún)?nèi)部和外部存儲(chǔ)系統(tǒng)中的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)全部整合到一個(gè)單一的存儲(chǔ)平臺(tái)上。當(dāng)所有存儲(chǔ)資產(chǎn)變成一個(gè)單一的存儲(chǔ)資源池時(shí),自動(dòng)分層和精簡(jiǎn)配置功能就可以擴(kuò)展到整個(gè)存儲(chǔ)基礎(chǔ)設(shè)施層面。在這種情況下,用戶(hù)可以輕松實(shí)現(xiàn)容量回收和容量利用率的最大化,并延長(zhǎng)現(xiàn)有存儲(chǔ)系統(tǒng)的壽命,顯著提高it系統(tǒng)的靈活性和效率,以滿(mǎn)足非結(jié)構(gòu)化數(shù)據(jù)增長(zhǎng)的需求。中型企業(yè)可以在不影響性能的情況下將hus的容量擴(kuò)展到近3pb,并可通過(guò)動(dòng)態(tài)虛擬控制器實(shí)現(xiàn)系統(tǒng)的快速預(yù)配置。此外,通過(guò)hdsvsp的虛擬化功能,大型企業(yè)可以創(chuàng)建0.25eb容量的存儲(chǔ)池。隨著非結(jié)構(gòu)化數(shù)據(jù)的快速增長(zhǎng),未來(lái),文件與內(nèi)容數(shù)據(jù)又該如何進(jìn)行擴(kuò)展呢?不斷生長(zhǎng)的大數(shù)據(jù)與結(jié)構(gòu)化數(shù)據(jù)不同,很多非結(jié)構(gòu)化數(shù)據(jù)需要通過(guò)互聯(lián)網(wǎng)協(xié)議來(lái)訪(fǎng)問(wèn),并且存儲(chǔ)在文件或內(nèi)容平臺(tái)之中。大多數(shù)文件與內(nèi)容平臺(tái)的存儲(chǔ)容量過(guò)去只能達(dá)到tb級(jí),現(xiàn)在則需要擴(kuò)展到pb級(jí),而未來(lái)將擴(kuò)展到eb級(jí)。這些非結(jié)構(gòu)化的數(shù)據(jù)必須以文件或?qū)ο蟮男问絹?lái)訪(fǎng)問(wèn)?;趗nix和linux的