九九熱免費精品,午夜网站级录像

　　一個分布式系統(tǒng)基礎(chǔ)架構(gòu)，由Apache基金會所開發(fā)。

　　用戶可以在不了解分布式底層細節(jié)的情況下，開發(fā)分布式程序。充分利用集群的威力進行高速運算和存儲。

　　Hadoop實現(xiàn)了一個分布式文件系統(tǒng)(Hadoop Distributed File System)，簡稱HDFS。HDFS有高容錯性的特點，并且設(shè)計用來部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)來訪問應(yīng)用程序的數(shù)據(jù)，適合那些有著數(shù)據(jù)集(large data set)的應(yīng)用程序。HDFS放寬了(relax)POSIX的要求，可以以流的形式訪問(streaming access)文件系統(tǒng)中的數(shù)據(jù)。

　　Hadoop的框架最核心的設(shè)計就是：HDFS和MapReduce.HDFS為海量的數(shù)據(jù)提供了存儲，則MapReduce為海量的數(shù)據(jù)提供了計算。

起源

　　項目起源

　　Hadoop由 Apache Software Foundation 公司于 2005 年秋天作為Lucene的子項目Nutch的一部分正式引入。它受到最先由 Google Lab 開發(fā)的 Map/Reduce 和 Google File System(GFS) 的啟發(fā)。

　　2006 年 3 月份，Map/Reduce 和 Nutch Distributed File System (NDFS) 分別被納入稱為 Hadoop 的項目中。

　　Hadoop 是最受歡迎的在 Internet 上對搜索關(guān)鍵字進行內(nèi)容分類的工具，但它也可以解決許多要求極大伸縮性的問題。例如，如果您要 grep 一個 10TB 的巨型文件，會出現(xiàn)什么情況?在傳統(tǒng)的系統(tǒng)上，這將需要很長的時間。但是 Hadoop 在設(shè)計時就考慮到這些問題，采用并行執(zhí)行機制，因此能大大提高效率。

　　發(fā)展歷程

　　Hadoop原本來自于谷歌一款名為MapReduce的編程模型包。谷歌的MapReduce框架可以把一個應(yīng)用程序分解為許多并行計算指令，跨大量的計算節(jié)點運行非常巨大的數(shù)據(jù)集。使用該框架的一個典型例子就是在網(wǎng)絡(luò)數(shù)據(jù)上運行的搜索算法。

　　Hadoop最初只與網(wǎng)頁索引有關(guān)，迅速發(fā)展成為分析大數(shù)據(jù)的平臺。Cloudera是一家企業(yè)軟件公司，該公司在2008年開始提供基于Hadoop的軟件和服務(wù)。

　　GoGrid是一家云計算基礎(chǔ)設(shè)施公司，在2012年，該公司與Cloudera合作加速了企業(yè)采納基于Hadoop應(yīng)用的步伐。Dataguise公司是一家數(shù)據(jù)安全公司，同樣在2012年該公司推出了一款針對Hadoop的數(shù)據(jù)保護和風險評估。

　　名字起源

　　Hadoop這個名字不是一個縮寫，而是一個虛構(gòu)的名字。該項目的創(chuàng)建者，Doug Cutting解釋Hadoop的得名：“這個名字是我孩子給一個棕黃色的大象玩具命名的。我的命名標準就是簡短，容易發(fā)音和拼寫，沒有太多的意義，并且不會被用于別處。小孩子恰恰是這方面的高手。”

　　Hadoop的發(fā)音是 [hædu:p]。

諸多優(yōu)點

　　Hadoop是一個能夠?qū)Υ罅繑?shù)據(jù)進行分布式處理的軟件框架。但是 Hadoop 是以一種可靠、高效、可伸縮的方式進行處理的。

　　Hadoop 是可靠的，因為它假設(shè)計算元素和存儲會失敗，因此它維護多個工作數(shù)據(jù)副本，確保能夠針對失敗的節(jié)點重新分布處理。

　　Hadoop 是高效的，因為它以并行的方式工作，通過并行處理加快處理速度。

　　Hadoop 還是可伸縮的，能夠處理 PB 級數(shù)據(jù)。

　　此外，Hadoop 依賴于社區(qū)服務(wù)，因此它的成本比較低，任何人都可以使用。

　　Hadoop是一個能夠讓用戶輕松架構(gòu)和使用的分布式計算平臺。用戶可以輕松地在Hadoop上開發(fā)和運行處理海量數(shù)據(jù)的應(yīng)用程序。它主要有以下幾個優(yōu)點：

　　高可靠性。Hadoop按位存儲和處理數(shù)據(jù)的能力值得人們信賴。

　　高擴展性。Hadoop是在可用的計算機集簇間分配數(shù)據(jù)并完成計算任務(wù)的，這些集簇可以方便地擴展到數(shù)以千計的節(jié)點中。

　　高效性。Hadoop能夠在節(jié)點之間動態(tài)地移動數(shù)據(jù)，并保證各個節(jié)點的動態(tài)平衡，因此處理速度非?？臁?/p>

　　高容錯性。Hadoop能夠自動保存數(shù)據(jù)的多個副本，并且能夠自動將失敗的任務(wù)重新分配。

　　低成本。與一體機、商用數(shù)據(jù)倉庫以及QlikView、Yonghong Z-Suite等數(shù)據(jù)集市相比，hadoop是開源的，項目的軟件成本因此會大大降低。Hadoop帶有用Java語言編寫的框架，因此運行在 Linux 生產(chǎn)平臺上是非常理想的。Hadoop 上的應(yīng)用程序也可以使用其他語言編寫，比如 C++。

　　hadoop大數(shù)據(jù)處理的意義

　　Hadoop得以在大數(shù)據(jù)處理應(yīng)用中廣泛應(yīng)用得益于其自身在數(shù)據(jù)提取、變形和加載(ETL)方面上的天然優(yōu)勢。Hadoop的分布式架構(gòu)，將大數(shù)據(jù)處理引擎盡可能的靠近存儲，對例如像ETL這樣的批處理操作相對合適，因為類似這樣操作的批處理結(jié)果可以直接走向存儲。Hadoop的MapReduce功能實現(xiàn)了將單個任務(wù)打碎，并將碎片任務(wù)發(fā)送(Map)到多個節(jié)點上，之后再以單個數(shù)據(jù)集的形式加載(Reduce)到數(shù)據(jù)倉庫里。

核心架構(gòu)

　　Hadoop 由許多元素構(gòu)成。其最底部是 Hadoop Distributed File System(HDFS)，它存儲 Hadoop 集群中所有存儲節(jié)點上的文件。HDFS(對于本文)的上一層是MapReduce 引擎，該引擎由 JobTrackers 和 TaskTrackers 組成。通過對Hadoop分布式計算平臺最核心的分布式文件系統(tǒng)HDFS、MapReduce處理過程，以及數(shù)據(jù)倉庫工具Hive和分布式數(shù)據(jù)庫Hbase的介紹，基本涵蓋了Hadoop分布式平臺的所有技術(shù)核心。

　　HDFS

　　對外部客戶機而言，HDFS就像一個傳統(tǒng)的分級文件系統(tǒng)?？梢詣?chuàng)建、刪除、移動或重命名文件，等等。但是 HDFS 的架構(gòu)是基于一組特定的節(jié)點構(gòu)建的(參見圖 1)，這是由它自身的特點決定的。這些節(jié)點包括 NameNode(僅一個)，它在 HDFS 內(nèi)部提供元數(shù)據(jù)服務(wù);DataNode，它為 HDFS 提供存儲塊。由于僅存在一個 NameNode，因此這是 HDFS 的一個缺點(單點失敗)。

　　存儲在 HDFS 中的文件被分成塊，然后將這些塊復(fù)制到多個計算機中(DataNode)。這與傳統(tǒng)的 RAID 架構(gòu)大不相同。塊的大小(通常為 64MB)和復(fù)制的塊數(shù)量在創(chuàng)建文件時由客戶機決定。NameNode 可以控制所有文件操作。HDFS 內(nèi)部的所有通信都基于標準的 TCP/IP 協(xié)議。

　　NameNode

　　NameNode 是一個通常在 HDFS 實例中的單獨機器上運行的軟件。它負責管理文件系統(tǒng)名稱空間和控制外部客戶機的訪問。NameNode 決定是否將文件映射到 DataNode 上的復(fù)制塊上。對于最常見的 3 個復(fù)制塊，個復(fù)制塊存儲在同一機架的不同節(jié)點上，最后一個復(fù)制塊存儲在不同機架的某個節(jié)點上。注意，這里需要您了解集群架構(gòu)。

　　實際的 I/O事務(wù)并沒有經(jīng)過 NameNode，只有表示 DataNode 和塊的文件映射的元數(shù)據(jù)經(jīng)過 NameNode。當外部客戶機發(fā)送請求要求創(chuàng)建文件時，NameNode 會以塊標識和該塊的個副本的 DataNode IP 地址作為響應(yīng)。這個 NameNode 還會通知其他將要接收該塊的副本的 DataNode。

　　NameNode 在一個稱為 FsImage 的文件中存儲所有關(guān)于文件系統(tǒng)名稱空間的信息。這個文件和一個包含所有事務(wù)的記錄文件(這里是 EditLog)將存儲在 NameNode 的本地文件系統(tǒng)上。FsImage 和 EditLog 文件也需要復(fù)制副本，以防文件損壞或 NameNode 系統(tǒng)丟失。

　　NameNode本身不可避免地具有SPOF(Single Point Of Failure)單點失效的風險，主備模式并不能解決這個問題，通過Hadoop Non-stop namenode才能實現(xiàn)100% uptime可用時間。

　　DataNode

　　DataNode 也是一個通常在 HDFS實例中的單獨機器上運行的軟件。Hadoop 集群包含一個 NameNode 和大量 DataNode。DataNode 通常以機架的形式組織，機架通過一個交換機將所有系統(tǒng)連接起來。Hadoop 的一個假設(shè)是：機架內(nèi)部節(jié)點之間的傳輸速度快于機架間節(jié)點的傳輸速度。

　　DataNode 響應(yīng)來自 HDFS 客戶機的讀寫請求。它們還響應(yīng)來自 NameNode 的創(chuàng)建、刪除和復(fù)制塊的命令。NameNode 依賴來自每個 DataNode 的定期心跳(heartbeat)消息。每條消息都包含一個塊報告，NameNode 可以根據(jù)這個報告驗證塊映射和其他文件系統(tǒng)元數(shù)據(jù)。如果 DataNode 不能發(fā)送心跳消息，NameNode 將采取修復(fù)措施，重新復(fù)制在該節(jié)點上丟失的塊。

　　文件操作

　　可見，HDFS 并不是一個**所有人都間接用過他的作品，他是Lucene、Nutch 、Hadoop等項目的發(fā)起人。是他，把高深莫測的搜索技術(shù)形成產(chǎn)品，貢獻給普通大眾;還是他，打造了在云計算和大數(shù)據(jù)領(lǐng)域里如日中天的Hadoop。他是某種意義上的盜火者，他就是Doug Cutting。