亚洲sese综合,丝袜亚洲色图,成人福利在线,一区无卡码,日韩黄色网址诱惑,91黄色精品久久AA,亚洲成人中文字幕AV,久久久久伊人,久草在线观看视频

資訊:

技術(shù)文章

 

當前位置: 資訊 » 技術(shù)文章 » Hadoop

Hadoop

2020-09-07 14:16 作者: anfang 點擊: 242
Hadoop

  一個分布式系統(tǒng)基礎(chǔ)架構(gòu),由Apache基金會所開發(fā)。

  用戶可以在不了解分布式底層細節(jié)的情況下,開發(fā)分布式程序。充分利用集群的威力進行高速運算和存儲。

  Hadoop實現(xiàn)了一個分布式文件系統(tǒng)(Hadoop Distributed File System),簡稱HDFS。HDFS有高容錯性的特點,并且設(shè)計用來部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)來訪問應(yīng)用程序的數(shù)據(jù),適合那些有著數(shù)據(jù)集(large data set)的應(yīng)用程序。HDFS放寬了(relax)POSIX的要求,可以以流的形式訪問(streaming access)文件系統(tǒng)中的數(shù)據(jù)。

  Hadoop的框架最核心的設(shè)計就是:HDFS和MapReduce.HDFS為海量的數(shù)據(jù)提供了存儲,則MapReduce為海量的數(shù)據(jù)提供了計算。

起源

  項目起源

  Hadoop由 Apache Software Foundation 公司于 2005 年秋天作為Lucene的子項目Nutch的一部分正式引入。它受到最先由 Google Lab 開發(fā)的 Map/Reduce 和 Google File System(GFS) 的啟發(fā)。

  2006 年 3 月份,Map/Reduce 和 Nutch Distributed File System (NDFS) 分別被納入稱為 Hadoop 的項目中。

  Hadoop 是最受歡迎的在 Internet 上對搜索關(guān)鍵字進行內(nèi)容分類的工具,但它也可以解決許多要求極大伸縮性的問題。例如,如果您要 grep 一個 10TB 的巨型文件,會出現(xiàn)什么情況?在傳統(tǒng)的系統(tǒng)上,這將需要很長的時間。但是 Hadoop 在設(shè)計時就考慮到這些問題,采用并行執(zhí)行機制,因此能大大提高效率。

  發(fā)展歷程

  Hadoop原本來自于谷歌一款名為MapReduce的編程模型包。谷歌的MapReduce框架可以把一個應(yīng)用程序分解為許多并行計算指令,跨大量的計算節(jié)點運行非常巨大的數(shù)據(jù)集。使用該框架的一個典型例子就是在網(wǎng)絡(luò)數(shù)據(jù)上運行的搜索算法。

  Hadoop最初只與網(wǎng)頁索引有關(guān),迅速發(fā)展成為分析大數(shù)據(jù)的平臺。Cloudera是一家企業(yè)軟件公司,該公司在2008年開始提供基于Hadoop的軟件和服務(wù)。

  GoGrid是一家云計算基礎(chǔ)設(shè)施公司,在2012年,該公司與Cloudera合作加速了企業(yè)采納基于Hadoop應(yīng)用的步伐。Dataguise公司是一家數(shù)據(jù)安全公司,同樣在2012年該公司推出了一款針對Hadoop的數(shù)據(jù)保護和風險評估。

  名字起源

  Hadoop這個名字不是一個縮寫,而是一個虛構(gòu)的名字。該項目的創(chuàng)建者,Doug Cutting解釋Hadoop的得名 :“這個名字是我孩子給一個棕黃色的大象玩具命名的。我的命名標準就是簡短,容易發(fā)音和拼寫,沒有太多的意義,并且不會被用于別處。小孩子恰恰是這方面的高手。”

  Hadoop的發(fā)音是 [hædu:p]。

諸多優(yōu)點

  Hadoop是一個能夠?qū)Υ罅繑?shù)據(jù)進行分布式處理的軟件框架。但是 Hadoop 是以一種可靠、高效、可伸縮的方式進行處理的。

  Hadoop 是可靠的,因為它假設(shè)計算元素和存儲會失敗,因此它維護多個工作數(shù)據(jù)副本,確保能夠針對失敗的節(jié)點重新分布處理。

  Hadoop 是高效的,因為它以并行的方式工作,通過并行處理加快處理速度。

  Hadoop 還是可伸縮的,能夠處理 PB 級數(shù)據(jù)。

  此外,Hadoop 依賴于社區(qū)服務(wù),因此它的成本比較低,任何人都可以使用。

  Hadoop是一個能夠讓用戶輕松架構(gòu)和使用的分布式計算平臺。用戶可以輕松地在Hadoop上開發(fā)和運行處理海量數(shù)據(jù)的應(yīng)用程序。它主要有以下幾個優(yōu)點:

  高可靠性。Hadoop按位存儲和處理數(shù)據(jù)的能力值得人們信賴。

  高擴展性。Hadoop是在可用的計算機集簇間分配數(shù)據(jù)并完成計算任務(wù)的,這些集簇可以方便地擴展到數(shù)以千計的節(jié)點中。

  高效性。Hadoop能夠在節(jié)點之間動態(tài)地移動數(shù)據(jù),并保證各個節(jié)點的動態(tài)平衡,因此處理速度非??臁?/p>

  高容錯性。Hadoop能夠自動保存數(shù)據(jù)的多個副本,并且能夠自動將失敗的任務(wù)重新分配。

  低成本。與一體機、商用數(shù)據(jù)倉庫以及QlikView、Yonghong Z-Suite等數(shù)據(jù)集市相比,hadoop是開源的,項目的軟件成本因此會大大降低。Hadoop帶有用Java語言編寫的框架,因此運行在 Linux 生產(chǎn)平臺上是非常理想的。Hadoop 上的應(yīng)用程序也可以使用其他語言編寫,比如 C++。

  hadoop大數(shù)據(jù)處理的意義

  Hadoop得以在大數(shù)據(jù)處理應(yīng)用中廣泛應(yīng)用得益于其自身在數(shù)據(jù)提取、變形和加載(ETL)方面上的天然優(yōu)勢。Hadoop的分布式架構(gòu),將大數(shù)據(jù)處理引擎盡可能的靠近存儲,對例如像ETL這樣的批處理操作相對合適,因為類似這樣操作的批處理結(jié)果可以直接走向存儲。Hadoop的MapReduce功能實現(xiàn)了將單個任務(wù)打碎,并將碎片任務(wù)發(fā)送(Map)到多個節(jié)點上,之后再以單個數(shù)據(jù)集的形式加載(Reduce)到數(shù)據(jù)倉庫里。

核心架構(gòu)

  Hadoop 由許多元素構(gòu)成。其最底部是 Hadoop Distributed File System(HDFS),它存儲 Hadoop 集群中所有存儲節(jié)點上的文件。HDFS(對于本文)的上一層是MapReduce 引擎,該引擎由 JobTrackers 和 TaskTrackers 組成。通過對Hadoop分布式計算平臺最核心的分布式文件系統(tǒng)HDFS、MapReduce處理過程,以及數(shù)據(jù)倉庫工具Hive和分布式數(shù)據(jù)庫Hbase的介紹,基本涵蓋了Hadoop分布式平臺的所有技術(shù)核心。

  HDFS

  對外部客戶機而言,HDFS就像一個傳統(tǒng)的分級文件系統(tǒng)??梢詣?chuàng)建、刪除、移動或重命名文件,等等。但是 HDFS 的架構(gòu)是基于一組特定的節(jié)點構(gòu)建的(參見圖 1),這是由它自身的特點決定的。這些節(jié)點包括 NameNode(僅一個),它在 HDFS 內(nèi)部提供元數(shù)據(jù)服務(wù);DataNode,它為 HDFS 提供存儲塊。由于僅存在一個 NameNode,因此這是 HDFS 的一個缺點(單點失敗)。

  存儲在 HDFS 中的文件被分成塊,然后將這些塊復(fù)制到多個計算機中(DataNode)。這與傳統(tǒng)的 RAID 架構(gòu)大不相同。塊的大小(通常為 64MB)和復(fù)制的塊數(shù)量在創(chuàng)建文件時由客戶機決定。NameNode 可以控制所有文件操作。HDFS 內(nèi)部的所有通信都基于標準的 TCP/IP 協(xié)議。

  NameNode

  NameNode 是一個通常在 HDFS 實例中的單獨機器上運行的軟件。它負責管理文件系統(tǒng)名稱空間和控制外部客戶機的訪問。NameNode 決定是否將文件映射到 DataNode 上的復(fù)制塊上。對于最常見的 3 個復(fù)制塊,個復(fù)制塊存儲在同一機架的不同節(jié)點上,最后一個復(fù)制塊存儲在不同機架的某個節(jié)點上。注意,這里需要您了解集群架構(gòu)。

  實際的 I/O事務(wù)并沒有經(jīng)過 NameNode,只有表示 DataNode 和塊的文件映射的元數(shù)據(jù)經(jīng)過 NameNode。當外部客戶機發(fā)送請求要求創(chuàng)建文件時,NameNode 會以塊標識和該塊的個副本的 DataNode IP 地址作為響應(yīng)。這個 NameNode 還會通知其他將要接收該塊的副本的 DataNode。

  NameNode 在一個稱為 FsImage 的文件中存儲所有關(guān)于文件系統(tǒng)名稱空間的信息。這個文件和一個包含所有事務(wù)的記錄文件(這里是 EditLog)將存儲在 NameNode 的本地文件系統(tǒng)上。FsImage 和 EditLog 文件也需要復(fù)制副本,以防文件損壞或 NameNode 系統(tǒng)丟失。

  NameNode本身不可避免地具有SPOF(Single Point Of Failure)單點失效的風險,主備模式并不能解決這個問題,通過Hadoop Non-stop namenode才能實現(xiàn)100% uptime可用時間。

  DataNode

  DataNode 也是一個通常在 HDFS實例中的單獨機器上運行的軟件。Hadoop 集群包含一個 NameNode 和大量 DataNode。DataNode 通常以機架的形式組織,機架通過一個交換機將所有系統(tǒng)連接起來。Hadoop 的一個假設(shè)是:機架內(nèi)部節(jié)點之間的傳輸速度快于機架間節(jié)點的傳輸速度。

  DataNode 響應(yīng)來自 HDFS 客戶機的讀寫請求。它們還響應(yīng)來自 NameNode 的創(chuàng)建、刪除和復(fù)制塊的命令。NameNode 依賴來自每個 DataNode 的定期心跳(heartbeat)消息。每條消息都包含一個塊報告,NameNode 可以根據(jù)這個報告驗證塊映射和其他文件系統(tǒng)元數(shù)據(jù)。如果 DataNode 不能發(fā)送心跳消息,NameNode 將采取修復(fù)措施,重新復(fù)制在該節(jié)點上丟失的塊。

  文件操作

  可見,HDFS 并不是一個**所有人都間接用過他的作品,他是Lucene、Nutch 、Hadoop等項目的發(fā)起人。是他,把高深莫測的搜索技術(shù)形成產(chǎn)品,貢獻給普通大眾;還是他,打造了在云計算和大數(shù)據(jù)領(lǐng)域里如日中天的Hadoop。他是某種意義上的盜火者,他就是Doug Cutting。

TAG:
Hadoop
 

相關(guān)資訊

 

同類資訊

熱門資訊

點擊排行

熱門專題

?2008-2022 東莞市驛銘網(wǎng)絡(luò)科技有限公司 版權(quán)所有
免責聲明:本站所展示的信息及服務(wù)皆由企業(yè)或個人自行提供,內(nèi)容的真實性、準確性和合法性一律由發(fā)布者負責。
粵公網(wǎng)安備 44190002000523號 粵ICP備16047932號
阜康市| 诸城市| 文昌市| 得荣县| 温宿县| 腾冲县| 会理县| 确山县| 萝北县| 抚顺县| 渭南市| 蓝山县| 本溪市| 石阡县| 马尔康县| 重庆市| 龙山县| 靖宇县| 崇文区| 凤庆县| 高邮市| 本溪市| 石渠县| 绩溪县| 蓬安县| 丰镇市| 阳朔县| 牡丹江市| 贵定县| 清水河县| 田东县| 曲周县| 保康县| 密云县| 唐河县| 海晏县| 青州市| 宝鸡市| 海伦市| 龙口市| 西充县|