學習大數據的第一步-了解Hadoop輸入輸出系統-魔扣目錄

與任何I / O子系統不同，Hadoop還帶有一組原語。當然，這些原始考慮因素雖然是通用的，但也與Hadoop IO系統一起使用，并具有一些特殊的內涵。Hadoop處理數TB的數據集; 對這些原語的特殊考慮將讓我們了解Hadoop如何處理數據輸入和輸出。本文快速瀏覽這些原語，以便對Hadoop輸入輸出系統進行透視。

數據的完整性

數據完整性意味著數據在其存儲，處理和檢索操作中應保持準確和一致。為了確保在持久性和處理期間沒有數據丟失或損壞，Hadoop保持嚴格的數據完整性約束。每次讀/寫操作都發生在磁盤中，因此通過網絡更容易出錯。而且，Hadoop處理的數據量只會加劇這種情況。檢測損壞數據的常用方法是通過校驗和。一個校驗當數據首次進入系統并在檢索過程中通過通道發送時計算。檢索端再次計算校驗和并與接收的校驗和匹配。如果它完全匹配，則認為數據沒有錯誤，否則它包含錯誤。但問題是 - 如果校驗和發送本身是腐敗的呢？這是極不可能的，因為它是一個小數據，但不是一個不可否認的可能性。使用諸如ECC存儲器之類的正確硬件可以用于緩解這種情況。

這僅僅是檢測。因此，為了糾正錯誤，使用另一種稱為CRC（循環冗余校驗）的技術。

Hadoop更進一步，為每512個（默認）字節數據創建一個獨特的校驗和。由于CRC-32僅為4字節，因此存儲開銷不是問題。進入系統的所有數據在轉發存儲或進一步處理之前由數據節點驗證。發送到datanode管道的數據通過校驗和進行驗證，發現的任何損壞都會立即通過ChecksumException通知客戶端。從datanode讀取的客戶端也經歷了相同的鉆取。數據節點維護校驗和驗證日志以跟蹤已驗證的塊。在從客戶端接收到塊驗證成功信號時，由datanode更新日志。此類統計信息有助于防止壞磁盤出現問題。

除此之外，在DataBlockScanner的幫助下，在后臺運行datanode線程，對塊存儲進行定期驗證。這可以保護數據免受物理存儲介質中的損壞。

Hadoop維護數據的副本或副本。這特別用于從大規模腐敗中恢復數據。一旦客戶端在讀取塊時檢測到錯誤，它會在拋出ChecksumException之前立即向datanode報告namenode中的壞塊。然后，namenode將其標記為壞塊，并將對塊的任何進一步引用安排到其副本。以這種方式，副本與其他副本一起維護，并且標記的壞塊從系統中移除。

對于在Hadoop LocalFileSystem中創建的每個文件，都會創建一個在同一目錄中具有相同名稱的隱藏文件，擴展名為。<filename> .crc。此文件維護文件中每個數據塊（512字節）的校驗和。元數據的維護有助于在扔之前檢測讀取錯誤ChecksumException由LocalFileSystem。

壓縮

記住Hadoop處理的數據量，壓縮不是奢侈品，而是要求。Hadoop正確使用的文件壓縮有許多明顯的好處。它節省了存儲要求，是加速網絡和磁盤上數據傳輸的必備功能。Hadoop常用的工具，技術和算法很多。它們中的許多都非常受歡迎，并且已經在歷史上用于文件壓縮。例如，經常使用gzip，bzip2，LZO，zip等。

序列化

將結構化對象轉換為字節流的過程稱為序列化。這是通過網絡傳輸數據或在磁盤中保留原始數據時特別需要的。反序列化只是一個反向過程，其中一個字節流被轉換為結構化對象。這對于原始字節的對象實現尤其需要。因此，分布式計算在幾個不同的領域中使用它并不奇怪：進程間通信和數據持久性。

Hadoop使用RPC（遠程過程調用）來實現節點之間的進程間通信。因此，RPC協議使用序列化和反序列化的過程將消息呈現給字節流，反之亦然，并通過網絡發送消息。但是，該過程必須足夠緊湊，以便最好地利用網絡帶寬，以及快速，可互操作和靈活，以適應隨時間推移的協議更新。

Hadoop有自己的緊湊和快速序列化格式，Writable，MapReduce程序用來生成鍵和值類型。

文件的數據結構

有幾個高級容器在Hadoop中詳細說明了專用數據結構，以容納特殊類型的數據。例如，為了維護二進制日志，SequenceFile容器提供了用于保持二進制鍵值對的數據結構。然后我們可以使用密鑰，例如LongWritable表示的時間戳和Writable的值，它指的是記錄的數量。

還有另一個容器，SequenceFile的排序派生，稱為MapFile。它提供了按鍵方便查找的索引。

這兩個容器是可互操作的，可以相互轉換。

結論

這只是Hadoop輸入/輸出系統的快速概述。我們將在后續文章中深入研究許多復雜的細節。如果人們對I / O系統有基本的了解，那么理解Hadoop輸入/輸出系統并不是很困難。Hadoop簡單地為它添加了一些額外的果汁以跟上其在大規模數據中工作的分布式特性。就這樣。

日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

學習大數據的第一步-了解Hadoop輸入輸出系統

數獨大挑戰2018-06-03

答題星2018-06-03

全階人生考試2018-06-03

運動步數有氧達人2018-06-03

每日養生app2018-06-03

體育訓練成績評定2018-06-03