Hadoop初學(xué)者、具有一定Linux系統(tǒng)、Java使用經(jīng)驗(yàn)
系統(tǒng)架構(gòu)師、系統(tǒng)分析師、高級(jí)程序員、資深開發(fā)人員。
牽涉到大數(shù)據(jù)處理的數(shù)據(jù)中心運(yùn)行、規(guī)劃、設(shè)計(jì)負(fù)責(zé)人。
政府機(jī)關(guān),金融保險(xiǎn)、移動(dòng)和互聯(lián)網(wǎng)等大數(shù)據(jù)來源單位的負(fù)責(zé)人。
高校、科研院所牽涉到大數(shù)據(jù)與分布式數(shù)據(jù)處理的項(xiàng)目負(fù)責(zé)人。
數(shù)據(jù)倉庫管理人員、建模人員,分析人員和開發(fā)人員、系統(tǒng)管理人員、數(shù)據(jù)庫管理人員以及對(duì)數(shù)據(jù)倉庫感興趣的其他人員。
課程大綱:
第1周 Hadoop生態(tài)系統(tǒng)概述以及版本演化
Hadoop生態(tài)系統(tǒng)及其版本演化歷史,并給出hadoop版本選擇建議。
第2周 HDFS 2.0 原理、特性與基本架構(gòu)
介紹HDFS 2.0原理與架構(gòu),并與HDFS 1.0進(jìn)行對(duì)比。介紹HDFS 2.0新特性,包括快照、緩存、異構(gòu)存儲(chǔ)架構(gòu)等
第3周 YARN應(yīng)用場景、基本架構(gòu)與資源調(diào)度
介紹YARN是什么、基本原理與架構(gòu),并剖析其調(diào)度策略。
第4周 MapReduce 2.0基本原理與架構(gòu)
介紹計(jì)算框架MapReduce基本原理與架構(gòu)
第5周 MapReduce 2.0編程實(shí)踐(涉及多語言編程)
手把手介紹如何用java、C++、php等語言編寫MapReduce程序
第6周 HBase應(yīng)用場景、原理與基本架構(gòu)
介紹HBase應(yīng)用場景、原理和架構(gòu)
第7周 HBase編程實(shí)踐(涉及多語言編程)
手把手介紹如何用Java、C++、Python等語言編寫HBase客戶端程序。
第8周 HBase案例分析
介紹幾個(gè)HBase典型應(yīng)用案例,包括互聯(lián)網(wǎng)應(yīng)用案例和銀行應(yīng)用案例。
第9周 Zookeeper部署及典型應(yīng)用
介紹Zookeeper是什么,在hadoop生態(tài)系統(tǒng)中的地位
第10周 Hadoop數(shù)據(jù)入庫系統(tǒng)Flume與Sqoop
介紹如何使用flume和sqoop兩個(gè)系統(tǒng)將外部流式數(shù)據(jù)(比如網(wǎng)站日志,用戶行為數(shù)據(jù)等)、關(guān)系型數(shù)據(jù)庫(比如MySQL、Oracle等)中的數(shù)據(jù)導(dǎo)入Hadoop中進(jìn)行分析和挖掘
第11周 數(shù)據(jù)分析系統(tǒng)Hive與Pig應(yīng)用與比較
介紹如何使用hive和pig分析hadoop中的海量數(shù)據(jù)
第12周 數(shù)據(jù)挖掘工具包Mahout
介紹如何使用mahout提供的數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)算法進(jìn)行海量數(shù)據(jù)挖掘
第13周 工作流引擎Oozie與Azkaban應(yīng)用
介紹如何使用Oozie和azkaban對(duì)MapReduce作業(yè)、Pig/hive作業(yè)等進(jìn)行統(tǒng)一管理和調(diào)度
第14周 兩個(gè)綜合案例:日志分析系統(tǒng)與機(jī)器學(xué)習(xí)平臺(tái)
介紹兩個(gè)典型的互聯(lián)網(wǎng)應(yīng)用案例,進(jìn)一步深入領(lǐng)悟hadoop生態(tài)系統(tǒng)中各個(gè)系統(tǒng)的應(yīng)用場景和解決實(shí)際問題的方式。