【課程內(nèi)容】
第一天
1、數(shù)據(jù)部的一般組織架構(gòu)
2、數(shù)據(jù)分析的一般流程
3、數(shù)據(jù)部背景知識(shí)總結(jié)
4、Hadoop是什么、Hadoop的特點(diǎn)
4、虛擬機(jī)訪(fǎng)問(wèn)外網(wǎng)配置
5、Hadoop HDFS核心組件
6、Hadoop MapReduce編程模型
7、Hadoop JobTracker與TaskTracker及hadoop基礎(chǔ)總結(jié)
8、Hadoop生態(tài)及SecondaryNameNode
9、vm虛擬機(jī)軟件安裝
10、centos虛擬機(jī)安裝
11、拷貝虛擬機(jī)及網(wǎng)絡(luò)配置-文件占用異常-關(guān)閉防火墻
12、Hadoop集群安裝(hostname,下載,解壓,環(huán)境變量,配置文件修改,scp,啟動(dòng)集群,wordcount實(shí)例)
13、Hadoop集群安裝步驟概述
14、安裝JDK
附錄1、使用CRT軟件登錄虛擬機(jī)
第二天
1、當(dāng)日課程安排
2、Hadoo shell常用命令
3、windows開(kāi)發(fā)環(huán)境準(zhǔn)備-需要配置環(huán)境變量
4、使用Java API 操作Hdfs
5、底層核心API,查看block的元數(shù)據(jù)信息,合并多個(gè)block
6、Hadoop hdfs文件上傳機(jī)制
7、Hadoop hdfs文件下載機(jī)制及文件上傳下載步驟總結(jié)(重要)
8、Hdfs實(shí)戰(zhàn)-文件定時(shí)上傳告警腳本-功能分析及說(shuō)明
9、Hdfs實(shí)戰(zhàn)-文件上傳告警腳本-需求分析及周邊系統(tǒng)說(shuō)明
10、Hdfs實(shí)戰(zhàn)-文件上傳告警腳本-編碼開(kāi)發(fā)
11、Hdfs實(shí)戰(zhàn)-文件上傳告警腳本-文件上傳時(shí)的COPYING狀態(tài)
第三天
1、wordcount運(yùn)行-控制臺(tái)過(guò)程分析、8088管理頁(yè)面分析、面試技巧
2、wordcount驅(qū)動(dòng)類(lèi)分析
3、map,reduce生命周期,輸入輸出泛型格式,writeable實(shí)現(xiàn)類(lèi),自定義DataWriteable(保證順序一致)
4、編寫(xiě)wordcount函數(shù)及運(yùn)行分析
5、shuffle歸并排序
6、Combiner概念分析-不是所有的combiner都能寫(xiě)成和reduce一樣的
7、combiner補(bǔ)充說(shuō)明
8、Partitioner的概念分析及說(shuō)明
9、使用IK分詞器對(duì)中文歌曲進(jìn)行分詞
10、自定義combiner實(shí)現(xiàn)文件倒排索引
11、通過(guò)工具查看fimage文件和edits文件
12、SecondaryNode的運(yùn)行機(jī)制(只做合并操作)
13、在yarn資源調(diào)度管理器上運(yùn)行hadoop mapreduce程序的流程
14、lucene搜索引擎分析
15、hadoop離線(xiàn)課程總結(jié)(重要)
第四天
1、實(shí)時(shí)計(jì)算課程安排
2、背景知識(shí):企業(yè)日志收集的兩種方式比較-點(diǎn)擊流日志收集系統(tǒng)
3、Storm基礎(chǔ)(離線(xiàn)計(jì)算的特點(diǎn)、流式計(jì)算的特點(diǎn)、Storm是什么、Storm與Hadoop的區(qū)別)
4、Storm集群搭建步驟-(請(qǐng)先準(zhǔn)備好虛擬機(jī)和zk、JDK),storm配置文件說(shuō)明
5、Storm任務(wù)提交流程分析及拓?fù)淙蝿?wù)界面分析
6、Storm常用命令說(shuō)明
7、Storm的應(yīng)用場(chǎng)景及典型案例
8、Storm核心組件概念及StreamGrouping(重要)
9、流式計(jì)算一般架構(gòu)圖(很靈活)
10、wordcount分析-spout、Bolt的聲明周期、spout與bolt鏈接
11、自己編寫(xiě)storm任務(wù)執(zhí)行的過(guò)程
12、案例:39女生節(jié)業(yè)務(wù)指標(biāo)數(shù)據(jù)實(shí)時(shí)統(tǒng)計(jì)
附:zookeeper安裝步驟
第五天
2、Storm任務(wù)提交過(guò)程總結(jié)
3、任務(wù)提交時(shí)worker數(shù)量與集群worker數(shù)量的關(guān)系
5、Storm任務(wù)提交流程
8、disruptor概念介紹-無(wú)鎖的隊(duì)列,每秒600萬(wàn)
10、Storm總結(jié)
附:Jstorm源碼解讀-組件啟動(dòng)流程
第六天
1、Kafka是什么-Kafka在流式計(jì)算中的位置-流式計(jì)算為什么需要Kafka
2、JMS規(guī)范-為什么要有消息隊(duì)列、JMS模型、大數(shù)據(jù)領(lǐng)域下的消息系統(tǒng)
3、Kafka配置文件說(shuō)明-Kafka集群安裝
4、補(bǔ)充:Kafka配置文件說(shuō)明-Kafka集群安裝–必看
5、Kafka常用命令行使用
6、Kafka Java API 操作
7、Kafka核心組件的描述
8、Consumer與topic關(guān)系
9、Kafka消息的分發(fā)-Consumer的負(fù)載均衡
10、Kafka文件存儲(chǔ)過(guò)程
11、Kakfa總結(jié)
附:Redis-String案例
第七天
1、redis哈希散列-案列,list-案例
2、redis set及sortset案例
redis set及sortset案例