【課程內容】
第一天
1、數據部的一般組織架構
2、數據分析的一般流程
3、數據部背景知識總結
4、Hadoop是什么、Hadoop的特點
4、虛擬機訪問外網配置
5、Hadoop HDFS核心組件
6、Hadoop MapReduce編程模型
7、Hadoop JobTracker與TaskTracker及hadoop基礎總結
8、Hadoop生態及SecondaryNameNode
9、vm虛擬機軟件安裝
10、centos虛擬機安裝
11、拷貝虛擬機及網絡配置-文件占用異常-關閉防火墻
12、Hadoop集群安裝(hostname,下載,解壓,環境變量,配置文件修改,scp,啟動集群,wordcount實例)
13、Hadoop集群安裝步驟概述
14、安裝JDK
附錄1、使用CRT軟件登錄虛擬機
第二天
1、當日課程安排
2、Hadoo shell常用命令
3、windows開發環境準備-需要配置環境變量
4、使用Java API 操作Hdfs
5、底層核心API,查看block的元數據信息,合并多個block
6、Hadoop hdfs文件上傳機制
7、Hadoop hdfs文件下載機制及文件上傳下載步驟總結(重要)
8、Hdfs實戰-文件定時上傳告警腳本-功能分析及說明
9、Hdfs實戰-文件上傳告警腳本-需求分析及周邊系統說明
10、Hdfs實戰-文件上傳告警腳本-編碼開發
11、Hdfs實戰-文件上傳告警腳本-文件上傳時的COPYING狀態
第三天
1、wordcount運行-控制臺過程分析、8088管理頁面分析、面試技巧
2、wordcount驅動類分析
3、map,reduce生命周期,輸入輸出泛型格式,writeable實現類,自定義DataWriteable(保證順序一致)
4、編寫wordcount函數及運行分析
5、shuffle歸并排序
6、Combiner概念分析-不是所有的combiner都能寫成和reduce一樣的
7、combiner補充說明
8、Partitioner的概念分析及說明
9、使用IK分詞器對中文歌曲進行分詞
10、自定義combiner實現文件倒排索引
11、通過工具查看fimage文件和edits文件
12、SecondaryNode的運行機制(只做合并操作)
13、在yarn資源調度管理器上運行hadoop mapreduce程序的流程
14、lucene搜索引擎分析
15、hadoop離線課程總結(重要)
第四天
1、實時計算課程安排
2、背景知識:企業日志收集的兩種方式比較-點擊流日志收集系統
3、Storm基礎(離線計算的特點、流式計算的特點、Storm是什么、Storm與Hadoop的區別)
4、Storm集群搭建步驟-(請先準備好虛擬機和zk、JDK),storm配置文件說明
5、Storm任務提交流程分析及拓撲任務界面分析
6、Storm常用命令說明
7、Storm的應用場景及典型案例
8、Storm核心組件概念及StreamGrouping(重要)
9、流式計算一般架構圖(很靈活)
10、wordcount分析-spout、Bolt的聲明周期、spout與bolt鏈接
11、自己編寫storm任務執行的過程
12、案例:39女生節業務指標數據實時統計
附:zookeeper安裝步驟
第五天
2、Storm任務提交過程總結
3、任務提交時worker數量與集群worker數量的關系
5、Storm任務提交流程
8、disruptor概念介紹-無鎖的隊列,每秒600萬
10、Storm總結
附:Jstorm源碼解讀-組件啟動流程
第六天
1、Kafka是什么-Kafka在流式計算中的位置-流式計算為什么需要Kafka
2、JMS規范-為什么要有消息隊列、JMS模型、大數據領域下的消息系統
3、Kafka配置文件說明-Kafka集群安裝
4、補充:Kafka配置文件說明-Kafka集群安裝–必看
5、Kafka常用命令行使用
6、Kafka Java API 操作
7、Kafka核心組件的描述
8、Consumer與topic關系
9、Kafka消息的分發-Consumer的負載均衡
10、Kafka文件存儲過程
11、Kakfa總結
附:Redis-String案例
第七天
1、redis哈希散列-案列,list-案例
2、redis set及sortset案例
redis set及sortset案例