課程介紹:
本項(xiàng)目主要用于互聯(lián)網(wǎng)電商企業(yè)中,使用Spark技術(shù)開發(fā)的大數(shù)據(jù)統(tǒng)計(jì)分析平臺,對電商網(wǎng)站的各種用戶行為(訪問行為、購物行為、廣告點(diǎn)擊行為等)進(jìn)行復(fù)雜的分析。用統(tǒng)計(jì)分析出來的數(shù)據(jù),輔助公司中的PM(產(chǎn)品經(jīng)理)、數(shù)據(jù)分析師以及管理人員分析現(xiàn)有產(chǎn)品的情況,并根據(jù)用戶行為分析結(jié)果持續(xù)改進(jìn)產(chǎn)品的設(shè)計(jì),以及調(diào)整公司的戰(zhàn)略和業(yè)務(wù)。最終達(dá)到用大數(shù)據(jù)技術(shù)來幫助提升公司的業(yè)績、營業(yè)額以及市場占有率的目標(biāo)。
項(xiàng)目主要采用目前大數(shù)據(jù)領(lǐng)域最流行、最熱門的技術(shù)——Spark,具有普通項(xiàng)目無法比擬的技術(shù)前瞻性與尖端性。本項(xiàng)目使用了Spark技術(shù)生態(tài)棧中最常用的三個(gè)技術(shù)框架,Spark Core、Spark SQL和Spark Streaming,進(jìn)行離線計(jì)算和實(shí)時(shí)計(jì)算業(yè)務(wù)模塊的開發(fā)。實(shí)現(xiàn)了包括用戶訪問session分析、頁面單跳轉(zhuǎn)化率統(tǒng)計(jì)、熱門商品離線統(tǒng)計(jì)、廣告流量實(shí)時(shí)統(tǒng)計(jì)4個(gè)業(yè)務(wù)模塊。
項(xiàng)目中所有的業(yè)務(wù)功能模塊都是直接從實(shí)際企業(yè)項(xiàng)目中抽取出來的,業(yè)務(wù)復(fù)雜度絕對沒有任何縮水,只是為了更好的貼近大數(shù)據(jù)實(shí)戰(zhàn)課程的需要,進(jìn)行了一定程度上的技術(shù)整合和業(yè)務(wù)整合。該項(xiàng)目的真實(shí)性、業(yè)務(wù)復(fù)雜性以及實(shí)戰(zhàn)型,絕對不是市面上現(xiàn)有的僅幾個(gè)課時(shí)的Demo級的大數(shù)據(jù)項(xiàng)目可以比擬的。
通過合理的將實(shí)際業(yè)務(wù)模塊進(jìn)行技術(shù)整合與改造,該項(xiàng)目完全涵蓋了Spark Core、Spark SQL和Spark Streaming這三個(gè)技術(shù)框架中,幾乎所有的功能點(diǎn)、知識點(diǎn)以及性能優(yōu)化點(diǎn),僅一個(gè)項(xiàng)目,即可全面掌握Spark技術(shù)在實(shí)際項(xiàng)目中如何實(shí)現(xiàn)各種類型的業(yè)務(wù)需求!在項(xiàng)目中,重點(diǎn)講解了實(shí)際企業(yè)項(xiàng)目中積累下來的寶貴的性能調(diào)優(yōu)、troubleshooting以及數(shù)據(jù)傾斜等知識和技術(shù),幾乎所有知識和技術(shù)都是全網(wǎng)唯一,是任何其他視頻課程以及書本中都沒有包含的珍貴經(jīng)驗(yàn)積累!同時(shí)以企業(yè)級大數(shù)據(jù)項(xiàng)目開發(fā)流程貫穿每個(gè)業(yè)務(wù)模塊的講解,涵蓋了項(xiàng)目開發(fā)全流程,包括需求分析、方案設(shè)計(jì)、數(shù)據(jù)設(shè)計(jì)、編碼實(shí)現(xiàn)、測試以及性能調(diào)優(yōu)等環(huán)節(jié),全面還原真實(shí)大數(shù)據(jù)項(xiàng)目的開發(fā)流程。該項(xiàng)目的整體商業(yè)價(jià)值絕對在百萬元以上!
——————-課程目錄——————-
│ ├<第一章 大數(shù)據(jù)集群搭建>
│ │ ├1.1、課程介紹.mp4
│ │ ├1.10、實(shí)時(shí)數(shù)據(jù)采集流程介紹.mp4
│ │ ├1.11、Spark 1.5.1客戶端安裝以及基于YARN的提交模式.mp4
│ │ ├1.2、CentOS 6.4集群搭建-1.mp4
│ │ ├1.3、CentOS 6.4集群搭建-2.mp4
│ │ ├1.4、hadoop-2.5.0-cdh5.3.6集群搭建.mp4
│ │ ├1.5、hive-0.13.1-cdh5.3.6安裝.mp4
│ │ ├1.6、zookeeper-3.4.5-cdh5.3.6集群搭建.mp4
│ │ ├1.7、kafka_2.9.2-0.8.1集群搭建.mp4
│ │ ├1.8、flume-ng-1.5.0-cdh5.3.6安裝.mp4
│ │ └1.9、離線日志采集流程介紹.mp4
│ ├<第二章 用戶訪問session分析>
│ │ ├2.1、模塊介紹.mp4
│ │ ├2.10、單例設(shè)計(jì)模式.mp4
│ │ ├2.11、內(nèi)部類以及匿名內(nèi)部類.mp4
│ │ ├2.12、開發(fā)JDBC輔助組件(上).mp4
│ │ ├2.13、開發(fā)JDBC輔助組件(下).mp4
│ │ ├2.14、JavaBean概念講解.mp4
│ │ ├2.15、DAO模式講解以及TaskDAO開發(fā).mp4
│ │ ├2.16、工廠模式講解以及DAOFactory開發(fā).mp4
│ │ ├2.17、JSON數(shù)據(jù)格式講解以及fastjson介紹.mp4
│ │ ├2.18、Spark上下文構(gòu)建以及模擬數(shù)據(jù)生成.mp4
│ │ ├2.19、按session粒度進(jìn)行數(shù)據(jù)聚合.mp4
│ │ ├2.2、基礎(chǔ)數(shù)據(jù)結(jié)構(gòu)以及大數(shù)據(jù)平臺架構(gòu)介紹.mp4
│ │ ├2.20、按篩選參數(shù)對session粒度聚合數(shù)據(jù)進(jìn)行過濾.mp4
│ │ ├2.21、session聚合統(tǒng)計(jì)之自定義Accumulator.mp4
│ │ ├2.22、session聚合統(tǒng)計(jì)之重構(gòu)實(shí)現(xiàn)思路與重構(gòu)session聚合.mp4
│ │ ├2.23、session聚合統(tǒng)計(jì)之重構(gòu)過濾進(jìn)行統(tǒng)計(jì).mp4
│ │ ├2.24、session聚合統(tǒng)計(jì)之計(jì)算統(tǒng)計(jì)結(jié)果并寫入MySQL.mp4
│ │ ├2.25、session聚合統(tǒng)計(jì)之本地測試.mp4
│ │ ├2.26、session聚合統(tǒng)計(jì)之使用Scala實(shí)現(xiàn)自定義Accumulator.mp4
│ │ ├2.27、session隨機(jī)抽取之實(shí)現(xiàn)思路分析.mp4
│ │ ├2.28、session隨機(jī)抽取之計(jì)算每天每小時(shí)session數(shù)量.mp4
│ │ ├2.29、session隨機(jī)抽取之按時(shí)間比例隨機(jī)抽取算法實(shí)現(xiàn).mp4
│ │ ├2.3、需求分析.mp4
│ │ ├2.30、session隨機(jī)抽取之根據(jù)隨機(jī)索引進(jìn)行抽取.mp4
│ │ ├2.31、session隨機(jī)抽取之獲取抽取session的明細(xì)數(shù)據(jù).mp4
│ │ ├2.32、session隨機(jī)抽取之本地測試.mp4
│ │ ├2.33、top10熱門品類之需求回顧以及實(shí)現(xiàn)思路分析.mp4
│ │ ├2.34、top10熱門品類之獲取session訪問過的所有品類.mp4
│ │ ├2.35、top10熱門品類之計(jì)算各品類點(diǎn)擊、下單和支付的次數(shù).mp4
│ │ ├2.36、top10熱門品類之join品類與點(diǎn)擊下單支付次數(shù).mp4
│ │ ├2.37、top10熱門品類之自定義二次排序key.mp4
│ │ ├2.38、top10熱門品類之進(jìn)行二次排序.mp4
│ │ ├2.39、top10熱門品類之獲取top10品類并寫入MySQL.mp4
│ │ ├2.4、技術(shù)方案設(shè)計(jì).mp4
│ │ ├2.40、top10熱門品類之本地測試.mp4
│ │ ├2.41、top10熱門品類之使用Scala實(shí)現(xiàn)二次排序.mp4
│ │ ├2.42、top10活躍session之開發(fā)準(zhǔn)備以及top10品類RDD生成.mp4
│ │ ├2.43、top10活躍session之計(jì)算top10品類被各sessoin點(diǎn)擊的次數(shù).mp4
│ │ ├2.44、top10活躍session之分組取TopN算法獲取top10活躍session.mp4
│ │ ├2.45、top10活躍session之本地測試以及階段總結(jié).mp4
│ │ ├2.5、數(shù)據(jù)表設(shè)計(jì).mp4
│ │ ├2.6、Eclipse工程搭建以及工具類說明.mp4
│ │ ├2.7、開發(fā)配置管理組件.mp4
│ │ ├2.8、JDBC原理介紹以及增刪改查示范.mp4
│ │ └2.9、數(shù)據(jù)庫連接池原理.mp4
│ ├<第三章 企業(yè)級性能調(diào)優(yōu)、troubleshooting經(jīng)驗(yàn)與數(shù)據(jù)傾斜解決方案>
│ │ ├3.1、性能調(diào)優(yōu)之在實(shí)際項(xiàng)目中分配更多資源.mp4
│ │ ├3.10、Shuffle調(diào)優(yōu)之原理概述.mp4
│ │ ├3.11、Shuffle調(diào)優(yōu)之合并map端輸出文件.mp4
│ │ ├3.12、Shuffle調(diào)優(yōu)之調(diào)節(jié)map端內(nèi)存緩沖與reduce端內(nèi)存占比.mp4
│ │ ├3.13、Shuffle調(diào)優(yōu)之HashShuffleManager與SortShuffleManager.mp4
│ │ ├3.14、算子調(diào)優(yōu)之MapPartitions提升Map類操作性能.mp4
│ │ ├3.15、算子調(diào)優(yōu)之filter過后使用coalesce減少分區(qū)數(shù)量.mp4
│ │ ├3.16、算子調(diào)優(yōu)之使用foreachPartition優(yōu)化寫數(shù)據(jù)庫性能.mp4
│ │ ├3.17、算子調(diào)優(yōu)之使用repartition解決Spark SQL低并行度的性能問.mp4
│ │ ├3.18、算子調(diào)優(yōu)之reduceByKey本地聚合介紹.mp4
│ │ ├3.19、troubleshooting之控制shuffle reduce端緩沖大小以避免OOM.mp4
│ │ ├3.2、性能調(diào)優(yōu)之在實(shí)際項(xiàng)目中調(diào)節(jié)并行度.mp4
│ │ ├3.20、troubleshooting之解決JVM GC導(dǎo)致的shuffle文件拉取失敗.mp4
│ │ ├3.21、troubleshooting之解決YARN隊(duì)列資源不足導(dǎo)致的application直接失敗.mp4
│ │ ├3.22、troubleshooting之解決各種序列化導(dǎo)致的報(bào)錯(cuò).mp4
│ │ ├3.23、troubleshooting之解決算子函數(shù)返回NULL導(dǎo)致的問題.mp4
│ │ ├3.24、troubleshooting之解決yarn-client模式導(dǎo)致的網(wǎng)卡流量激增問題.mp4
│ │ ├3.25、troubleshooting之解決yarn-cluster模式的JVM棧內(nèi)存溢出問題.mp4
│ │ ├3.26、troubleshooting之錯(cuò)誤的持久化方式以及checkpoint的使用.mp4
│ │ ├3.27、數(shù)據(jù)傾斜解決方案之原理以及現(xiàn)象分析.mp4
│ │ ├3.28、數(shù)據(jù)傾斜解決方案之聚合源數(shù)據(jù)以及過濾導(dǎo)致傾斜的key.mp4
│ │ ├3.29、數(shù)據(jù)傾斜解決方案之提高shuffle操作reduce并行度.mp4
│ │ ├3.3、性能調(diào)優(yōu)之在實(shí)際項(xiàng)目中重構(gòu)RDD架構(gòu)以及RDD持久化.mp4
│ │ ├3.30、數(shù)據(jù)傾斜解決方案之使用隨機(jī)key實(shí)現(xiàn)雙重聚合.mp4
│ │ ├3.31、數(shù)據(jù)傾斜解決方案之將reduce join轉(zhuǎn)換為map join.mp4
│ │ ├3.32、數(shù)據(jù)傾斜解決方案之sample采樣傾斜key單獨(dú)進(jìn)行join.mp4
│ │ ├3.33、數(shù)據(jù)傾斜解決方案之使用隨機(jī)數(shù)以及擴(kuò)容表進(jìn)行join.mp4
│ │ ├3.4、性能調(diào)優(yōu)之在實(shí)際項(xiàng)目中廣播大變量.mp4
│ │ ├3.5、性能調(diào)優(yōu)之在實(shí)際項(xiàng)目中使用Kryo序列化.mp4
│ │ ├3.6、性能調(diào)優(yōu)之在實(shí)際項(xiàng)目中使用fastutil優(yōu)化數(shù)據(jù)格式.mp4
│ │ ├3.7、性能調(diào)優(yōu)之在實(shí)際項(xiàng)目中調(diào)節(jié)數(shù)據(jù)本地化等待時(shí)長.mp4
│ │ ├3.8、JVM調(diào)優(yōu)之原理概述以及降低cache操作的內(nèi)存占比.mp4
│ │ └3.9、JVM調(diào)優(yōu)之調(diào)節(jié)executor堆外內(nèi)存與連接等待時(shí)長.mp4
│ ├<第四章 頁面單跳轉(zhuǎn)化率統(tǒng)計(jì)>
│ │ ├4.1、模塊介紹.mp4
│ │ ├4.10、生產(chǎn)環(huán)境測試.mp4
│ │ ├4.2、需求分析、技術(shù)方案設(shè)計(jì)、數(shù)據(jù)表設(shè)計(jì).mp4
│ │ ├4.3、編寫基礎(chǔ)代碼.mp4
│ │ ├4.4、面切片生成以及頁面流匹配算法實(shí)現(xiàn).mp4
│ │ ├4.5、計(jì)算頁面流起始頁面的pv.mp4
│ │ ├4.6、計(jì)算頁面切片的轉(zhuǎn)化率.mp4
│ │ ├4.7、將頁面切片轉(zhuǎn)化率寫入MySQL.mp4
│ │ ├4.8、本地測試.mp4
│ │ └4.9、生產(chǎn)環(huán)境測試.mp4
│ ├<第五章 各區(qū)域熱門商品統(tǒng)計(jì)>
│ │ ├5.1、模塊介紹.mp4
│ │ ├5.10、使用內(nèi)置case when函數(shù)給各個(gè)區(qū)域打上級別標(biāo)記.mp4
│ │ ├5.11、將結(jié)果數(shù)據(jù)寫入MySQL中.mp4
│ │ ├5.12、Spark SQL數(shù)據(jù)傾斜解決方案.mp4
│ │ ├5.13、生產(chǎn)環(huán)境測試.mp4
│ │ ├5.2、需求分析、技術(shù)方案設(shè)計(jì)以及數(shù)據(jù)設(shè)計(jì).mp4
│ │ ├5.3、查詢用戶指定日期范圍內(nèi)的點(diǎn)擊行為數(shù)據(jù).mp4
│ │ ├5.4、異構(gòu)數(shù)據(jù)源之從MySQL中查詢城市數(shù)據(jù).mp4
│ │ ├5.5、關(guān)聯(lián)城市信息以及RDD轉(zhuǎn)換為DataFrame后注冊臨時(shí)表.mp4
│ │ ├5.6、開發(fā)自定義UDAF聚合函數(shù)之group_concat_distinct().mp4
│ │ ├5.7、查詢各區(qū)域各商品的點(diǎn)擊次數(shù)并拼接城市列表.mp4
│ │ ├5.8、關(guān)聯(lián)商品信息并使用自定義get_json_object函數(shù)和內(nèi)置if函數(shù)標(biāo)記經(jīng)營類型.mp4
│ │ └5.9、使用開窗函數(shù)統(tǒng)計(jì)各區(qū)域的top3熱門商品.mp4
│ ├<第六章 廣告點(diǎn)擊流量實(shí)時(shí)統(tǒng)計(jì)>
│ │ ├6.1、需求分析、技術(shù)方案設(shè)計(jì)以及數(shù)據(jù)設(shè)計(jì).mp4
│ │ ├6.10、對實(shí)時(shí)計(jì)算程序進(jìn)行性能調(diào)優(yōu).mp4
│ │ ├6.11、生產(chǎn)環(huán)境測試.mp4
│ │ ├6.12、都學(xué)到了什么?.mp4
│ │ ├6.2、為動(dòng)態(tài)黑名單實(shí)時(shí)計(jì)算每天各用戶對各廣告的點(diǎn)擊次數(shù).mp4
│ │ ├6.3、使用高性能方式將實(shí)時(shí)計(jì)算結(jié)果寫入MySQL中.mp4
│ │ ├6.4、過濾出每個(gè)batch中的黑名單用戶以生成動(dòng)態(tài)黑名單.mp4
│ │ ├6.5、基于動(dòng)態(tài)黑名單進(jìn)行點(diǎn)擊行為過濾.mp4
│ │ ├6.6、計(jì)算每天各省各城市各廣告的點(diǎn)擊量.mp4
│ │ ├6.7、計(jì)算每天各省的top3熱門廣告.mp4
│ │ ├6.8、計(jì)算每天各廣告最近1小時(shí)滑動(dòng)窗口內(nèi)的點(diǎn)擊趨勢.mp4
│ │ └6.9、實(shí)現(xiàn)實(shí)時(shí)計(jì)算程序的HA高可用性.mp4