最近技術群的一個問題,引起了我的思考:
今年,還存在金三銀四嗎?
大家都知道程序員漲薪主要還是要靠跳槽來完成!但是我們都知道,無論是考試,還是求職,這個難度,參加人數是影響難度的一個很大因數(當然特別牛逼的大佬可以忽略這句話)。
每年高考、考研人數都在增加,這求職人數也必然是每年都會增加的,因此,就算完全不出新技術,求職的難度也會越來越大。
3月初參加了大數據開發的遠程面試,這次面試的內容除了常規的自我介紹外,還有通過遠程視頻會議的共享桌面進行一些實際大數據問題的現場考核。
我所遇到的考核有兩個題目:
第一個是一套Kafka系統被要求進行異地機房容災!
第二個是如果對多個數據流進行信息合并和CEP,技術實現方式可以根據我自己的情況來決定!
幸好這半年來我并沒有荒廢,一直在潛心修煉內功。
第一個問題我用KafkaMirror的技術工具給出了解決方案!

第二個問題我則采用了SparkStreaming設計了三個CEP業務模塊!

雖然面試時間有限,我和面試官沒有過多做代碼層面的交流,不過用Xmind構建的思維導圖倒是被面試官評價為思路很清晰,最后也得到了滿意的offer!
在和眾多獵頭的交流中,也感受到了如果不是這半年提前開始學習最新的大數據技術,這次的求職之旅將異常艱辛,所以在此我也想把最近半年的學習思路和具體方法和各位朋友進行分享一下。
簡單來說,我們可以把大數據的學習步驟分成如下幾個維度:
1、大數據離線大數據報表層
2、實時流大數據分析層
3、機器學習和展現層
我們就按這幾個維度來講工具吧。
1、離線大數據Hadoop/Hive/Mapreduce
這一部分需要掌握大數據生態的各個組件,包括數據ETL的各種轉換,并且要熟悉linux相關知識,部分互聯網大廠還會使用公有云的云服務,所以會使用云服務器也是必備知識。
2、實時計算和消息流
這一部分需要掌握常見的流計算框架和消息中間件,現在各大互聯網大廠在處理實時數據業務時Kafka和Spark已經成為了標配
3、機器學習和關系圖譜/推薦引擎方面的知識
現在各大數據運營公司的基本套路都是先廣泛收集各類數據,對數據進行分類匯總后,利用關系圖譜構建用戶畫像信息,利用機器學習模型找出潛在因素間的關聯性,進而將數據變現成數據服務,利用推薦系統反向引導線上線下業務的開展。包括阿里系,頭條系,網易等一線大廠都在使用這一技術。
當然,最后還是要系統化的學習才能直接應用于一線,這里我整理了一張大數據學習思維導圖,希望可以幫到你!

(大數據系統學習思維導圖)
有了思維導圖后,還需要輔助資料以及大牛的指導!
面試干貨:
免費分享一下自己收集整理的大數據相關面試題,還有一些大數據技術的實戰書籍,需要獲取的朋友可以幫忙轉發一下文章并關注我,后臺私信【資料】即可一并獲取。


