明確目的
帶著問題出發(fā),明確我們的目的是探索不同崗位、城市、公司數(shù)據(jù)人薪資是怎樣的,所以是一個探索性分析。
數(shù)據(jù)處理
1、查看并理解字段
拿到數(shù)據(jù),大概看一下,總共有184條記錄,量不大,那我們就直接用Excel來處理即可。樣本量雖然有點少,但貴在真實、有效。
有8個字段:
- 序號:對一條記錄的唯一編號
- 提交時間:用戶提交問卷的時間,沒有特別的含義
- 大佬是什么崗:崗位名稱,如數(shù)據(jù)倉庫、大數(shù)據(jù)開發(fā)等7個類別
- 大佬在什么廠:公司類型,如一線巨廠、三線小廠等4個類別
- 大佬的月薪多少:月薪,有1w以下,1~2w等6個區(qū)間可選
- 你還有啥想問、想說的:留言
- 遞交地點:城市,可以理解為工作所在城市
2、缺失值處理
缺失值只在留言一列中存在,但這是正常現(xiàn)象,沒必要做任何操作
3、重復值處理
對于重復值,這里我們認為所有字段都重復的才為重復值,即可刪除。通過【刪除重復值】的功能來實現(xiàn),這份數(shù)據(jù)里沒有重復值。

4、異常值處理
關(guān)于異常值的處理,一個是對數(shù)值型數(shù)據(jù)的統(tǒng)計學意義上的異常來看,常用的方法是直接畫出箱型圖來觀察。
另一個則是根據(jù)業(yè)務經(jīng)驗來判斷,這里我們可以對城市字段進行分組,方便后續(xù)的分析,同時在分組過程中,也發(fā)現(xiàn)了一些異常值,這是基于常識經(jīng)驗。
把城市分為一線、新一線、二線、三線、四線、五線,有50個值是沒有歸屬的,情況也不一樣。
有的是地點直接顯示為國別,如中國、美國,有的是地點顯示為省份,如廣東、浙江。把省份用其省會城市代替,做一些處理。

最后得到規(guī)整的城市對應分組城市類型的數(shù)據(jù)。

由于數(shù)據(jù)源是從調(diào)查軟件中導出,所以整個數(shù)據(jù)比較規(guī)范,在缺失值、重復值、異常值的處理上都比較方便,基本無需做多余的操作,直接拿來用都可以。
數(shù)據(jù)分析
初級段位:數(shù)據(jù)羅列
1、單一特征分布
查看這份調(diào)查問卷每個字段的情況

根據(jù)對單一特征的分析可以知道:
- 在這份樣本中,有7個類別的崗位,其中數(shù)據(jù)倉庫崗位的用戶最多,占比24.46%,算法類崗位填寫問卷的最少,只有3個,其余的如大數(shù)據(jù)開發(fā)、數(shù)據(jù)分析、產(chǎn)品類等崗位分布大致相同。
- 有近一半的人(42.93%)是在默默無聞的血汗工廠工作。
- 本次調(diào)查的人中有約95%的人月入過萬,有超過2/3的人是月收入在1~2、2~3W的區(qū)間內(nèi)。
- 在北上廣深等一線城市工作的人超過一半(51.63%),其次是新一線城市。
- 底層碼農(nóng)占比44.57%
2、離散型數(shù)據(jù)分布
查看了單個字段的大致分布后,別忘了我們的目的:薪資!所以要看每個字段和薪資的情況

可以看出:
- 從崗位&薪資上來看,數(shù)據(jù)分析類崗位1~2w的薪資占比達到了70%,大數(shù)據(jù)開發(fā)崗位2~3w薪資占比60%,其余數(shù)據(jù)倉庫、產(chǎn)品崗等2~3w較多。所以,想要工資高,選擇賽道很重要!
- 從級別&薪資上來看,底層碼農(nóng)1~2w薪資水平占比較多(49%),主管/中級工程師同樣也是1~2w占比較多,54%的人到了經(jīng)理/高級工程師的級別后其薪資水平可達到2~3w,總監(jiān)/架構(gòu)師及以上的薪資在5~8w和8w以上的人數(shù)占比達到了61.5。所以,要想多加薪,升職要上心。
- 從公司性質(zhì)&薪資上看,一線巨廠和非一線但是聽過名字的大廠薪資2~3w的人較多,默默無聞的血汗工廠和三線小廠的薪資在1~2w的人較多。
- 從城市&薪資上看,可以看到,一線和新一線城市的薪資結(jié)構(gòu)差不多,1~2、2~3w占據(jù)了大多數(shù),2345線城市2~3w薪資的就不多了。所以,哪兒的工資多?大城市里找工作。
中級段位:多特征聯(lián)合
4、交叉分析
薪資不單單和某一因素有關(guān),不同的城市、崗位、級別,薪資水平肯定會不一樣,因此要進行多個維度的交叉分析。

- 大廠里崗位分布比較均勻,三線小廠和默默無聞的血汗工廠數(shù)據(jù)倉庫崗位尤其多,數(shù)據(jù)分析類崗位在各個廠都是1~2w人數(shù)居多,數(shù)據(jù)倉庫崗在默默無聞的血汗工廠、三線小廠里主要是1~2w、2~3w居多,大膽猜測為彭老師人脈受眾主要是做數(shù)據(jù)倉庫的,比較成熟了,所以樣本多薪資高。
- 不同城市里崗位的分布,一線城市大數(shù)據(jù)開發(fā)類、數(shù)據(jù)倉庫崗位較多且薪資在1~2,2~3w,其他城市崗位分布比較散,當然也可能和樣本有偏有關(guān)。
查看各崗位的城市分布及薪資情況

- 大數(shù)據(jù)開發(fā)崗在北京、深圳的薪資較高(5~8w及以上)
- 相比其他數(shù)據(jù)類崗位,偏管理崗在其他城市也有了分布,整體薪資較高,在一線城市反而也有1w左右的,猜測1線城市用工不愁?
- 數(shù)據(jù)倉庫崗樣本量多,分布也較廣,在各個城市基本都是1~2w,2~3w較多
- 數(shù)據(jù)分析崗沒有5w及以上的,主要是因為樣本中沒有級別總監(jiān)及以上的,所以拉低了數(shù)據(jù)分析崗位的平均薪資
- 算法崗由于樣本量太少(3個),城市薪資差異也較大
查看級別的城市分布同薪資情況

- 底層碼農(nóng)在深圳1~2w的居多,上海北京1~2w和2~3w的分庭抗禮
- 主管/中級工程師在一線城市2~3w的會多一些,其他二線城市主要是1~2w
- 經(jīng)理/高級工程師在各個城市基本上都是2~3的居多
- 總監(jiān)/架構(gòu)師及以上基本在3~5w及以上,青島、廣州、上海有1~2w的
總結(jié)一下:
- 4個最多:數(shù)據(jù)倉庫崗位人群最多,一線城市工作的人最多,默默無聞的血汗工廠工作的人最多,月入2~3w的人最多(與樣本群體相關(guān))。
- 薪資水平:以這份調(diào)查樣本來說,數(shù)據(jù)人平均薪資在2.5w左右。
- 崗位選擇:一線城市較其他城市提供的崗位有更多的選擇性,除了數(shù)據(jù)分析崗薪資是1~2w,其他數(shù)據(jù)崗位薪資均在2~3w較多。
- 職業(yè)發(fā)展:在職業(yè)階段初期,底層碼農(nóng)和主管/中工薪資結(jié)構(gòu)差不多,再往上薪資水平就可提升一大截。
- 城市選擇:大廠主要集中在一線城市,各個崗位分布較為平均且整體薪資較高。
高級段位:一些思考
讓我們拋開這份樣本來思考,從整個行業(yè)來看,數(shù)據(jù)人的薪資、崗位、職業(yè)、城市又有著怎樣的趨勢?可以帶著3個問題來思考。
Q1:數(shù)據(jù)類崗位薪資最高的是?
數(shù)據(jù)類崗位應屬于信息傳輸、軟件和信息技術(shù)服務這類職業(yè)中,可以看到,除了管理層和金融服務外,它的工資排名第三,有90%的人能拿到17.28w的年薪,整個行業(yè)向好。

細分到數(shù)據(jù)類崗位,可以參考的是,數(shù)據(jù)分析崗年中位數(shù)薪資為14.6w,數(shù)據(jù)倉庫18.1w,大數(shù)據(jù)開發(fā)21.4w,產(chǎn)品經(jīng)理19.3w,算法工程師23.8w,要努力精進自己的技術(shù)。

Q2:是否職位越高,薪資越高?
從人社局公布的分崗位等級從業(yè)人員薪資分位值上可以看出,不管是技術(shù)類還是管理類,職位越高,薪資也會隨著增長,但我們也發(fā)現(xiàn),就算是高層管理崗有10%的人拿著5w年限左右的薪資,也有38萬年薪就超過了90%的人,所以打鐵還需自身硬,數(shù)據(jù)人,加油!

Q3:哪些城市的薪資最高?
通過統(tǒng)計各大城市的平均薪資和薪資中位數(shù)可以看到,北京、上海、南京、深圳、廣州、杭州等一線、新一線城市平均薪資過萬,當然平均值過于被極值影響了,從薪資中位數(shù)上看,只有北京、上海薪資中位數(shù)超過了6000,要高薪,還是要到大城市去。

數(shù)據(jù)展示
簡單地用Excel做了一個可視化大屏,做了2個動態(tài)交互效果,一個是通過列表框控件的選擇顯示的圓環(huán)圖,可以看到其分布占比。

另一個交互效果是數(shù)據(jù)透視表里切片器,通過將數(shù)據(jù)透視表聯(lián)動,選擇不同的崗位,可得到相應的圖形。
