作者 | CDA數(shù)據(jù)分析師
Tableau內(nèi)置的連接器可以連接到所有常用的數(shù)據(jù)源。
數(shù)據(jù)連接器
目前可以連接70多種數(shù)據(jù)源,分為本地連接和服務器連接。 Tableau支持的本地連接包括Excel、txt、csv、json等各類常見的源數(shù)據(jù)格式,還支持多種空間文件, 為使用地圖分析提供了條件。

Tableau支持的服務連接包括各類數(shù)據(jù)庫(如MySQL、Oracle、MongoDB)、在線數(shù)據(jù)服務(如google analtics)等,可以根據(jù)使用需要,與目標服務器建立連接關系。

如果以上提供的連接不滿足您的需求,可以選擇使用“其他數(shù)據(jù)庫 (ODBC)”或“Web 數(shù)據(jù)連接器”創(chuàng)建自己的連接。
設置數(shù)據(jù)源
Tableau數(shù)據(jù)源是數(shù)據(jù)與Tableau之間的鏈接,本質(zhì)上是數(shù)據(jù)、連接信息以及基于數(shù)據(jù)進行的自定義操作的總和。
數(shù)據(jù)源包含:
- 有關數(shù)據(jù)存儲位置的信息,例如文件名和路徑或網(wǎng)絡位置。
- 有關如何連接到數(shù)據(jù)的詳細信息,例如數(shù)據(jù)庫服務器名稱和服務器登錄信息。
- 連接中任何表的名稱,以及有關各個表如何相互關聯(lián)的信息。
- 基于數(shù)據(jù)進行的自定義,例如計算、組和重命名字段等。
本地文件連接
打開Tableau Desktop進入數(shù)據(jù)連接界面,在連接到文件中選擇要連接的文件類型。這里以Excel文件為例,單擊“Microsoft Excel”在彈出的“打開”對話框中找到想要連接的文件。

雙擊或拖動表名至畫布區(qū),下方會顯示數(shù)據(jù)預覽。

數(shù)據(jù)庫連接
在數(shù)據(jù)連接界面,連接到服務器中選擇要連接的服務器。這里以“MySQL”為例,單擊“MySQL”在彈出“MySQL”對話框輸入服務器IP、端口號、用戶名及密碼即可登錄到MySQL服務器。

建立連接后,在數(shù)據(jù)庫列表中選擇要連接的數(shù)據(jù)庫,下方會顯示當前數(shù)據(jù)庫下可用的工作表。雙擊或拖動表名至畫布區(qū),下方會顯示數(shù)據(jù)預覽。

也可以雙擊或拖動“新自定義SQL”至畫布區(qū),輸入SELECT語句以連接想要的數(shù)據(jù)。


剪貼板粘貼
- 在數(shù)據(jù)源選擇好目標數(shù)據(jù),并進行復制操作(Ctrl+C )。
- 打開tableau,在連接窗口進行粘貼操作(Ctrl+V )。
- 數(shù)據(jù)導入成功,tableau跳轉(zhuǎn)到數(shù)據(jù)源頁面。

組合數(shù)據(jù)源
在一個工作簿中可以同時創(chuàng)建不同的數(shù)據(jù)連接。
- 連接到MySQL數(shù)據(jù)庫后,點擊“添加”在彈出的“添加連接”對話框中單擊“文本文件”,在彈出的“打開”對話框中找到想要連接的文件。

- 選擇不同連接下的數(shù)據(jù)表先后雙擊或拖放至畫布區(qū),建立不同數(shù)據(jù)源下的表聯(lián)結(jié)關系。

數(shù)據(jù)聯(lián)結(jié)
當需要從多個數(shù)據(jù)表中獲取數(shù)據(jù)時,則要用到數(shù)據(jù)聯(lián)接操作。這里以兩表聯(lián)結(jié)為例,以兩個表的共有字段作為關鍵字段來建立聯(lián)結(jié)關系。 為了簡單直觀的操作演示,本文使用自制的Excel數(shù)據(jù)集demo,文件中包含table1和table2兩個數(shù)據(jù)表。
聯(lián)結(jié)方式
Tableau中支持四種聯(lián)結(jié)方式:內(nèi)聯(lián)接、左聯(lián)接、右聯(lián)接和完全外部聯(lián)接。通常情況,Tableau會自動判斷兩張表的關鍵字段并進行關聯(lián),如果關聯(lián)不正確或關鍵字段不一致無法自動關聯(lián),可以手動進行關聯(lián)。

- 內(nèi)聯(lián)結(jié):僅保留兩個數(shù)據(jù)表中具有相同關鍵字段的行。

- 左聯(lián)結(jié):包含左側(cè)表中所有值以及右側(cè)表中相對應的匹配值,如果右側(cè)表中沒有與左側(cè)表相匹配的項,則會顯示為null。

- 右聯(lián)結(jié):包含右側(cè)表中所有值以及左側(cè)表中相對應的匹配值,如果左側(cè)表中沒有與右側(cè)表相匹配的項,則會顯示為null。

- 完全外部聯(lián)接:包含兩個表中的所有值,如果一張表的值在另一張表中沒有匹配項,則顯示為null。
數(shù)據(jù)合并
當需要將有多個結(jié)構一致的數(shù)據(jù)表整合匯總在一起時,則可以使用數(shù)據(jù)合并。數(shù)據(jù)聯(lián)接是橫向擴展,數(shù)據(jù)合并是縱向增加。 進行數(shù)據(jù)合并的要求是,每個數(shù)據(jù)表的==字段名、個數(shù)、順序和數(shù)據(jù)類型必須完全一致==。 為了簡單直觀的操作演示,本文使用自制的Excel數(shù)據(jù)集demo,文件中包含三個數(shù)據(jù)表。



手動數(shù)據(jù)合并
雙擊或拖放“新建并集”至畫布區(qū),將需要合并的數(shù)據(jù)表拖入彈出的并集(手動)對話框。
合并后的數(shù)據(jù)表包含三個數(shù)據(jù)表的所有數(shù)據(jù),并且各字段一一對應。需要注意的是,新增了sheet和table%20name兩個字段,用于說明并集中的值的來源。
自動數(shù)據(jù)合并
雙擊或拖放“新建并集”至畫布區(qū),在彈出的“并集”對話框中選擇“通配符(自動)”。%20在“工作表”位置,將匹配內(nèi)容改寫為“班”,其中“班”是共有的名稱,是通配符,用于匹配三個工作表。
合并后的數(shù)據(jù)表包含三個數(shù)據(jù)表的所有數(shù)據(jù),并且各字段一一對應。需要注意的是,新增了path、sheet兩個字段,用于說明并集中的值的來源路徑及表名稱。
數(shù)據(jù)連接方式
與數(shù)據(jù)源完成連接后,將數(shù)據(jù)表拖放至畫布區(qū),就可以在畫布區(qū)看到“連接”方式的選擇,分別是“實時”和“數(shù)據(jù)提取”。 實時:直接從數(shù)據(jù)源實時查詢獲取數(shù)據(jù)信息,Tableau不對源數(shù)據(jù)進行存儲。 數(shù)據(jù)提取:將數(shù)據(jù)源的數(shù)據(jù)保存到本地計算機,大幅縮短Tableau查詢載入源數(shù)據(jù)的時間。
為什么有兩種連接方式
- 因為很多時候數(shù)據(jù)源的數(shù)據(jù)量很大,如果我們選擇實時連接,會嚴重影響計算機的運行效率和性能。因此提供了數(shù)據(jù)提取的功能,可以只提取小部分數(shù)據(jù)到本地,開發(fā)完畢部署的時候,再選擇實時連接獲取全部最新的數(shù)據(jù)。
- 使用數(shù)據(jù)提取會在本地創(chuàng)建一個數(shù)據(jù)源的副本,然后可以在其他計算機上繼續(xù)我們的工作,也可以把打包工作簿分享給那些無法直接訪問數(shù)據(jù)源的用戶。
數(shù)據(jù)提取
數(shù)據(jù)提取是保存的數(shù)據(jù)子集。%20在創(chuàng)建數(shù)據(jù)的數(shù)據(jù)提取時,可以通過使用篩選器和配置其他限制來減少數(shù)據(jù)總數(shù)。%20創(chuàng)建數(shù)據(jù)提取后,可使用原始數(shù)據(jù)中的數(shù)據(jù)對其進行刷新。在刷新數(shù)據(jù)時,可以選擇進行完全刷新或增量刷新。 完全刷新:默認方式,每次都會重新獲取數(shù)據(jù)源的數(shù)據(jù),創(chuàng)建的本地副本與數(shù)據(jù)源一致。 增量刷新:僅刷新自上次數(shù)據(jù)提取后新增的行。
數(shù)據(jù)提取的優(yōu)勢
- 支持大型數(shù)據(jù)集:可以創(chuàng)建包含數(shù)十億行數(shù)據(jù)的數(shù)據(jù)提取。
- 快速創(chuàng)建:如果使用大型數(shù)據(jù)集,則創(chuàng)建和使用數(shù)據(jù)提取可能比使用原始數(shù)據(jù)更快。
- 幫助提高性能:數(shù)據(jù)提取會在本地創(chuàng)建數(shù)據(jù)源的副本,不受服務器性能及網(wǎng)絡的影響,大大提高了運行效率。
- 支持附加功能:數(shù)據(jù)提取可以利用原始數(shù)據(jù)不支持的Tableau功能,例如不重復計數(shù)計算功能。
- 提供對數(shù)據(jù)的離線訪問權限:當原始數(shù)據(jù)不可用時,數(shù)據(jù)提取允許在本地保存和處理數(shù)據(jù)。
創(chuàng)建數(shù)據(jù)提取
選擇數(shù)據(jù)提取后,會顯示“編輯”和“刷新”按鈕。單擊“編輯”在彈出的“數(shù)據(jù)提取”對話框中設置數(shù)據(jù)提取的要求。
指定在數(shù)據(jù)提取中存儲數(shù)據(jù)的方式
- 單個表:用于存儲數(shù)據(jù)提取數(shù)據(jù)的默認結(jié)構,當使用數(shù)據(jù)提取篩選器、聚合、前 N 個等,可以使用“單個表”存儲數(shù)據(jù)。
- 多個表:當表之間的所有聯(lián)結(jié)均為等值 (=) 聯(lián)結(jié),聯(lián)結(jié)關鍵字段的數(shù)據(jù)類型完全相同,未使用直通函數(shù) (RAWSQL),未配置增量刷新、數(shù)據(jù)提取篩選器、“前 N 個”或抽樣的情況下,可以使用“多個表”方式存儲數(shù)據(jù)提取。
PS:“單個表”和“多個表”選項只會影響數(shù)據(jù)提取中數(shù)據(jù)的存儲方式,不影響數(shù)據(jù)提取中的表在“數(shù)據(jù)源”頁面上的顯示方式。 假設您的數(shù)據(jù)提取由三個表組成。如果直接打開配置為使用默認選項“單個表”的數(shù)據(jù)提取 (.hyper) 文件,在“數(shù)據(jù)源”頁面上只會顯示一個表。但是,如果打開使用打包數(shù)據(jù)源 (.tdsx) 文件的數(shù)據(jù)提取或包含其對應數(shù)據(jù)提取 (.hyper) 文件的數(shù)據(jù)源 (.tdsx) 文件,在“數(shù)據(jù)源”頁面上可以看到包含數(shù)據(jù)提取的全部三個表。
指定要提取的數(shù)據(jù)量
- 篩選器:添加一個或多個篩選器,基于字段及字段值限制提取的數(shù)據(jù)量。
- 聚合:選擇“聚合可視維度的數(shù)據(jù)”以使用度量的默認聚合,對數(shù)據(jù)進行聚合來合并行,可以最大限度地減少數(shù)據(jù)提取文件的大小并提高性能。 選擇對數(shù)據(jù)進行聚合時,也可以選擇按指定的日期級別(例如“年”、“月”等)來“匯總?cè)掌?rdquo;。

- 行數(shù):可以提取所有行或前N行。Tableau首先會應用篩選器和聚合,然后從經(jīng)過篩選和聚合的結(jié)果中提取行數(shù)。 并非所有數(shù)據(jù)源都支持抽樣。因此,在“提取數(shù)據(jù)”對話框中可能會看不到“抽樣”選項。 數(shù)據(jù)提取中將不包括最初在“數(shù)據(jù)源”頁面或工作表標簽頁中隱藏的任何字段。單擊“隱藏所有未使用的字段”按鈕可將這些隱藏字段從數(shù)據(jù)提取中移除。
設置完成后,單擊工作表標簽頁可啟動數(shù)據(jù)提取創(chuàng)建過程。在隨后顯示的對話框中,選擇一個用于保存數(shù)據(jù)提取的位置,為該數(shù)據(jù)提取文件指定名稱,然后單擊“保存”即可。
在抽樣數(shù)據(jù)與整個數(shù)據(jù)提取之間切換
當您使用大型數(shù)據(jù)提取時,您可能需要創(chuàng)建一個帶數(shù)據(jù)樣本的數(shù)據(jù)提取,以便每次將字段放在工作表標簽頁中的功能區(qū)上時,您都可以設置視圖,同時避免長時間查詢。然后,可以在使用帶數(shù)據(jù)樣本的數(shù)據(jù)提取和使用整個數(shù)據(jù)源之間進行切換,方法是在“數(shù)據(jù)”菜單中選擇數(shù)據(jù)源,然后選擇“使用數(shù)據(jù)提取”。
實時和數(shù)據(jù)提取的選擇
什么情況下選擇“實時”
- 源數(shù)據(jù)的保密性要求較高,處于安全考慮不希望保存到本地時,可以采取實時連接的方式。
- 需要實時更新源數(shù)據(jù)信息,并且對實時性的要求較高時,可以選擇實時連接的方式。
什么情況下選擇“數(shù)據(jù)提取”
- 不便于實時連接數(shù)據(jù)源,如數(shù)據(jù)是通過本地服務器獲取,但又需要在別的電腦進行分析時,可以通過”數(shù)據(jù)提取“將所需分析的數(shù)據(jù)保存到本地電腦。
- 分析的數(shù)據(jù)量較大,需要提高數(shù)據(jù)載入效率,降低源數(shù)據(jù)庫的訪問壓力時,可以通過數(shù)據(jù)提取將數(shù)據(jù)轉(zhuǎn)移到本地計算機。

想要獲取更多新鮮資訊和優(yōu)質(zhì)內(nèi)容,可搜索進入我們的CDA小程序,不要錯過了喲...