发布日期:2025-04-19 20:16 点击次数:97 |
有一些基本主张可瞭解資料準備以及若何為分析構建資料。資料不错透過多样各樣令东谈主目眩撩亂的样式產生、捕獲和儲存,但是在分析時文爱,所开荒的扫数資料样式並非齐调换。
資料準備是將样式設定考究的資料帶入單一表或多個相關表的才气,以便在 Tableau 中進行分析。此才气包括結構(亦即列和欄)以及資料整潔度、此類正確資料的類型和正確的資料值等層面。
领导:若是您有我方的資料集,瀏覽以下主題可能會有所幫助。若是您還沒有不错使用的資料集,請參閱尋找考究資料集(連結在新視窗開啟)的领导。
結構若何影響分析可能無法章程資料的結構。本主題的其餘部分假设您有權存取原始資料以及具有整理原始資料所需的器用,举例 Tableau Prep Builder。但是,在某些情況下,可能無法根據需要對資料進行樞紐分析或彙總。雖然不竭仍然不错執行分析,但是可能需要變更計算或處理資料的方式。有關若何對不同的資料結構執行调换分析的範例,請參閱「生涯情境中的 Tableau Prep 日:在 Tableau Desktop 中對第二個日历進行分析(連結在新視窗開啟)」。但是,若不错最好化資料結構,則可能會讓分析變得愈加容易。
資料結構Tableau Desktop 最適合搭配以表样式設定的資料(如試算表),也即是指儲存在列和欄中且第一列具有欄位標題的資料。那麼,什麼內容應該是列或欄呢?
什麼是列?列(或記錄)的內容包羅萬象,不错是有關零卖店某筆交游的資訊、特定地點的氣象測量值,或是有關某則外交媒體貼文的統計資料。
亚洲在线請務必瞭解資料中的記錄(列)所代表的意義。這即是資料的粒度。
在這裡,每筆記錄齐是一天在這裡,每筆記錄齐是一個月领导:最好作法是擁有唯独識別碼 (UID),也即是可將每個列識別為唯独資料的值。您不错將它視為每筆記錄的成分證字號或 URL。在 Superstore,此識別碼會是列 ID。請小心,並非扫数資料集齐有 UID,但是有也不會形成影響。
請試著確定您不错回应以下問題:「資料汇注的列代表什麼內容?」。這和回应「TableName(Count) 欄位代表什麼內容?」是一樣的。若是您無法加以闡述,就代表資料的構建不良,無法進行分析。
什麼是欄位或欄?表中的資料欄會以資料窗格中的欄位花样進入 Tableau Desktop,但是它們基本上是可互換的用語。(我們會在 Tableau Desktop 中保留欄一詞,以便用於欄和列架,以及用來态状特定視覺收尾。)資料的欄位應含有可分組到較大關係的項目。這些項目自己稱為值或成員(只好離散維度才會含有成員)。
指定欄位中允許哪些值是由欄位的網域來決定(請參閱下方附註)。舉例來說,「雜貨店部門」可能含有「熟食」、「烘焙食物」、「農產品」等,但是不會包括「麵包」或「義大利臘腸」,因為這些是商品,而非部門。換句話說,部門欄位的網域僅限可能的雜貨店部門。
此外,建構考究的資料集會具有「銷售額」欄和「獲利」欄,而不是只好單一的「金額」欄,因為獲利和銷售額是不同的主张。
「銷售額」欄位的網域會是 ≥ 0 的值,因為銷售額不可是負數。
但是,「獲利」欄位的網域則可能會是各種值,因為獲利有可能是負數。
附註:網域也可能是指資料中存在的值。若是「雜貨店部門」欄誤含有「義大利臘腸」,則依照此定義,該值可能就位於該欄的網域中。這些定義有點矛盾。一個是可能存在或應該存在的值,另一個是實際存在的值
將欄位分類資料表中的每個欄齐會以欄位的花样進入 Tableau Desktop,而况會顯示在「資料」窗格中。Tableau Desktop 中的欄位必須是維度或度量(在「資料」窗格中以表內的一條線隔開)以及離散或連續(以色调編碼:藍色欄位是離散,綠色欄位是連續)。
維度是定性的;也即是說,它們無法測量,但是不错态状。維度不竭是指城市或國家/地區、眼睛顏色、類別、隊伍名稱等內容。維度不竭是離散的。
度量是定量的;也即是說,它們不错使用數字來測量和記錄。度量不错是銷售額、身高、點擊次數等內容。在 Tableau Desktop 中,度量會自動彙總;預設的彙總是 SUM。度量不竭是連續的。
離散代表各自分開或各自不同。Toyota 就和 Mazda 不同。在 Tableau Desktop 中,離散值會以標籤的花样進入檢視,而况會开荒窗格。
連續代表形成一個不間斷且連續的整體。7 的後面接著 8,然後和 9 之間的距離调换,而况 7.5 會落在 7 和 8 的中間。在 Tableau Desktop 中,連續值會以軸的花样進入檢視。
維度不竭是離散的,而度量不竭是連續的。可是,情況並非總是如斯。日历不错是離散的,也不错是連續的。
日历是維度,而况會自動以離散的花样進入檢視(又稱為日历部分,举例「8 月」會考量 8 月當月,但不會考量如年份等其他資訊)。套用至含有離散日历之時間表的趨勢線會分红多條趨勢線,一個窗格一條。
若是有所偏好,我們不错選擇使用連續日历(又稱為日历截斷,举例「2024 年 8 月」,和「2025 年 8 月」不同)。套用至含有連續日历之時間表的趨勢線會有整個日历軸的單一趨勢線。
领导:有關詳情,請參閱維度和度量(藍色和綠色)。
在 Tableau Prep 中文爱,維度或度量並無區分。但是,若要瞭解設定檔窗格之資料的詳細資訊和节录呈現等,欧美高清处女就務必要瞭解離散或連續背後的主张。
詳細資訊:詳細資訊檢視會以離散標籤顯示扫数網域元素,而况會具備視覺收尾捲軸以提供扫数資料的視覺收尾概觀。
节录:节录檢視會在連續軸上將分桶的值顯示為直方圖。
分桶和直方圖年齡或薪資等欄位視為連續。34 歲和 35 歲之間有所關係,而 34 和 35 之間的距離與 35 和 36 之間的距離调换。但是,一朝我們過了 10 歲傍边,不竭就不會再用我們是「9 歲半」或「7 又 ¾ 歲」等說法。我們已經將年齡分桶為以年度為大小的玄机增量。12,850 天大的东谈主比 12,790 天大的东谈主年長,但是我們會径直區分並默示他們齐是 35 歲。同樣地,年齡分組不竭會用來取代實際年齡。電影票的兒童價可能適用於 12 歲以下兒童,或是問卷調查可能會条目您選擇年齡層,像是 20-24 歲、25-30 歲等。
直方圖是用來透過分桶將數值資料的散播視覺化。直方圖與長條圖不异,但組成直方圖的矩形並非每列以離散類別顯示,而是跨連續軸分桶,举例開花數量的範圍(0-4、5-9、10-14 等)。矩形的高度是由這些值的頻率或計數來決定。在這裡,Y 軸是指落在各個分桶中的植物數量。7 種植物有 0-4 朵花,2 種植物有 5-9 朵花,而 43 種植物有 20-24 朵花。
在 Tableau Prep 中,节录檢視是分桶值的直方圖。詳細資訊檢視會顯示每個值的頻率,且一側具有可視的捲軸,以顯示資料的整體散播。
节录檢視詳細資訊檢視搜检資料集的散播有助於偵測離群點。
散播:資料在直方圖中的圖形,但取決於分桶的大小。能夠搜检直方圖檢視中的扫数資料,就有助於識別資料是否看似正確且完好。只好在您瞭解資料且能夠解釋散播是否合理時,散播的圖形才有用處。
舉例來說,若是我們要搜检 1940 年到 2017 年間裝有寬頻網路之住家數量的資料集,就應該會看到一個特殊倾斜的散播。但是,若是我們要搜检 2017 年 1 月到 2017 年 12 月間裝有寬頻網路的住家數量,就應該會看到相對一致的散播。
若是我們要搜检「南瓜香料拿鐵」之 Google 搜尋的資料集,就應該會看到秋季出現一個相當明顯的岑岭,而「將攝氏轉換為華氏」的搜尋則可能會相當穩定。
離群點:與其他值比較相對極端的值。離群點可能會是正確的值,也可能會默示出現錯誤。
有些離群點是正確的,而况會指出實際的異常;這些離群點不應移除或修改。
有些離群點會指出資料整潔度發生問題,举例薪資為 $50 而非 $50,000,因為鍵入的是句號而非逗號。
資料類型資料庫和試算表不同,不竭會在資料類型上強制執行嚴格的規則。資料類型會將指定欄位中的資料分類,並提供有關資料應若何設定样式妥协釋,以及不错對該資料執行哪些作業等資訊。举例,數值欄位可能會有套用在其上的數學運算,地舆欄位則是不错對應。
Tableau Desktop 會將欄位指派成維度或度量,但是欄位會依照其資料類型而有其他特点。這些內容會由每個欄位自有的圖示來默示(但有些類型會共用一個圖示)。Tableau Prep 使用调换的資料類型。若是在欄上強制執行資料類型,且現有的值與其指派的資料類型不相符,就可能會顯示為 null(因為「紫色」不代表任何數字)。
有些函數需要特定資料類型。举例,您無法將 CONTAINS 用於數值欄位。類型函數是用來變更欄位的資料類型。举例,DATEPARSE 不错採用特定样式的翰墨日历作為日历,從而在檢視中啟用自動向下切入等功能。
圖示資料類型领导:有關詳情,請參閱資料類型上的說明著述。
將資料轉置和取消轉置大略东谈主類讀取的資料不竭會捕獲和記錄成寬样式,且含有許多欄。可供機器讀取的資料(像是 Tableau 偏好的資料)則較適合使用高样式,且有較少的欄和較多的列。
附註:傳統而言,轉置資料進是指從高轉置為寬(從列轉置為欄),取消轉置則是指從寬轉置為高(從欄轉置為列)。但是,Tableau 使用轉置一詞是指透過將欄轉換為列,以便從寬(大略东谈主類讀取)轉置為高(可供機器讀取)。在本文献中,轉置會參照 Tableau 的字詞意旨真谛。為了明晰說明,指定「將欄轉置為列」或「將列轉置為欄」可能會很實用。有關詳情,請參閱轉置資料和使用資料的领导等說明著述。
寬資料在 WHO 瘧疾資料汇注,有一個欄是國家/地區,然後每年齐有一個欄。每個儲存格齐代表該國家/地區和該年的瘧疾病例數量。在此样式中,我們有 108 個列和 16 個欄。
任何东谈主齐不错輕鬆讀取和瞭解此样式。但是,若是我們想要將此資料帶入 Tableau Desktop,每個欄就會有一個欄位。我們有 2000 年的欄位、2001 年的欄位以及 2002 年的欄位,以此類推。
換個角度念念考,有 15 個欄位齐代表调换的基本內容(瘧疾通報病例數量),而况沒有時間的單一欄位。這樣會導致難以進行跨時間分析,因為資料儲存在不同的欄位中。
另一個默示此样式不適用於分析的指標是,我們在职何场所齐沒有關於實際值含義的資訊。對於 2012 年的阿爾及利亞,我們有值 55。五十五個代表什麼?從資料的結構來看並不明晰。
若是欄名稱並未态状這些值為何,但傳達出其他資訊,就默示該資料需要轉置。
高資料若是將資料轉置,就會將資料的圖形從寬轉為高。現在,我們不再每年一個欄,而是有單一欄(年份)和一個新的欄(通報病例)。在此样式中,我們有 1,606 個列和 3 個欄。此資料样式較高,而非較寬。
現在,在 Tableau Desktop 中,我們有「年份」的欄位和「通報病例」的欄位,還有原始的「國家/地區」欄位。這樣進行分析就容易多了,因為每個欄位齐代表一個有關資料集的唯独品質:地點、時間和值。
附註:此圖尚未更新以反应最新的 UI。「資料」窗格已不再將維度和度量顯示為標籤。
現在不错很容易看到,對於 2012 年的阿爾及利亞,55 默示通報病例的數量(因為我們不错標示這個新的欄)。
附註:在此範例中,寬資料包括每個國家/地區的單一記錄。透過高資料样式,每個國家/地區現在齐有 15 列(資料中的 15 年各有一個列)。請務必記住:每個國家/地區現在齐有多個列。 若是有「陸地區」的欄,則該值會在高資料結構中每個國家/地區的 15 個列中重複出現。若是您將「國家/地區」帶入「列」,並將「陸地區」帶入「欄」,藉此开荒長條圖,則預設情況下,檢視會總結每個國家/地區扫数 15 列的陸地區。 對於部分欄位,可能必須透過彙總平均值或最小值(而非總結或篩選)來彌補重複計數值。
標準化關係資料庫是由多個不错透過某種方式相關或連結的表所組成。每個表的每筆記錄齐含有一個唯独識別碼(或機碼)。透過關聯或聯結機碼,就不错連結記錄,以提供比單一表所含更多的資訊。帶入各個表中的資訊內容取決於所使用的資料模子,但通用原則是減少重複內容。
举例,假設要為某個活動(如婚禮)進行活動規劃。我們必須追蹤團體層級(举例家东谈主或情侶)和個东谈主層級的資訊。
此時可能會开荒一個合併扫数資訊的表:
但是,若是某個地址不正確且需要修正,就必須跨多個列進行修正,而這樣可能會導致錯誤或衝突。較好的結構是开荒兩個表,一個用於與團體相關的資訊(举例地址和邀請函是否已寄出),另一個用於與個东谈主相關的資訊(举例座位安排和飲食章程等內容)。
團體表個东谈主表在團體表中不错更輕鬆地追蹤和分析團體層級的資訊,而在個东谈主表中不错更輕鬆地分析和追蹤個东谈主層級的資訊。举例,不错從個东谈主表的「參加 = 是」記錄數量中获取所需的座椅數量,並從團體表中「禮物」並非 null 的記錄數量中获取感謝函所需的郵票數量。
將扫数資料拆分為多個表並瞭解哪個表含有哪些欄的才气,就稱為標準化。標準化有助於減少多餘的資料並簡化資料庫的組織。
但是,有時候還是需要橫跨多個表的資訊。舉例來說,若是我們想要均衡座位安排(個东谈主),使新娘方的團體與新郎方的團體羼杂在全部,該怎麼作念?(新娘或新郎所屬东谈主員會在團體層級追蹤。)為了達到此目標,我們必須將表關聯且归,以便將個东谈主與其所屬團體的相關資訊开荒關聯。適當的標準化並非仅仅將表拆分辛勤,也必須存在共用、相關欄位或唯独識別碼,以便之後用來再次將資料合併且归。在此,相關欄位是「團體」。該欄位存在於這兩個表中,因此我們不错在此欄位上聯結,並复返原始、單一的表样式。這利害標準化的結構。
那麼,為什麼不保留原始非標準化的表就好了呢?該表格較難維護,而况儲存了多餘的資訊。規模較大時,資料重複的層級可能會變得很无数。重複儲存调换的資訊沒有用率。
標準化的表有一些關鍵屬性:
每個列齐需要唯独識別碼
每個表齐需要可用來連線回其他表的欄(機碼)。
這些共用(機碼)欄可用來將表關聯或聯結且归。對於我們的資料,每個表中的「團體」欄位上齐會有關係或聯結子句。
聯結類型雖然在 Tableau Desktop 中合併資料的預設法子是關聯,但在某些情況下,您可能會想要在 Tableau Desktop 或 Tableau Prep Builder 中聯結表。如需聯結和聯結類型的基本概觀,請參閱聯結資料。
Hadley Wickham 於 2014 年在《Journal of Statistical Software》發布了一篇名為《Tidy Data》的著述(2014 年 8 月,第 59 冊第 10 刊)。這篇著述特殊詳細建立了適用於分析之結構考究的資料框架。您不错在這裡(Hadley Wickham 的學術檔案)(連結在新視窗開啟)或這裡(由 r-project.org 託管)(連結在新視窗開啟)找到這篇著述。
附註:該著述是在外部網站上託管。Tableau 對於外部提供者所維護之頁面的準確性或新鮮度不擔負任何責任。若是您對內容有疑問文爱,請聯絡其擁有者。