Data Visualization with Python


[建議].先行將seaborn update到0.9版

  • pip3 install seaborn==0.9.0

[基本說明]. Visualization of seaborn

  • #### seaborn是一個建立在matplot之上,可用於製作豐富和非常具有吸引力統計圖形的Python庫。
  • #### Seaborn旨在將可視化作爲探索和理解數據的核心部分,有助於幫人們更近距離了解所研究的數據集。

[前置作業].matplotlib 與 seaborn 中文顯示問題


  • 'Matplotlib': 指令功能齊全,歷史最悠久的套件,己乎沒有圖示畫不出來的,但也最複雜
  • 'Seaborn': 是在Matplot的基礎上實作更高階的視覺化API,可以讓畫圖變得更方便、容易。
  • 'Plotly': 好看的各種視覺化圖表,可做出互動化的介面。但Plotly並沒有在Anaconda裡面,所以要在先下pip install plotly進行安裝


  • 在matplotlib 或 Seaborn 中,對於中文必須特別設定,否則圖不會顯示中文
  • 請採用以下設定,請參考

  • 建議:
    • Mac可用字體:SimHei
    • Windows 可用字體:Microsoft JhengHei

STEP1: 先用以下程式碼找到目前字體路徑,確認目前是抓哪個字體

In [1]:
from matplotlib.font_manager import findfont, FontProperties  


In [2]:
import matplotlib 
  • 1.找出 C:\Users\user\Anaconda3\lib\site-packages\matplotlib\mpl-data\matplotlibrc 檔案,然後用記事本打開
  • 2.將font.family與font.serif註解(#)移除,並在font.serif後方加入Microsoft JhengHei

STEP3: 刪除.matplotlib快取資料夾

  • 然後刪除.matplotlib 資料夾,因為.matplotlib 資料夾裡面有舊有的matplotlib 快取(cache)檔案,為避免更新後的字體在讀取到舊的快取,所有要刪除。


  • 將msj文字檔(載點,為其他網友提供)下載,以msj命名之,在儲存到以下路徑資料夾 : C:\Users\您的使用者名稱\Anaconda3\Lib\site-packages\matplotlib\mpl-data\fonts\ttf

STEP5: 使用rcParams 參數指定字體

In [7]:
%matplotlib inline 

import numpy as np 
import matplotlib.pyplot as plt 
import pandas as pd  
import seaborn as sns #加入seaborn套件

from matplotlib.font_manager import FontProperties
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['Microsoft JhengHei'] 
plt.rcParams['axes.unicode_minus'] = False

[標準開始動作]. 如果你用python的目標是科學計算或數值分析,基本是引⼊三個套件

In [5]:
%matplotlib inline 

import numpy as np 
import matplotlib.pyplot as plt 
import pandas as pd  

import seaborn as sns #加入seaborn套件

[Part 1]. 基本敘述性統計


  • total_bill: 總費用
  • tip: 付小費的金額
  • sex: 付款者性別
  • smoker: 是否吸菸
  • day: 日期
  • time: 給小費的時段
  • size: 顧客人數。

[主要分析目的]. 通過數據分析和建模,可幫助餐廳侍者預測來餐廳就餐的顧客是否會會支付小費。

In [9]:
tips = pd.read_csv('tips.csv')
In [10]:
tips.head() #看前五筆資料
total_bill tip sex smoker day time size
0 16.99 1.01 Female No Sun Dinner 2
1 10.34 1.66 Male No Sun Dinner 3
2 21.01 3.50 Male No Sun Dinner 3
3 23.68 3.31 Male No Sun Dinner 2
4 24.59 3.61 Female No Sun Dinner 4
In [11]:
tips.tail() #看後面幾筆
total_bill tip sex smoker day time size
239 29.03 5.92 Male No Sat Dinner 3
240 27.18 2.00 Female Yes Sat Dinner 2
241 22.67 2.00 Male Yes Sat Dinner 2
242 17.82 1.75 Male No Sat Dinner 2
243 18.78 3.00 Female No Thur Dinner 2
In [12]:
tips.describe() #基本統計量,只會列出屬"量"資料
total_bill tip size
count 244.000000 244.000000 244.000000
mean 19.785943 2.998279 2.569672
std 8.902412 1.383638 0.951100
min 3.070000 1.000000 1.000000
25% 13.347500 2.000000 2.000000
50% 17.795000 2.900000 2.000000
75% 24.127500 3.562500 3.000000
max 50.810000 10.000000 6.000000

[Part 2]. Visualization to EDA

  • Seaborn 套件是以 matplotlib 為基礎建構的高階繪圖套件,讓使用者更加輕鬆地建立圖表,我們可以將它視為是 matplotlib 的補強
In [13]:
In [14]:
sns.scatterplot(x="total_bill", y="tip", 
In [15]:
In [16]:
sns.distplot(tips['total_bill'],kde = False) # kde = Kernel Density
2-2.count plot

In [17]:
sns.countplot(x = 'smoker',  data = tips)
In [18]:
sns.barplot(x="day", y="total_bill", data=tips)
In [19]:
sns.countplot(x = 'time',  data = tips)
In [20]:
sns.countplot(x = 'size',  data = tips)
In [21]:
sns.countplot(x = 'day',  data = tips)
2-3. Bar-plot

In [22]:
sns.barplot(x="day", y="total_bill", data=tips)
In [24]:
sns.barplot(x="day", y="total_bill", hue="sex", data=tips)
In [25]:
sns.barplot(x="time", y="tip", data=tips,
            order=["Dinner", "Lunch"])
In [26]:
from numpy import median
sns.barplot(x="day", y="tip", data=tips, estimator=median) #用每天的中位數去估計小費的高低
[Part 3].較進階的語法

kind : { “scatter” | “reg” | “resid” | “kde” | “hex” }, optional

Kind of plot to draw.

3-1. Joint-Plot

In [23]:
sns.jointplot(x = 'total_bill', y = 'tip', data = tips)
  • ### 顧客主要消費在10-30元之間,
  • ### 對應給侍者小費的錢在1-5元之間
In [24]:
sns.jointplot(x = 'total_bill', y = 'tip', data = tips,kind = 'hex' ) # 清晰地視覺化視圖,顏色的深度代表頻率
  • ### 消費總金額集中在10-20元之間,小費集中在1-3.5元之間
  • ### 但這並不能證明"消費金額越高,小費就給的越多"
In [25]:
sns.jointplot(x = 'total_bill', y = 'tip', data = tips ,kind = 'kde')
In [26]:
sns.jointplot(x = 'total_bill', y = 'tip', data = tips ,kind = 'reg')
In [27]:
In [28]:
sns.pairplot(tips ,hue ='sex', markers=["o", "s"]) #o是圓圈,s是方塊
# hue ='sex' 以性別當圖標
  • ### 使用兩種不同的顏色用於區分性別
  • ### 這間餐廳的男性顧客較多,但性別是否造成給小費高低的差別,目前無法辨識

3-3. Box-plot

In [29]:
sns.boxplot(x = 'day', y= 'total_bill', data = tips)
In [30]:
sns.boxplot(x = 'day', y= 'total_bill', data = tips, hue = 'sex') # hue = 'sex'以性別當圖標
  • ### 只有在週六時,女性買單的次數會比男性多。
  • ### 但具體原因不知,需要質性調查


In [31]:
sns.set(style="ticks", color_codes=True)
In [32]:
In [33]:
sns.catplot(x="sex", y="total_bill",
            hue="smoker", col="time",
            data=tips, kind="bar",
            height=4, aspect=.7)
In [ ]: