數據分析救星!3 個實用但常被忽略的 Google Colab 功能

相信很多人在做數據分析或資料清理的時候,都會使用 Google Colab、Jupyter Notebook 這些工具,其中 Colab 因為免安裝、易分享、可以跑 GPU 等等的特性,最近越來越多人在使用,老師們在線上課程教學上也很方便,但其實很多人不知道 Colab 有一些比較隱藏容易被忽略的實用功能,學會的話可以讓數據分析更加事半功倍唷!

Interactive Table (互動式表格)

原本的 Colab 表格就跟 Jupyter 表格是一樣的,如果要篩選或排序就要另外利用 Pandas 寫 sort_values、filter 或是 query 的語法,而我最近做爬蟲整理資料時發現,有個功能可以將原本的表格轉為互動式的,直接透過點按來做篩選、排序、分頁等等的效果。

這個功能預設是關閉的,有兩種方式可以轉換成互動式

  • 執行下列程式碼開啟/關閉功能(建議)
from google.colab import data_table
# 開啟功能
data_table.enable_dataframe_formatter()
# 關閉功能
data_table.disable_dataframe_formatter()
  • 在表格輸出後,點擊表格右上方的按鈕

轉換按鈕如下圖的紅框處,但這方法需要每次表格產出時都按一次,如果想要每個表格都直接產出互動式表格的話,還是建議執行上面的程式碼來一次搞定~

轉換後的互動式表格會長下方這樣

  1. 排序:我可以直接點 column 標題去做不同的排序,不用再花時間寫幾行程式
  2. 顯示數量:左下角可以選擇一次要顯示的 row 數,目前看起來有 10, 25, 50, 100 列可以選擇
  3. 頁數:右下角可以點按直接跳頁
  4. 篩選:右上角有一個「Filter」按鈕,按下去後就會出現上面那排,可以針對 index、各 column或所有 column 做篩選,若是連續型數值的話還可以指定某段區間

這個功能個人覺得非常實用!可以省去非常多研究資料的時間,推薦大家有空一定要試試看!


Execution History (執行紀錄)

Notebook 雖然很好用,但是最大缺點就是有時候前後執行順序會亂掉,如果後面先執行了,再執行前面,就有可能會造成後續變數或是函式的混亂,所以這個功能可以讓執行歷史紀錄一目瞭然,讓我們知道執行順序有沒有問題,也方便我們繼續進行分析或是 debug。

這個功能在工具列的「檢視畫面 (View)」裡面的「執行過的程式碼歷史紀錄 (Executed Code History)」

點擊後預設就會在右側開啟一個新的頁籤「執行作業 (Executions)

  1. 頁籤顯示方式(右上方橘色箭頭):可以將執行紀錄切換成下方視窗,或是變成像瀏覽器分頁的方式來顯示
  2. Google 搜尋(黃色箭頭):雖然上面寫的是搜尋 Stack Overflow,但點下去其實是可以直接將 Error 訊息丟到 Google 去搜尋,這個按鈕在平常 Colab 執行時有錯誤也會出現
  3. 開啟草稿儲存格(紅框左圖):可以再另開一個頁籤,在裡面執行一次性、測試用的程式碼,還滿方便!
  4. 查看儲存格(紅框右圖):可以直接跳到該儲存格的位置,當執行很多儲存格的程式碼的時候很實用,不然有時候滾輪捲來捲去也找不太到我想找的區塊

Command Palette (指令區塊面板)

按下 ctrl (cmd) + shift + p 可以叫出

或是利用上方工具列的「工具 (Tools)」來開啟

這個功能在忘記某些工具在哪裡的時候很好用,只要打開它然後在裡面尋找想要的動作即可~

以上就是最近發現的 Google Colab 實用功能分享給大家啦!如果大家也覺得很好用的話歡迎跟我說,有什麼新發現也可以留言告訴我唷~


參考資料

  • Data Table Display
  • 有興趣的朋友可以看看原文影片,有一些詳細的操作流程唷~
廣告

發表迴響

在下方填入你的資料或按右方圖示以社群網站登入:

WordPress.com 標誌

您的留言將使用 WordPress.com 帳號。 登出 /  變更 )

Twitter picture

您的留言將使用 Twitter 帳號。 登出 /  變更 )

Facebook照片

您的留言將使用 Facebook 帳號。 登出 /  變更 )

連結到 %s