玩膩了鐵達尼號資料集？來看看最新的太空船版本鐵達尼號吧！

2023-03-222023-03-29 Jumping發表留言

另類的鐵達尼號資料集

最近在研究 Data Quality 相關的工具，需要一個簡單的資料集來測試，剛好在 Kaggle 上看到一個練習資料集，是太空船版本的鐵達尼號，如果有在玩 Kaggle 或學習機器學習的話一定有聽過或用過鐵達尼號這個資料集，但如果你已經玩膩了原版的鐵達尼號，可以來玩玩看這個太空船版鐵達尼號唷！

資料集背景故事

這個資料集背景是設定在未來的西元 2912 年，有一艘太空船載著近 13,000 名乘客，裡面有來自不同星球的人類，正在前往其他星球居住的路上，但途中因為不明的時空異常狀況，導致有幾乎一半的乘客被傳送到平行時空，而我們的目標就是要 預測哪些人可能會被傳送！

資料集內容 (Data Details)

PassengerId
- 每個乘客的唯一 ID，每個 ID 都採用以下形式 gggg_pp，其中 gggg 指乘客正在旅行的group，並且 pp 是他們在 group 中的編號。
- 一個團體中的人通常是家庭成員，但不一定。
HomePlanet
- 乘客離開的星球，通常代表他們原本家鄉的星球。
CryoSleep
- 表明乘客是否選擇在航行期間處於假死狀態。
- 冷凍睡眠中的乘客被限制在他們的船艙內。
Cabin
- 旅客下榻的艙位號，格式是 deck/num/side
- side 可以是左舷 P，也可以是右舷 S
Destination
- 乘客將登陸的星球。
Age
- 乘客的年齡。
VIP
- 旅客是否在航程中支付了 VIP 服務費用。
RoomService, FoodCourt, ShoppingMall, Spa, VRDeck
- 乘客在各項豪華設施中所支付的費用。
Name
- 乘客的姓名。
Transported
- 乘客是否被傳送到平行時空。
- 這欄位是 Label，也就是要預測的目標。

最後我們要提交的格式跟原版的鐵達尼號差不多，就是 乘客 ID 和 是否被傳送 兩個欄位即可

個人覺得這資料集的背景設定還滿有趣的，如果你跟我一樣也看鐵達尼號看到膩的話，可以使用看看這個資料集，之後如果我有完成這個競賽會再放上來分享給大家！

參考資料

Spaceship Titanic | Kaggle

歡迎追蹤我的 IG 和 Facebook

Instagram: jumping.data
Facebook: JumpingCode 資料科學手記

Kaggle 發布最新的 Kaggle Models 讓模型的使用變得更方便

2023-03-022023-03-29 Jumping發表留言

Introducing Kaggle Models

Kaggle has released a newest addition: Kaggle Models.

Kaggle Models is where we can discover and use pretrained models and is collaborated with TensorFlow Hub (tfhub.dev) to make a curated set of nearly 2,000 public Google, DeepMind and other models.

Models has a new entry in the left navigation alongside Datasets and Code.

In the Model page, it is organized by the machine learning task they perform (e.g., image classification, Object Detection or Text Classification), but can also apply filters for things like language, license or framework.

Using Models

To Use the models, we can either click “New Notebook” from the model page or use the “Add Model” UI in the notebook editor (similar to datasets).

Kaggle 新功能 Kaggle Models

Kaggle 最近發佈了最新的功能：Kaggle Models！

Kaggle Models 是 Kaggle 跟 TensorFlow Hub 合作，整合了將近 2,000 個 Google、DeepMind 等等的預訓練模型。

現在只要在 Kaggle 左側欄中，就可以看到多了 Models 這個選項（在 Datasets 和 Code 的中間），裡面預設是按照不同的機器學習用途 (Task) 來分類（像是 Image Classification、Object Detection, Text Classification），但也可以用過濾器篩選，像是語言、框架或 Licence。

Kaggle Models 的使用方法

如果想要使用這些模型，可以從 Models 頁面上點擊 “New Notebook”，或者點擊 notebook editor 中的 “Add Model”（跟使用資料集時差不多）。

參考資料

Official announcement: https://www.kaggle.com/discussions/product-feedback/391200
Kaggle Models: https://www.kaggle.com/models

歡迎追蹤我的 IG 和 Facebook

Instagram: jumping.data
Facebook: JumpingCode 資料科學手記

2022 年 Kaggle 資料科學 & 機器學習現況調查

2023-01-102023-01-10 Jumping發表留言

每年底 Kaggle 都會在網站上做問卷調查，去年底的調查總共收集了 23,997 份來自 173 個不同國家的回覆，我這次用圖文整理翻譯了一些重點。

1. Kaggle 數據競賽平台現況

資料科學家 > 1000 萬名
ML 競賽 300+ 場
公開資料集數量 > 17 萬
公開程式碼數量 > 75 萬

2. 性別趨勢

資料科學產業依然維持著性別高度不平衡的狀況

AI 到底是如何將文字變影片？解析 Meta 最新 Make-A-Video 架構和技術突破

2022-09-302022-10-03 Jumping發表留言

Meta (原 Facebook) 在 2022/09/29 發佈了最新的文字轉影片 AI，名稱叫做 Make-A-Video，我覺得算是一個滿值得研究的技術突破，也很好奇背後運作的原理，於是這次拜讀了他們發表的 Paper，大概了解一下整個 Text-to-Video (T2V) AI 的架構。

雖然說是文字轉影片，但其實主要的基底還是透過文字轉圖片的模型來實現，因為既然已經有模型可以將文字轉成圖片了，那就不用再造一個輪子去做文字轉影片的模型，畢竟影片也是建築在圖片之上，是由多個圖片所組成的。

由 Make-A-Video 產出的影片範例 (source: Make-A-Video)

過去技術上的瓶頸

研究中有提到，過去文字轉影片的技術一直遲遲無法有進展，有兩個主要原因

前言

Tabnine: 宛如讀心術般的程式碼自動補齊工具

功能

個人點評

使用方法

Material Icon Theme: 美化檔案圖示、清楚顯示不同檔案類型

功能

個人點評

使用方法

Rainbow CSV: 以顏色區分結構化資料的不同欄位，方便快速探索資料

功能

個人點評

使用方法

小建議

GitLens: 顯示程式碼 Git 紀錄，提升程式碼協作效率

功能

個人點評

使用方法

file-tree-generator: 一鍵產出資料夾結構，方便撰寫技術文件

功能

個人點評

使用方法

autoDocstring: 一鍵產出註解結構，讓同事更快看懂你的 code

功能

個人點評

使用方法

小建議

總結

分享此文：

另類的鐵達尼號資料集

資料集背景故事

資料集內容 (Data Details)

參考資料

分享此文：

Introducing Kaggle Models

Using Models

Kaggle 新功能 Kaggle Models

Kaggle Models 的使用方法

參考資料

分享此文：

1. Kaggle 數據競賽平台現況

2. 性別趨勢

分享此文：

過去技術上的瓶頸

分享此文：