玩膩了鐵達尼號資料集？來看看最新的太空船版本鐵達尼號吧！

另類的鐵達尼號資料集

最近在研究 Data Quality 相關的工具，需要一個簡單的資料集來測試，剛好在 Kaggle 上看到一個練習資料集，是太空船版本的鐵達尼號，如果有在玩 Kaggle 或學習機器學習的話一定有聽過或用過鐵達尼號這個資料集，但如果你已經玩膩了原版的鐵達尼號，可以來玩玩看這個太空船版鐵達尼號唷！

這個資料集背景是設定在未來的西元 2912 年，有一艘太空船載著近 13,000 名乘客，裡面有來自不同星球的人類，正在前往其他星球居住的路上，但途中因為不明的時空異常狀況，導致有幾乎一半的乘客被傳送到平行時空，而我們的目標就是要 預測哪些人可能會被傳送！

PassengerId
- 每個乘客的唯一 ID，每個 ID 都採用以下形式 gggg_pp，其中 gggg 指乘客正在旅行的group，並且 pp 是他們在 group 中的編號。
- 一個團體中的人通常是家庭成員，但不一定。
HomePlanet
- 乘客離開的星球，通常代表他們原本家鄉的星球。
CryoSleep
- 表明乘客是否選擇在航行期間處於假死狀態。
- 冷凍睡眠中的乘客被限制在他們的船艙內。
Cabin
- 旅客下榻的艙位號，格式是 deck/num/side
- side 可以是左舷 P，也可以是右舷 S
Destination
- 乘客將登陸的星球。
Age
- 乘客的年齡。
VIP
- 旅客是否在航程中支付了 VIP 服務費用。
RoomService, FoodCourt, ShoppingMall, Spa, VRDeck
- 乘客在各項豪華設施中所支付的費用。
Name
- 乘客的姓名。
Transported
- 乘客是否被傳送到平行時空。
- 這欄位是 Label，也就是要預測的目標。

最後我們要提交的格式跟原版的鐵達尼號差不多，就是 乘客 ID 和 是否被傳送 兩個欄位即可

個人覺得這資料集的背景設定還滿有趣的，如果你跟我一樣也看鐵達尼號看到膩的話，可以使用看看這個資料集，之後如果我有完成這個競賽會再放上來分享給大家！

歡迎追蹤我的 IG 和 Facebook