另類的鐵達尼號資料集
最近在研究 Data Quality 相關的工具,需要一個簡單的資料集來測試,剛好在 Kaggle 上看到一個練習資料集,是太空船版本的鐵達尼號,如果有在玩 Kaggle 或學習機器學習的話一定有聽過或用過鐵達尼號這個資料集,但如果你已經玩膩了原版的鐵達尼號,可以來玩玩看這個太空船版鐵達尼號唷!
資料集背景故事
這個資料集背景是設定在未來的西元 2912 年,有一艘太空船載著近 13,000 名乘客,裡面有來自不同星球的人類,正在前往其他星球居住的路上,但途中因為不明的時空異常狀況,導致有幾乎一半的乘客被傳送到平行時空,而我們的目標就是要 預測哪些人可能會被傳送!
資料集內容 (Data Details)
- PassengerId
- 每個乘客的唯一 ID,每個 ID 都採用以下形式
gggg_pp
,其中gggg
指乘客正在旅行的group,並且pp
是他們在 group 中的編號。 - 一個團體中的人通常是家庭成員,但不一定。
- 每個乘客的唯一 ID,每個 ID 都採用以下形式
- HomePlanet
- 乘客離開的星球,通常代表他們原本家鄉的星球。
- CryoSleep
- 表明乘客是否選擇在航行期間處於假死狀態。
- 冷凍睡眠中的乘客被限制在他們的船艙內。
- Cabin
- 旅客下榻的艙位號,格式是
deck/num/side
side
可以是左舷P
,也可以是右舷S
- 旅客下榻的艙位號,格式是
- Destination
- 乘客將登陸的星球。
- Age
- 乘客的年齡。
- VIP
- 旅客是否在航程中支付了 VIP 服務費用。
- RoomService, FoodCourt, ShoppingMall, Spa, VRDeck
- 乘客在各項豪華設施中所支付的費用。
- Name
- 乘客的姓名。
- Transported
- 乘客是否被傳送到平行時空。
- 這欄位是 Label,也就是要預測的目標。

最後我們要提交的格式跟原版的鐵達尼號差不多,就是 乘客 ID 和 是否被傳送 兩個欄位即可

個人覺得這資料集的背景設定還滿有趣的,如果你跟我一樣也看鐵達尼號看到膩的話,可以使用看看這個資料集,之後如果我有完成這個競賽會再放上來分享給大家!
參考資料
歡迎追蹤我的 IG 和 Facebook