玩膩了鐵達尼號資料集?來看看最新的太空船版本鐵達尼號吧!

另類的鐵達尼號資料集

最近在研究 Data Quality 相關的工具,需要一個簡單的資料集來測試,剛好在 Kaggle 上看到一個練習資料集,是太空船版本的鐵達尼號,如果有在玩 Kaggle 或學習機器學習的話一定有聽過或用過鐵達尼號這個資料集,但如果你已經玩膩了原版的鐵達尼號,可以來玩玩看這個太空船版鐵達尼號唷!

資料集背景故事

這個資料集背景是設定在未來的西元 2912 年,有一艘太空船載著近 13,000 名乘客,裡面有來自不同星球的人類,正在前往其他星球居住的路上,但途中因為不明的時空異常狀況,導致有幾乎一半的乘客被傳送到平行時空,而我們的目標就是要 預測哪些人可能會被傳送

資料集內容 (Data Details)

  • PassengerId
    • 每個乘客的唯一 ID,每個 ID 都採用以下形式 gggg_pp,其中 gggg 指乘客正在旅行的group,並且 pp 是他們在 group 中的編號。
    • 一個團體中的人通常是家庭成員,但不一定。
  • HomePlanet
    • 乘客離開的星球,通常代表他們原本家鄉的星球。
  • CryoSleep
    • 表明乘客是否選擇在航行期間處於假死狀態。
    • 冷凍睡眠中的乘客被限制在他們的船艙內。
  • Cabin
    • 旅客下榻的艙位號,格式是 deck/num/side
    • side 可以是左舷 P,也可以是右舷 S
  • Destination
    • 乘客將登陸的星球。
  • Age
    • 乘客的年齡。
  • VIP
    • 旅客是否在航程中支付了 VIP 服務費用。
  • RoomService, FoodCourt, ShoppingMall, Spa, VRDeck
    • 乘客在各項豪華設施中所支付的費用。
  • Name
    • 乘客的姓名。
  • Transported
    • 乘客是否被傳送到平行時空。
    • 這欄位是 Label,也就是要預測的目標。

最後我們要提交的格式跟原版的鐵達尼號差不多,就是 乘客 ID 是否被傳送 兩個欄位即可

個人覺得這資料集的背景設定還滿有趣的,如果你跟我一樣也看鐵達尼號看到膩的話,可以使用看看這個資料集,之後如果我有完成這個競賽會再放上來分享給大家!

參考資料


歡迎追蹤我的 IG 和 Facebook

廣告

Kaggle 發布最新的 Kaggle Models 讓模型的使用變得更方便

Introducing Kaggle Models

Kaggle has released a newest addition: Kaggle Models.

Kaggle Models is where we can discover and use pretrained models and is collaborated with TensorFlow Hub (tfhub.dev) to make a curated set of nearly 2,000 public Google, DeepMind and other models.

Models has a new entry in the left navigation alongside Datasets and Code.

In the Model page, it is organized by the machine learning task they perform (e.g., image classification, Object Detection or Text Classification), but can also apply filters for things like language, license or framework.

Using Models

To Use the models, we can either click “New Notebook” from the model page or use the “Add Model” UI in the notebook editor (similar to datasets).


Kaggle 新功能 Kaggle Models

Kaggle 最近發佈了最新的功能:Kaggle Models!

Kaggle Models 是 Kaggle 跟 TensorFlow Hub 合作,整合了將近 2,000 個 Google、DeepMind 等等的預訓練模型。

現在只要在 Kaggle 左側欄中,就可以看到多了 Models 這個選項(在 Datasets 和 Code 的中間),裡面預設是按照不同的機器學習用途 (Task) 來分類(像是 Image Classification、Object Detection, Text Classification),但也可以用過濾器篩選,像是語言、框架或 Licence。

Kaggle 左側欄中,就可以看到多了 Models 這個選項

Kaggle Models 的使用方法

如果想要使用這些模型,可以從 Models 頁面上點擊 “New Notebook”,或者點擊 notebook editor 中的 “Add Model”(跟使用資料集時差不多)。

裡面預設是按照不同的機器學習用途 (Task) 來分類

參考資料


歡迎追蹤我的 IG 和 Facebook

2022 年 Kaggle 資料科學 & 機器學習現況調查

每年底 Kaggle 都會在網站上做問卷調查,去年底的調查總共收集了 23,997 份來自 173 個不同國家的回覆,我這次用圖文整理翻譯了一些重點。

  1. 1. Kaggle 數據競賽平台現況
  2. 2. 性別趨勢
  3. 3. 居住地
  4. 4. 程式語言熱門度
  5. 5. IDE 工具熱門度
  6. 6. 雲端筆記本
  7. 7. 機器學習框架
  8. 8. Transformer
  9. 9. 雲端服務
  10. 10. Tensor Processing Unit (TPU) 
  11. 參考資料

1. Kaggle 數據競賽平台現況

  • 資料科學家 > 1000 萬名
  • ML 競賽 300+ 場
  • 公開資料集數量 > 17 萬
  • 公開程式碼數量 > 75 萬

2. 性別趨勢

資料科學產業依然維持著性別高度不平衡的狀況

閱讀更多»