勞動市場也受戰爭影響?烏克蘭職缺數據分析與視覺化

國外有人使用 Tableau 分析了烏克蘭 190 萬筆的職缺數據,自從 2022 年 2 月俄羅斯入侵烏克蘭,整個勞動市場的職缺結構有明顯的變化

🔗 [Tableau] Big Data and Labour Market in Ukraine


大概整理了一下我從圖表上所看到的

🇺🇦 職缺數量

  • 整體明顯下降,今年 3 月相較於去年同期下降了 47%
Big Data and Labour Market in Ukraine
閱讀更多»

數據分析救星!3 個實用但常被忽略的 Google Colab 功能

相信很多人在做數據分析或資料清理的時候,都會使用 Google Colab、Jupyter Notebook 這些工具,其中 Colab 因為免安裝、易分享、可以跑 GPU 等等的特性,最近越來越多人在使用,老師們在線上課程教學上也很方便,但其實很多人不知道 Colab 有一些比較隱藏容易被忽略的實用功能,學會的話可以讓數據分析更加事半功倍唷!

Interactive Table (互動式表格)

原本的 Colab 表格就跟 Jupyter 表格是一樣的,如果要篩選或排序就要另外利用 Pandas 寫 sort_values、filter 或是 query 的語法,而我最近做爬蟲整理資料時發現,有個功能可以將原本的表格轉為互動式的,直接透過點按來做篩選、排序、分頁等等的效果。

這個功能預設是關閉的,有兩種方式可以轉換成互動式

  • 執行下列程式碼開啟/關閉功能(建議)
from google.colab import data_table
# 開啟功能
data_table.enable_dataframe_formatter()
# 關閉功能
data_table.disable_dataframe_formatter()
  • 在表格輸出後,點擊表格右上方的按鈕

轉換按鈕如下圖的紅框處,但這方法需要每次表格產出時都按一次,如果想要每個表格都直接產出互動式表格的話,還是建議執行上面的程式碼來一次搞定~

轉換後的互動式表格會長下方這樣

閱讀更多»

2021 年的「資料工程師」有哪些常見的技能需求?

前言

近期因為轉換工作面試了不少公司的資料工程師

面試流程不外乎就是「自介」+「考試」+「問問題」

在問問題的環節經常被問到會不會使用某些工具

以下大概整理一下我面試 Data Engineer 最常被問到的幾項技術

閱讀更多»

成為新創公司的資料科學家前必須了解的 5 件事


這是一篇聽了台灣資料科學社群的線上版聚後,對於新創部分很有共鳴,結合講者分享的內容和個人心得而寫出來的文章

新創公司有很多特色,像是希望員工有即戰力、產品和專案迭代快、商業模式仍在探索、系統化運作部分也可能還處於建置階段,聽起來是個充滿挑戰和未知的環境,但工作上其實有非常多會讓人感到困惑和挫折的事情。

資料科學本身就是個很多未知在前方等待的探索性科學,所以新創公司+資料科學就等於挑戰又再更上一層樓,今天在線上版聚聽了 Tomorrow.io 的前輩也剛好分享到這一部分,於是決定加上一些個人想法在這紀錄一下。

1. 經常忙著救火

數據就是要拿來解決商業問題,其實本身就帶有救火的概念,但在新創公司,有時是一場森林大火、有時是到處都突然出現星星之火,不論手上有多少專案,老闆一定都會請資料科學家也下來幫忙解決,可能是臨時整理數據來建議策略,也可能是跟後端協作幫忙修正程式,因此講者也有說到:「新創的資料科學家常常 Engineer 的部分比 Science 還要多。」

2. 產品專案迭代快、無法長期或深入進行開發

這部分講者提到:「經常一個研究做到一半就有新的工作派進來,很多事情的 deadline 可能只有到一兩週,最多最多也只有到一季」

個人覺得滿有感,我可能今天剛把電商訂單數據的 ETL 做完,馬上公司就說現在需要知道會員輪廓、建立 CDP (Customer Data Platform)、或是某某活動合作需要看宣傳成效,那前面的電商數據就必須先放置,著手進行下一個可能是更重要、也可能只是公司突發奇想的專案。

閱讀更多»

淺談異常值在資料分析中的重要性

網路上資料分析的課程,遇到像是空值都會教如何去補,用平均值、眾數或往前往後補等等,但遇到異常值 (outlier) 的時候,通常都是教如何判斷並刪除,像是超過三倍標準差就踢除掉之類的方法,但在真實世界中,出現這些異常值都是有原因的,好好思考異常值背後的原因和意義,甚至比一般值的分析還要來得重要。

異常值帶給我的反思

以我個人在數位媒體做資料分析的經驗,有一次在分析 Facebook 粉絲專頁洞察報告時,就發現某個月有 2 篇貼文觸及人數異常地高,是其他貼文的 10 倍以上,不禁讓我反思,在這茫茫數據中出現如此明顯的異常值,真的該按照 SOP 把他們刪掉嗎?

閱讀更多»