國外有人使用 Tableau 分析了烏克蘭 190 萬筆的職缺數據,自從 2022 年 2 月俄羅斯入侵烏克蘭,整個勞動市場的職缺結構有明顯的變化
🔗 [Tableau] Big Data and Labour Market in Ukraine
大概整理了一下我從圖表上所看到的
🇺🇦 職缺數量
- 整體明顯下降,今年 3 月相較於去年同期下降了 47%

國外有人使用 Tableau 分析了烏克蘭 190 萬筆的職缺數據,自從 2022 年 2 月俄羅斯入侵烏克蘭,整個勞動市場的職缺結構有明顯的變化
🔗 [Tableau] Big Data and Labour Market in Ukraine
大概整理了一下我從圖表上所看到的

相信很多人在做數據分析或資料清理的時候,都會使用 Google Colab、Jupyter Notebook 這些工具,其中 Colab 因為免安裝、易分享、可以跑 GPU 等等的特性,最近越來越多人在使用,老師們在線上課程教學上也很方便,但其實很多人不知道 Colab 有一些比較隱藏容易被忽略的實用功能,學會的話可以讓數據分析更加事半功倍唷!
原本的 Colab 表格就跟 Jupyter 表格是一樣的,如果要篩選或排序就要另外利用 Pandas 寫 sort_values、filter 或是 query 的語法,而我最近做爬蟲整理資料時發現,有個功能可以將原本的表格轉為互動式的,直接透過點按來做篩選、排序、分頁等等的效果。
這個功能預設是關閉的,有兩種方式可以轉換成互動式
轉換按鈕如下圖的紅框處,但這方法需要每次表格產出時都按一次,如果想要每個表格都直接產出互動式表格的話,還是建議執行上面的程式碼來一次搞定~

轉換後的互動式表格會長下方這樣

近期因為轉換工作面試了不少公司的資料工程師
面試流程不外乎就是「自介」+「考試」+「問問題」
在問問題的環節經常被問到會不會使用某些工具
以下大概整理一下我面試 Data Engineer 最常被問到的幾項技術
閱讀更多»
這是一篇聽了台灣資料科學社群的線上版聚後,對於新創部分很有共鳴,結合講者分享的內容和個人心得而寫出來的文章
新創公司有很多特色,像是希望員工有即戰力、產品和專案迭代快、商業模式仍在探索、系統化運作部分也可能還處於建置階段,聽起來是個充滿挑戰和未知的環境,但工作上其實有非常多會讓人感到困惑和挫折的事情。
資料科學本身就是個很多未知在前方等待的探索性科學,所以新創公司+資料科學就等於挑戰又再更上一層樓,今天在線上版聚聽了 Tomorrow.io 的前輩也剛好分享到這一部分,於是決定加上一些個人想法在這紀錄一下。
數據就是要拿來解決商業問題,其實本身就帶有救火的概念,但在新創公司,有時是一場森林大火、有時是到處都突然出現星星之火,不論手上有多少專案,老闆一定都會請資料科學家也下來幫忙解決,可能是臨時整理數據來建議策略,也可能是跟後端協作幫忙修正程式,因此講者也有說到:「新創的資料科學家常常 Engineer 的部分比 Science 還要多。」
這部分講者提到:「經常一個研究做到一半就有新的工作派進來,很多事情的 deadline 可能只有到一兩週,最多最多也只有到一季」
個人覺得滿有感,我可能今天剛把電商訂單數據的 ETL 做完,馬上公司就說現在需要知道會員輪廓、建立 CDP (Customer Data Platform)、或是某某活動合作需要看宣傳成效,那前面的電商數據就必須先放置,著手進行下一個可能是更重要、也可能只是公司突發奇想的專案。
閱讀更多»
網路上資料分析的課程,遇到像是空值都會教如何去補,用平均值、眾數或往前往後補等等,但遇到異常值 (outlier) 的時候,通常都是教如何判斷並刪除,像是超過三倍標準差就踢除掉之類的方法,但在真實世界中,出現這些異常值都是有原因的,好好思考異常值背後的原因和意義,甚至比一般值的分析還要來得重要。
以我個人在數位媒體做資料分析的經驗,有一次在分析 Facebook 粉絲專頁洞察報告時,就發現某個月有 2 篇貼文觸及人數異常地高,是其他貼文的 10 倍以上,不禁讓我反思,在這茫茫數據中出現如此明顯的異常值,真的該按照 SOP 把他們刪掉嗎?
閱讀更多»