2021 年的「資料工程師」有哪些常見的技能需求?

前言

近期因為轉換工作面試了不少公司的資料工程師

面試流程不外乎就是「自介」+「考試」+「問問題」

在問問題的環節經常被問到會不會使用某些工具

以下大概整理一下我面試 Data Engineer 最常被問到的幾項技術

閱讀更多»

美國矽谷期刊 APAC CIO OUTLOOK 評選亞太區「2021 年 Top 10 大數據解決方案公司」

美國矽谷知名的期刊「 APAC CIO OUTLOOK」是一家專注為亞太地區提供技術領域專業資訊的知名雜誌,每年 12 月初都會評選出亞太地區「Top 10 大數據解決方案公司」

台灣今年有 3 家公司上榜

1. Aotter

這家公司是電獺,相信很多人應該只知道電獺少女對吧?(笑)

但其實他們旗下也是有數據相關的產品,就我所知有社群數據分析平台的服務,可以做熱門關鍵字分析。

順帶一提,這期雜誌的封面人物放的就是電獺的創辦人兼 CEO

2. Big Data

這家公司就像名字一樣,專注在大數據領域,比較知名的我覺得是一個叫做網路溫度計的網站,有很多不同分類的社群輿情分析

3. OneAD

主要做 AdTech 影音廣告技術公司,透過受眾識別的技術將廣告推給有興趣的人,目前台灣 14 歲以上的人,有 99.8% 都曾看過他們投放的廣告。

閱讀更多»

成為新創公司的資料科學家前必須了解的 5 件事


這是一篇聽了台灣資料科學社群的線上版聚後,對於新創部分很有共鳴,結合講者分享的內容和個人心得而寫出來的文章

新創公司有很多特色,像是希望員工有即戰力、產品和專案迭代快、商業模式仍在探索、系統化運作部分也可能還處於建置階段,聽起來是個充滿挑戰和未知的環境,但工作上其實有非常多會讓人感到困惑和挫折的事情。

資料科學本身就是個很多未知在前方等待的探索性科學,所以新創公司+資料科學就等於挑戰又再更上一層樓,今天在線上版聚聽了 Tomorrow.io 的前輩也剛好分享到這一部分,於是決定加上一些個人想法在這紀錄一下。

1. 經常忙著救火

數據就是要拿來解決商業問題,其實本身就帶有救火的概念,但在新創公司,有時是一場森林大火、有時是到處都突然出現星星之火,不論手上有多少專案,老闆一定都會請資料科學家也下來幫忙解決,可能是臨時整理數據來建議策略,也可能是跟後端協作幫忙修正程式,因此講者也有說到:「新創的資料科學家常常 Engineer 的部分比 Science 還要多。」

2. 產品專案迭代快、無法長期或深入進行開發

這部分講者提到:「經常一個研究做到一半就有新的工作派進來,很多事情的 deadline 可能只有到一兩週,最多最多也只有到一季」

個人覺得滿有感,我可能今天剛把電商訂單數據的 ETL 做完,馬上公司就說現在需要知道會員輪廓、建立 CDP (Customer Data Platform)、或是某某活動合作需要看宣傳成效,那前面的電商數據就必須先放置,著手進行下一個可能是更重要、也可能只是公司突發奇想的專案。

閱讀更多»

淺談異常值在資料分析中的重要性

網路上資料分析的課程,遇到像是空值都會教如何去補,用平均值、眾數或往前往後補等等,但遇到異常值 (outlier) 的時候,通常都是教如何判斷並刪除,像是超過三倍標準差就踢除掉之類的方法,但在真實世界中,出現這些異常值都是有原因的,好好思考異常值背後的原因和意義,甚至比一般值的分析還要來得重要。

異常值帶給我的反思

以我個人在數位媒體做資料分析的經驗,有一次在分析 Facebook 粉絲專頁洞察報告時,就發現某個月有 2 篇貼文觸及人數異常地高,是其他貼文的 10 倍以上,不禁讓我反思,在這茫茫數據中出現如此明顯的異常值,真的該按照 SOP 把他們刪掉嗎?

閱讀更多»

將 FastAPI 部署到 AWS API Gateway 教學(配合 Lambda 使用)

本文將教學如何把寫好的 FastAPI 程式碼,配合 AWS Lambda 部署到 API Gateway 上(包含詳細圖文解說 API Gateway 的設定)

前情提要

這篇文章會使用到 AWS Lambda 的函式,若還不清楚怎麼使用的話,推薦可以先看下面這篇文章再回來,如果正在閱讀文章的你已經會使用,那就可以直接往下看囉!

在 AWS Lambda 上使用 Python 第三方套件教學

流程步驟

  1. 建立 API
  2. 設定 API
    • 建立方法
    • 建立資源
  3. 部署 API
  4. 實際呼叫 API 測試

1. 建立 API

首先要確定自己要建立的區域,建議使用比較近的國家地區,例如:東京、大阪、新加坡或香港,因為這將會嚴重影響 API 的速度,我之前誤闖美國東部 Ohio (us-east-2),導致我在 GET / POST 都慢到懷疑人生,所以請先一定要選擇好!

接著就可以進入 AWS API Gateway 的頁面, API 類型選擇「REST API」並點選「建置」,若是第一次在這個國家地區建立 API 的話,會跳出一個教學視窗,大概看一看就可以按確定把它關掉了。

接下來會進入到以下頁面,此時預設可能是「範本 API」,請改成建立「新 API」,並且設定一個「API 名稱」,因為我的 API 是要來收集 cookie 的,所以我命名為 cookie_api,設定完成就可以按「建立 API」。

閱讀更多»