雲端架構部署救星!介紹 Terraform 是如何大幅改善雲端基礎建設的建立流程

  1. 過去在建立基礎架構時有許多痛點
  2. Terraform 是什麼?
  3. Terraform 如何運作
  4. Terraform 基本檔案結構
    1. providers.tf
    2. main.tf
      1. BigQuery Dataset
      2. BigQuery Tables
      3. Pub/Sub Topic
      4. Pub/Sub Subscriptions
    3. variables.tf
    4. terraform.tfvars
    5. outputs.tf
  5. 總結
    1. Terraform 注意事項與缺點
    2. Terraform 帶來的好處
  6. 後記
  7. 參考資料

過去在建立基礎架構時有許多痛點

當我們想要在雲端上建立各種服務時,通常都是透過 UI 的方式進行,但當架構越來越複雜,甚至還需要整組搬遷的時候,就會遇到很多困難,例如重新設定後可能剛好忘記 region 是設在哪、這個專案是用哪一個 Docker image,或這台機器的規格到底是幾個 CPU 多少記憶體。

整體來說,傳統建立基礎架構時會遇到以下的痛點

  • UI 操作過程繁雜
  • 大量人工操作,易出錯且難以維持一致性,增加除錯時間
  • 難以自動化,導致部署效率低
  • 無法版本控管、追蹤變更,增加操作風險
  • 無法重複利用,缺乏模組化設計,每次建立的成本都很高

所以我們過去在建立基礎架構時,常常需要花費大量時間與人力,效率太差,甚至可能會有許多都是重複性高的操作,而 Terraform 就是可以解決這些痛點的重要工具。

Terraform 是什麼?

Terraform 是一種「基礎架構即程式碼」工具 (Infrastructure as Code, Iac) ,讓我們使用人類易讀的設定檔中定義雲端和地端資源,並可對這些檔案進行版本控管、可重複使用和分享共用,讓所有基礎架構能在配置和管理上達成一致。

Terraform 如何運作

Terraform 主要是透過 Providers 來跟特定的雲端 API 做溝通,例如 GCP providers, AWS providers 等

在使用 Terraform 時主要有三個步驟:

閱讀更多»

UNION ALL 語法其實有陷阱?介紹 BigQuery 最新的 UNION ALL BY NAME

  1. SQL 中的 UNION ALL 其實有陷阱?
  2. UNION ALL 實際上會造成什麼問題?
  3. BigQuery 新功能 – UNION ALL BY NAME
  4. 總結
  5. 補充資料 – CORRESPONDING 語法
  6. 參考資料

SQL 中的 UNION ALL 其實有陷阱?

在查詢結構化資料庫時,常會使用到一個 SQL 語法:UNION ALL,但其實這個語法背後有一個很大的坑,就是在合併資料時,UNION ALL 其實會按照 SELECT 的順序來合併 (Positional 特性) ,所以當欄位資料型態一樣時,資料就會無視欄位名稱被按照順序合併起來。

按照順序來合併資料是什麼意思呢?
讓我們看一下範例

UNION ALL 實際上會造成什麼問題?

在這個範例中,我們想要讓名稱為 NumberEmoji 分別 UNION 在各自的欄位,由於這些值都是字串型態,所以 UNION ALL 是會成功執行的,但我們會發現結果並不是我們想要的那樣,因為我們的 SQL 中 SELECT 欄位的順序是錯的,UNION ALL 並不會自動幫我們依據欄位名稱去合併,這個問題除了 BigQuery 之外,其他資料庫像是 MySQL 或 PostgreSQL 也會有一樣的情況

BigQuery 新功能 – UNION ALL BY NAME

閱讀更多»

【GCP】如何建立與使用一個具有 IAM 權限控管的 Cloud Run Service

  1. Step 1: 建立 Docker image 並上傳到 GCP Artifact Registry
  2. Step 2: 部署 Cloud Run 並設定 Security
  3. Step 3: 確認 IAM permission
  4. Step 4: 取得 ID Token
  5. Step 5: 將 token 帶入 Request Headers

本文說明如何建立一個有鎖 IAM 權限的 GCP Cloud Run Service/Job 並使用 Python 送 Request

Step 1: 建立 Docker image 並上傳到 GCP Artifact Registry

1. 先使用 gcloud 指令進行身份驗證

    登入並授權 gcr.io,才能順利將 image 下載到本機(如果是直接使用 GCP Cloud Shell 就可以不用這一步)

      2. 建立 Docker Image 並推送到 GCP Artifact Registry

        • --platform linux/amd64: 如果是在非 linux 的作業系統(如:MacOS, Windows)中進行 image build 就需要另外指定 image 系統,不然會無法在 Cloud Run 上順利運行

        Step 2: 部署 Cloud Run 並設定 Security

        前往 GCP Artifact Registry 找到剛剛推上去的 Image,並將 image 部署到 Cloud Run(點擊如下圖的 Deploy to Cloud Run)

        部署後可以在該 Cloud Run Service 的 Security 頁面看到預設是 Require authentication (Manage authorized users with Cloud IAM),代表只有 IAM 許可的人可以呼叫這個 Service

        Step 3: 確認 IAM permission

        閱讀更多»

        資料傳輸效能提升 70%!實測 GCP 的 gcloud storage 與 gsutil 指令的差異

        1. 前言
        2. 什麼是 gsutil 指令?
        3. 什麼是 gcloud 指令?
        4. 官方建議使用 gcloud storage 取代 gsutil
        5. 自行實測結果
          1. 實測環境
          2. 實測結果表
          3. 實測 1:複製一個 249.1 MiB 小型檔案
            1. gsutil cp: 5.4 sec
            2. gcloud storage cp: 3.2 sec ( Speed Up 40% )
          4. 實測 2:複製一個 1.0 GiB 大型檔案
            1. gsutil cp: 24 sec
            2. gcloud storage cp: 6.3 sec ( Speed Up 74% )
        6. 總結
        7. 補充資料

        前言

        在資料工程師的工作中,常會使用雲端 Google Cloud Platform (GCP) 的 Google Cloud Storage (GCS) 作為 Data Lake 儲存一些非結構化資料,而操作 GCS 的指令我都是用 gsutil 來進行,但近期發現有另一個指令是 gcloud storage ,所以這篇文章記錄我針對這兩種指令實測後發現的差異,以及官方文件的建議。

        什麼是 gsutil 指令?

        • gsutil 是一個 Python application,主要用來讓使用者可以透過 Command Line 操作 Cloud Storage,操作包含:
          • Creating and deleting buckets.
          • Uploading, downloading, and deleting objects.
          • Listing buckets and objects.
          • Moving, copying, and renaming objects.
          • Editing object and bucket ACLs.

        什麼是 gcloud 指令?

        • gcloud 是 GCP 主要的 CLI 工具,用途更廣不限於 GCS,操作包含:
          • Manages authentication, local configuration and developer workflow.
          • Interactions with the Google Cloud APIs.
        閱讀更多»