資料管線

Data Pipeline

數據從採集到模型輸入的處理流程

詳細解釋

資料管線(Data Pipeline)是自動化數據處理流程的系統,將數據從源頭提取、轉換並載入到目的地,確保數據的及時性和質量。

核心組件:

  • 提取(Extract):從多種數據源獲取數據
  • 數據庫:SQL/NoSQL查詢
  • API:RESTful、GraphQL
  • 文件:CSV、JSON、Parquet、日誌文件
  • 流:Kafka、事件串流 (Event Streaming)
  • 轉換(Transform):清洗和轉換數據
  • 資料預處理:清洗、標準化
  • 特徵工程:特徵創建
  • 聚合:統計計算、窗口函數
  • 模式轉換:數據格式統一

架構模式:

編排和監控:

現代資料管線:

  • 聲明式:定義「什麼」而非「如何」
  • 數據即代碼:版本控制、測試、CI/CD
  • 實時性:從批處理向流處理轉變
  • 自助服務:數據工程師和數據科學家協作

資料管線是現代數據驅動組織的基礎設施。

探索更多AI詞彙

查看所有分類,繼續學習AI知識