AWS Glue 數據目錄是 AWS Glue 服務的一個組件,同時它也是一項托管式服務,可用于存儲、注釋和共享 AWS 云中的元數據。可以使用爬網程序填充 Data Catalog,它會自動掃描您的數據來源并提取元數據。爬網程序可以連接到 AWS 內部(基于 AWS)和外部的數據來源。
元數據存儲庫
Data Catalog 充當中央元數據存儲庫,存儲有關數據來源的位置、架構和屬性的信息。該元數據被組織成數據庫和表,類似于傳統的關系數據庫目錄。
自動發現數據
通過對數據來源進行編目,Data Catalog 能讓用戶和應用程序更輕松地發現和了解組織內的可用數據資產,從而促進數據的重用和協作。
架構管理
可以使用 AWS Glue ETL 任務在 Data Catalog 中更新架構和分區。
表優化
可以使用 AWS Glue 控制臺、AWS Lake Formation 控制臺、AWS CLI 或 AWS API 為 Data Catalog 中的單個 Iceberg 表啟用或禁用壓縮。
列統計數據
無需設置其他數據管道,即可為 Parquet、ORC、JSON、ION、CSV 和 XML 等數據格式的 Data Catalog 表計算列級別的統計數據。
數據沿襲
Data Catalog 保留對數據執行的轉換和操作的記錄,并提供數據沿襲信息。這些沿襲信息對于審核、合規和了解數據的來源非常有價值。
AWS Glue Data Catalog (數據目錄)是一個集中式存儲庫,用于存儲有關組織數據集的元數據。它充當數據來源的位置、架構和運行時相關指標的索引。元數據存儲在元數據表中,其中每個數據表都代表一個單一數據存儲。也可以根據自身的特定要求,通過定義表結構、架構和分區結構在 Data Catalog 中手動創建表。