AWS Certified Data Engineer - Associate
1.1 DEA-C01
? 領域 1: 數據攝取和轉換(占評分內容的 34%)
? 領域 2: 數據存儲管理(占評分內容的 26%)
? 領域 3: 數據操作和支持(占評分內容的 22%)
? 領域 4: 數據安全與治理(占評分內容的 18%)
任務表述 1.1: 執行數據攝取。
掌握以下知識:
? 用于攝取數據的 AWS 服務的吞吐量和延遲特性
? 數據攝取模式(例如,頻率和數據歷史記錄)
? 流數據攝取
? 批量數據攝取(例如,計劃的攝取、事件驅動的攝取)
? 數據攝取管道的可重放性
? 有狀態和無狀態數據事務
具備以下技能:
? 從流數據源(例如,Amazon Kinesis、Amazon Managed Streaming for
Apache Kafka [Amazon MSK]、Amazon DynamoDB Streams、
AWS Database Migration Service [AWS DMS]、AWS Glue、
Amazon Redshift)讀取數據
? 從批量數據源(例如,Amazon S3、AWS Glue、Amazon EMR、AWS DMS、
Amazon Redshift、AWS Lambda、Amazon AppFlow)讀取數據
? 為批量攝取實施相應的配置選項
? 使用數據 API
? 使用 Amazon EventBridge、Apache Airflow 或基于時間的任務和爬網程序
計劃設置調度器
? 設置事件觸發器(例如,Amazon S3 事件通知、EventBridge)
? 從 Amazon Kinesis 中調用 Lambda 函數
? 為 IP 地址創建允許列表來允許連接到數據源
? 實施限流和解決速率限制問題(例如,DynamoDB、Amazon RDS、Kinesis)
? 管理流數據分配的扇入和扇出
任務表述 1.2: 轉換和處理數據。
掌握以下知識:
? 根據業務需求創建 ETL 管道
? 數據數量、速度和種類(例如,結構化數據、非結構化數據)
? 云計算和分布式計算
? 如何使用 Apache Spark 處理數據
? 中間數據暫存位置 具備以下技能:
? 根據性能需求優化容器使用情況(例如,Amazon Elastic Kubernetes Service
[Amazon EKS]、Amazon Elastic Container Service [Amazon ECS])
? 連接到不同的數據源(例如,Java 數據庫連接 [JDBC]、開放式數據庫連接
[ODBC])
? 整合來自多個來源的數據
? 在處理數據時優化成本
? 根據要求實施數據轉換服務(例如,Amazon EMR、AWS Glue、Lambda、
Amazon Redshift)
? 在不同格式之間轉換數據(例如,從 .csv 轉換到 Apache Parquet)
? 對常見的轉換失敗和性能問題進行故障排除和調試
? 創建數據 API,通過 AWS 服務向其他系統提供數據
任務表述 1.3: 編排數據管道。
掌握以下知識:
? 如何集成各種 AWS 服務來創建 ETL 管道
? 事件驅動型架構
? 如何根據計劃或依賴項為數據管道配置 AWS 服務
? 無服務器工作流
具備以下技能:
? 使用編排服務為 ETL 數據管道構建工作流(例如,Lambda、EventBridge、
Amazon Managed Workflows for Apache Airflow [Amazon MWAA]、
AWS Step Functions、AWS Glue 工作流)
? 構建數據管道來提高性能、可用性、可擴展性、恢復能力和容錯能力
? 實施和維護無服務器工作流
? 使用通知服務發送警報(例如,Amazon Simple Notification Service
[Amazon SNS]、Amazon Simple Queue Service [Amazon SQS])
任務表述 1.4: 應用編程概念。
掌握以下知識:
? 持續集成和持續交付 (CI/CD)(實施、測試和部署數據管道)
? SQL 查詢(用于數據源查詢和數據轉換)
? 用于可重復部署的基礎設施即代碼 (IaC)(例如,AWS Cloud Development Kit [AWS CDK]、AWS CloudFormation)
? 分布式計算
? 數據結構和算法(例如,圖形數據結構和樹數據結構)
? SQL 查詢優化
具備以下技能:
? 優化代碼來減少數據攝取和轉換的運行時間
? 配置 Lambda 函數來滿足并發性和性能需求
? 執行 SQL 查詢來轉換數據(例如,Amazon Redshift 存儲過程)
? 構建 SQL 查詢來滿足數據管道要求
? 使用 Git 命令執行創建、更新、克隆和分支存儲庫等操作
? 使用 AWS Serverless Application Model (AWS SAM) 打包和部署無服務器
數據管道(例如,Lambda 函數、Step Functions、DynamoDB 表)
? 從 Lambda 函數中使用和掛載存儲卷
任務表述 2.1: 選擇數據存儲。
掌握以下知識:
? 存儲平臺及其特性
? 滿足特定性能要求的存儲服務和配置
? 數據存儲格式(例如,.csv、.txt、Parquet)
? 如何將數據存儲與數據遷移要求保持一致
? 如何為特定訪問模式確定相應的存儲解決方案
? 如何管理鎖定來防止訪問數據(例如,Amazon Redshift 和 Amazon RDS)
具備以下技能:
? 根據特定成本和性能要求實施相應的存儲服務(例如,Amazon Redshift、
Amazon EMR、AWS Lake Formation、Amazon RDS、DynamoDB、
Amazon Kinesis Data Streams、Amazon MSK)
? 根據特定訪問模式和要求配置相應的存儲服務(例如,Amazon Redshift、
Amazon EMR、Lake Formation、Amazon RDS、DynamoDB)
? 將存儲服務應用于相應的使用案例(例如,Amazon S3)
? 將遷移工具集成到數據處理系統(例如,AWS Transfer Family)
? 實施數據遷移或遠程訪問方法(例如,Amazon Redshift 聯合查詢、
Amazon Redshift 物化視圖、Amazon Redshift Spectrum)
任務表述 2.2: 了解數據編目系統。
掌握以下知識:
? 如何創建數據目錄
? 根據要求對數據進行分類
? 元數據和數據目錄的組成部分
具備以下技能:
? 通過數據目錄使用數據源中的數據
? 構建和引用數據目錄(例如,AWS Glue 數據目錄、Apache Hive 元存儲)
? 查找架構并使用 AWS Glue 爬網程序填充數據目錄
? 將分區與數據目錄同步
? 創建新的源或目標連接進行編目(例如,AWS Glue)
任務表述 2.3: 管理數據的生命周期。
掌握以下知識:
? 利用相應的存儲解決方案來滿足冷熱數據要求
? 如何根據數據生命周期優化存儲成本
? 如何刪除數據來滿足業務和法律要求
? 數據留存策略和歸檔策略
? 如何使用相應的恢復能力和可用性保護數據
具備以下技能:
? 執行加載和卸載操作以在 Amazon S3 和 Amazon Redshift 之間移動數據
? 管理 S3 生命周期策略來更改 S3 數據的存儲層
? 使用 S3 生命周期策略使數據在到達特定期限時過期
? 管理 S3 版本控制和 DynamoDB TTL
任務表述 2.4: 設計數據模型和架構演變。
掌握以下知識:
? 數據建模概念
? 如何使用數據沿襲確保數據的準確性和可信度
? 索引編制、分區策略、壓縮和其他數據優化技術的最佳實踐
? 如何為結構化數據、半結構化數據和非結構化數據建模
? 架構演變技術
具備以下技能:
? 為 Amazon Redshift、DynamoDB 和 Lake Formation 設計架構
? 解決數據特性變化問題
? 執行架構轉換(例如,使用 AWS Schema Conversion Tool [AWS SCT] 和
AWS DMS Schema Conversion)
? 使用 AWS 工具(例如,Amazon SageMaker ML Lineage Tracking)
確定數據沿襲
任務表述 3.1: 使用 AWS 服務自動處理數據。
掌握以下知識:
? 如何維護數據處理和排除故障來獲得可重復的業務結果
? 用于數據處理的 API 調用
? 哪些服務接受腳本(例如,Amazon EMR、Amazon Redshift、AWS Glue)
具備以下技能:
? 編排數據管道(例如,Amazon MWAA、Step Functions)
? 故障排除 Amazon 托管工作流故障
? 通過代碼調用 SDK 來訪問 Amazon 功能
? 使用 AWS 服務功能處理數據(例如,Amazon EMR、Amazon Redshift、
AWS Glue)
? 使用和維護數據 API
? 準備數據轉換(例如,AWS Glue DataBrew)
? 查詢數據(例如,Amazon Athena)
? 使用 Lambda 自動處理數據
? 管理事件和調度器(例如 EventBridge)
任務表述 3.2: 使用 AWS 服務分析數據。
掌握以下知識:
? 權衡預置的服務和無服務器服務的利弊
? SQL 查詢(例如,帶有多個限定符或 JOIN 子句的 SELECT 語句)
? 如何將數據可視化來進行分析
? 何時以及如何應用清理技術
? 數據聚合、滾動平均值、分組和透視
具備以下技能:
? 使用 AWS 服務和工具(例如,AWS Glue DataBrew、Amazon QuickSight)
對數據進行可視化
? 驗證和清理數據(例如,Lambda、Athena、QuickSight、
Jupyter Notebooks、Amazon SageMaker Data Wrangler)
? 使用 Athena 查詢數據或創建視圖
? 使用通過 Apache Spark 查找數據的 Athena 筆記本
任務表述 3.3: 維護和監控數據管道。
掌握以下知識:
? 如何記錄應用程序數據
? 性能優化的最佳實踐
? 如何記錄對 AWS 服務的訪問
? Amazon Macie、AWS CloudTrail 和 Amazon CloudWatch
具備以下技能:
? 提取日志來進行審核
? 部署日志記錄和監控解決方案以便于審核和追溯
? 在監控期間使用通知發送警報
? 故障排除性能問題
? 使用 CloudTrail 跟蹤 API 調用
? 對管道進行故障排除和維護(例如,AWS Glue、Amazon EMR)
? 使用 Amazon CloudWatch Logs 記錄應用程序數據(側重于配置和自動化)
? 使用 AWS 服務(例如,Athena、Amazon EMR、
Amazon OpenSearch Service、CloudWatch Logs Insights、
大數據應用程序日志)分析日志
任務表述 3.4: 確保數據質量。
掌握以下知識:
? 數據采樣技術
? 如何實施數據偏斜機制
? 數據驗證(數據完整性、一致性和準確性)
? 數據分析
具備以下技能:
? 在處理數據時,運行數據質量檢查(例如,檢查空字段)
? 定義數據質量規則(例如,AWS Glue DataBrew)
? 調查數據一致性(例如,AWS Glue DataBrew)
任務表述 4.1: 應用身份驗證機制。
掌握以下知識:
? VPC 安全聯網概念
? 托管服務和非托管服務之間的差異
? 身份驗證方法(基于密碼、基于證書和基于角色)
? AWS 托管策略和客戶托管策略之間的差異
具備以下技能:
? 更新 VPC 安全組
? 創建和更新 IAM 組、角色、終端節點和服務
? 創建和輪換憑證來管理密碼(例如,AWS Secrets Manager)
? 設置 IAM 角色來進行訪問(例如,Lambda、Amazon API Gateway、
AWS CLI、CloudFormation)
? 將 IAM 策略應用于角色、終端節點和服務(例如,S3 訪問點、
AWS PrivateLink)
任務表述 4.2: 應用授權機制。
掌握以下知識:
? 授權方法(基于角色、基于策略、基于標簽和基于屬性)
? 適用于 AWS 安全性的最低權限原則
? 基于角色的訪問控制和預期的訪問模式
? 保護數據來防止在服務中進行未經授權訪問的方法
具備以下技能:
? 在托管策略不滿足需求時創建自定義 IAM 策略
? 存儲應用程序和數據庫憑證(例如,Secrets Manager、
AWS Systems Manager Parameter Store)
? 在數據庫中為數據庫用戶、組和角色提供訪問權限和授權(例如,
適用于 Amazon Redshift)
? 通過 Lake Formation 管理權限(適用于 Amazon Redshift、Amazon EMR、
Athena 和 Amazon S3)
任務表述 4.3: 確保數據加密和脫敏。
掌握以下知識:
? AWS 分析服務(例如,Amazon Redshift、Amazon EMR、AWS Glue)
中提供的數據加密選項
? 客戶端加密和服務器端加密之間的差異
? 保護敏感數據
? 數據匿名化、脫敏和密鑰加鹽
具備以下技能:
? 根據合規法律或公司策略應用數據脫敏和匿名化
? 使用加密密鑰加密或解密數據(例如,AWS Key Management Service [AWS
KMS])
? 配置跨 AWS 賬戶邊界的加密
? 為數據啟用傳輸中加密功能。
任務表述 4.4: 準備日志進行審核。
掌握以下知識:
? 如何記錄應用程序數據
? 如何記錄對 AWS 服務的訪問
? 集中式 AWS 日志
具備以下技能:
? 使用 CloudTrail 跟蹤 API 調用
? 使用 CloudWatch Logs 存儲應用程序日志
? 使用 AWS CloudTrail Lake 進行集中式日志記錄查詢
? 使用 AWS 服務(例如,Athena、CloudWatch Logs Insights、
Amazon OpenSearch Service)分析日志
? 集成各種 AWS 服務來執行日志記錄(例如,在具有大量日志數據時
集成 Amazon EMR)
任務表述 4.5: 了解數據隱私和監管。
掌握以下知識:
? 如何保護個人身份信息 (PII)
? 數據主權
具備以下技能:
? 授予數據共享權限(例如,Amazon Redshift 數據共享)
? 實施 PII 識別(例如,將 Macie 與 Lake Formation 一起使用)
? 實施數據隱私策略來防止將數據備份或復制到不允許的 AWS 區域
? 管理在賬戶中發生的配置更改(例如 AWS Config)