AWS Certified Machine Learning Engineer – Associate
1.0 MLA-C01
?領域 1:機器學習 (ML) 的數據準備(占計分內容的 28%)
?領域 2: ML 模型開發(占計分內容的 26%)
?領域 3: ML 工作流的部署和編排(占計分內容的 22%)
?領域 4: ML 解決方案的監控、維護和安全保護(占計分內容的 24%)
任務表述 1.1:攝取和存儲數據。
掌握以下知識:
?數據格式和攝取機制(例如,經驗證和
未經驗證的格式、Apache Parquet、JSON、CSV、Apache ORC、Apache
Avro、RecordIO)
?如何使用核心 AWS數據來源(例如, Amazon S3、Amazon Elastic File
System [Amazon EFS]、適用于 NetApp ONTAP的 Amazon FSx)
?如何使用 AWS 流式數據來源來攝取數據(例如,Amazon Kinesis、Apache
Flink、Apache Kafka)
? AWS存儲選項,包括使用案例和權衡
具備以下技能:
?使用相關的 AWS服務選項(例如, Amazon S3 Transfer Acceleration、
Amazon EBS預調配 IOPS),從存儲(例如, Amazon S3、Amazon Elastic
Block Store [Amazon EBS]、Amazon EFS、Amazon RDS、Amazon
DynamoDB)中提取數據。
?根據數據訪問模式選擇合適的數據格式(例如 Parquet、JSON、CSV、ORC)
?將數據攝取到 Amazon SageMaker Data Wrangler和 SageMaker Feature Store
?合并多個來源中的數據(例如,使用編程技術、AWS Glue、Apache Spark)
?針對涉及容量和可擴展性的數據攝取和存儲問題,進行故障排除和調試
?根據成本、性能和數據結構,選擇初始的存儲
任務表述 1.2:轉換數據并執行特征工程。
掌握以下知識:
?數據清理和轉換技術(例如,檢測和處理異常值、填補缺失的數據、合并
數據、重復數據刪除)
?特征工程技術(例如,數據縮放和標準化、特征拆分、分箱、對數變換、
標準化)
?編碼技術(例如,獨熱編碼、二進制編碼、標簽編碼、令牌化)
?用于瀏覽、可視化或轉換數據和特征的工具(例如,SageMaker Data
Wrangler、AWS Glue、AWS Glue、AWS Glue DataBrew)
?轉換流式數據的服務(例如 AWS Lambda、Spark)
?數據注釋和標注服務,用于創建高質量的標注數據集
具備以下技能:
?使用 AWS工具(例如 AWS Glue、AWS Glue DataBrew、運行在
Amazon EMR 上的 Spark、SageMaker Data Wrangler)轉換數據
?使用 AWS工具(例如 SageMaker Feature Store)創建和管理特征
?使用 AWS服務(例如 SageMaker Ground Truth、Amazon Mechanical
Turk)驗證和標注數據
任務表述 1.3:確保數據完整性,以及準備數據用于建模。
掌握以下知識:
?數字、文本和圖像數據的預訓練偏差指標(例如,類不平衡 [CI]、標簽比例
差異 [DPL])
?解決數字、文本和圖像數據集中 CI 的策略(例如,合成數據生成、重新采樣)
?加密數據的技術
?數據分類、匿名化和掩蔽
?合規性要求的影響(例如,個人身份信息 [PII]、受保護的健康信息 [PHI]、
數據駐留)
具備以下技能:
?驗證數據質量(例如,使用 AWS Glue DataBrew和 AWS Glue數據質量自動
監測功能)
?使用 AWS工具(例如 SageMaker Clarify)識別數據中的偏差來源(例如,
選擇偏差、測量偏差)并采取緩解措施
?準備數據以減少預測偏差(例如,使用數據集拆分、隨機排列和擴充)
?配置數據以加載到模型訓練資源(例如,Amazon EFS、Amazon FSx)中
任務表述 2.1:選擇建模方法。
掌握以下知識:
? ML算法的功能以及正確用于解決業務問題
?如何使用 AWS 人工智能 (AI)服務(例如, Amazon Translate、Amazon
Transcribe、Amazon Rekognition、Amazon Bedrock)來解決特定的業務問題
?在模型選擇或算法選擇過程中如何考慮可解釋性
? SageMaker內置算法以及各算法的應用場景
具備以下技能:
?評估可用數據和問題復雜性,以便確定 ML解決方案的可行性
?比較和選擇適當的 ML模型或算法來解決特定問題
?選擇內置算法、基礎模型和解決方案模板(例如,在 SageMaker JumpStart
和 Amazon Bedrock 中)
?根據成本選擇模型或算法
?選擇 AI服務來解決常見的業務需求問題
任務表述 2.2:訓練和優化模型。
掌握以下知識:
?訓練過程中的要素(例如,紀元、步驟、批次大小)
?縮短模型訓練時間的方法(例如,提前停止、分布式訓練)
?影響模型大小的因素
?提高模型性能的方法
?正則化技術的優點(例如,隨機失活、權重衰減、L1 和 L2)
?超參數優化技術(例如,隨機搜索、貝葉斯優化)
?模型超參數及其對模型性能的影響(例如,基于樹的模型中的樹數量、神經
網絡中的層數)
?將在 SageMaker之外構建的模型集成到 SageMaker中的方法
具備以下技能:
?使用 SageMaker內置算法和常用 ML庫開發 ML模型
?使用 SageMaker腳本模式和支持 SageMaker的框架來訓練模型(例如
TensorFlow、PyTorch)
?使用自定義數據集微調預訓練模型(例如 Amazon Bedrock、SageMaker
JumpStart)
?執行超參數優化(例如,使用 SageMaker自動模型優化 [AMT])
?集成自動超參數優化功能
?防止模型過度擬合、欠擬合和災難性遺忘(例如,通過使用正則化技術、
特征選擇)
?組合多個訓練模型以提高性能(例如,集成、堆疊、提升)
?減小模型大小(例如,通過更改數據類型、修剪、更新特征選擇、壓縮)
?管理模型版本來實現可重復性以及用于審計(例如,使用 SageMaker模型
注冊表)
任務表述 2.3:分析模型性能。
掌握以下知識:
?模型評估技術和指標(例如,混淆矩陣、熱圖、F1 分數、準確率、查準率、
查全率、均方根誤差 [RMSE]、接收者操作特性 [ROC]、ROC 曲線下面積 [AUC])
?創建性能基準的方法
?識別模型過度擬合和欠擬合的方法
? SageMaker Clarify中提供的指標,用于深入了解 ML訓練數據和模型
?收斂問題
具備以下技能:
?選擇和解釋評估指標并檢測模型偏差
?評估在模型性能、訓練時間和成本之間的權衡
?使用 AWS服務執行可重復的實驗
?將影子變體的性能與生產變體的性能進行比較
?使用 SageMaker Clarify解釋模型輸出
?使用 SageMaker模型調試器調試模型收斂
任務表述 3.1:根據現有架構和要求選擇部署基礎設施。
掌握以下知識:
?部署最佳實踐(例如,版本控制、回滾策略)
? AWS部署服務(例如 SageMaker)
?實時和批量提供 ML模型的方法
?如何在生產環境和測試環境中預置計算資源(例如 CPU、GPU)
?部署端點的模型和端點要求(例如,無服務器端點、實時端點、異步端點、
批量推理)
?如何選擇合適的容器(例如,已提供容器或自定義容器)
?在邊緣設備上優化模型的方法(例如 SageMaker Neo)
具備以下技能:
?評估性能、成本和延遲權衡
?根據需求(例如 GPU或 CPU規格、處理器系列、聯網帶寬),選擇合適的
計算環境用于訓練和推理
?選擇合適的部署編排程序(例如 Apache Airflow、SageMaker Pipelines)
?選擇多模型或多容器部署
?選擇合適的部署目標(例如, SageMaker端點、Kubernetes、Amazon Elastic
Container Service [Amazon ECS]、Amazon Elastic Kubernetes Service
[Amazon EKS]、Lambda)
?選擇模型部署策略(例如,實時、批量)
任務表述 3.2:根據現有架構和要求創建基礎設施并編寫腳本。
掌握以下知識:
?按需資源和預置資源之間的區別
?如何比較擴展策略
?基礎設施即代碼 (IaC) 選項(例如 AWS CloudFormation、AWS Cloud
Development Kit [AWS CDK])的權衡和使用案例
?容器化概念和 AWS容器服務
?如何使用 SageMaker端點彈性伸縮策略來滿足可擴展性要求(例如,基于
需求、時間)
具備以下技能:
?應用最佳實踐來打造可維護、可擴展且經濟實惠的 ML解決方案(例如,
在 SageMaker端點上彈性伸縮、動態添加競價型實例、使用 Amazon EC2
實例、在端點后面使用 Lambda)
?自動預置計算資源,包括堆棧之間的通信(例如,使用 CloudFormation、
AWS CDK)
?構建和維護容器(例如, Amazon Elastic Container Registry [Amazon ECR]、
Amazon EKS、Amazon ECS,將自帶容器 [BYOC]與 SageMaker結合使用)
?在 VPC網絡中配置 SageMaker端點
?使用 SageMaker SDK部署和托管模型
?為彈性伸縮選擇特定的指標(例如,模型延遲、CPU利用率、每個實例的
調用數)
任務表述 3.3:使用自動編排工具來設置持續集成和持續交付 (CI/CD) 管道。
掌握以下知識:
? AWS CodePipeline、AWS CodeBuild 和 AWS CodeDeploy的功能與配額
?使用編排服務的數據攝取自動化和集成
?版本控制系統和基本用法(例如 Git)
? CI/CD原則以及如何將這些原則融入 ML工作流
?部署策略和回滾操作(例如,藍/綠、金絲雀、線性)
?代碼存儲庫和管道如何協同工作
具備以下技能:
? CodeBuild、CodeDeploy和 CodePipeline(包括各階段)的
配置和故障排除
?應用持續部署流程結構來調用管道(例如 Gitflow、GitHub Flow)
?使用 AWS服務來自動進行編排(例如,部署 ML模型、自動模型構建)
?配置訓練和推理作業(例如,使用 Amazon EventBridge規則、SageMaker
Pipelines、CodePipeline)
?在 CI/CD管道中創建自動化測試(例如,集成測試、單元測試、端到端測試)
?構建并集成用于重新訓練模型的機制
任務表述 4.1:監控模型推理。
掌握以下知識:
? ML模型中的漂移
?監控數據質量和模型性能的技術
?設計原則,用于與監控相關的 ML剖析
具備以下技能:
?監控用于生產的模型(例如,使用 SageMaker Model Monitor)
?監控工作流以檢測數據處理或模型推理中的異常或錯誤
?檢測可能影響模型性能的數據分布變化(例如,使用 SageMaker Clarify)
?使用 A/B測試監控用于生產的模型的性能
任務表述 4.2:監控和優化基礎設施與成本。
掌握以下知識:
? ML基礎設施的關鍵性能指標(例如,利用率、吞吐量、可用性、可擴展性、
容錯能力)
?用于解決延遲和性能問題的監控和可觀察性工具(例如, AWS X-Ray、
Amazon CloudWatch Lambda 洞察、 Amazon CloudWatch Logs Insights)
?如何使用 AWS CloudTrail 記錄、監控和調用重新培訓活動
?實例類型之間的差異及其如何影響性能(例如,內存優化型、計算優化型、
通用型、推理優化型)
?成本分析工具的功能(例如 AWS Cost Explorer、AWS賬單與成本管理、
AWS Trusted Advisor)
?成本跟蹤和分配技術(例如,資源標記)
具備以下技能:
?配置和使用工具,以便對資源進行故障排除和分析(例如,CloudWatch Logs、
CloudWatch警報)
?創建 CloudTrail 跟蹤記錄
?設置控制面板以監控性能指標(例如,使用 Amazon QuickSight、
CloudWatch控制面板)
?監控基礎設施(例如,使用 EventBridge事件)
?調整實例系列和大小(例如,使用 SageMaker Inference Recommender 和
AWS Compute Optimizer)
?監控并解決延遲和擴展問題
?準備基礎設施進行成本監控(例如,通過應用標記策略)
?對涉及成本和性能的容量問題進行故障排除(例如,預置并發、服務配額、
自動擴展)
?使用合適的成本管理工具(例如 AWS Cost Explorer、AWS Trusted Advisor、
AWS Budgets)來優化成本和設置成本配額
?通過選擇購買選項(例如,競價型實例、按需型實例、預留實例、SageMaker
節省計劃)來優化基礎設施成本