AWS Certified Machine Learning - Specialty
2.4 MLS-C01
? 領(lǐng)域1:數(shù)據(jù)工程(計(jì)分內(nèi)容的20%)
? 領(lǐng)域2:探索性數(shù)據(jù)分析(計(jì)分內(nèi)容的24%)
? 領(lǐng)域3:建?!从?jì)分內(nèi)容的36%)
? 領(lǐng)域4:機(jī)器學(xué)習(xí)實(shí)施和操作(計(jì)分內(nèi)容的20%)
任務(wù)表述1.1:主為ML創(chuàng)建數(shù)據(jù)存儲(chǔ)庫(kù)。
? 確定數(shù)據(jù)源〈例如,內(nèi)容和位置,用戶數(shù)據(jù)等主要來(lái)源)。
? 確定存儲(chǔ)介質(zhì)(例如,數(shù)據(jù)庫(kù)、AmazonS3、AmazonElasticFileSystem
[AmazonEFS]、AmazonElasticBlockStOre[AmazonEBS])
任務(wù)表述1.2:確定并實(shí)施數(shù)據(jù)提取解決方案。
? 確定數(shù)據(jù)任務(wù)方式和任務(wù)類(lèi)型(例如,批量加載、流式處理)。
? 編排數(shù)據(jù)攝取管道〈基于批處理的ML工作負(fù)載和基于流式處理的ML工作
負(fù)載)。
?AmazonKinesis
?AmazonDataFirehose
?AmazonEMR
?AWSGlue
?適用于ApacheFlink的亞馬遜托管服務(wù)
? 安排任務(wù)。
任務(wù)表述1.3:確定并實(shí)施數(shù)據(jù)轉(zhuǎn)換解決方案。
? 轉(zhuǎn)換傳輸中的數(shù)據(jù)〈ETL、AWSGlue、AmazonEMR、AWSBatch)
? 使用MapReduce處理特定于ML的數(shù)據(jù)(例如ApacheHadoop、Apache
Spark、ApacheHive)。
任務(wù)表述2.1:主清理和準(zhǔn)備數(shù)據(jù)進(jìn)行建模。
? 確定和處理缺少的數(shù)據(jù)、損壞的數(shù)據(jù)和停用詞等。
? 格式化、標(biāo)準(zhǔn)化、擴(kuò)充和擴(kuò)展數(shù)據(jù)。
? 確定是否有足夠的已標(biāo)記數(shù)據(jù)。
?確定緩解策略。
?使用數(shù)據(jù)標(biāo)記工具〈例如,AmazonMechanicalTurk)
任務(wù)表述2.2:之執(zhí)行特征工程。
? 從數(shù)據(jù)集(包括從文本、語(yǔ)音、圖像和公開(kāi)數(shù)據(jù)集等數(shù)據(jù)來(lái)源)中識(shí)別和提耶
特征。
? 分析和評(píng)估特征工程概念〈例如,分箱、令牌化、異常值、合成特征、獨(dú)熱
編碼、降低數(shù)據(jù)維度)。
任務(wù)表述2.3:分析和可視化數(shù)據(jù),進(jìn)行ML處理。
? 創(chuàng)建圖形(例如,散點(diǎn)圖、時(shí)間序列圖、直方圖、箱線圖)。
? 解釋描述性統(tǒng)計(jì)數(shù)據(jù)(例如,相關(guān)性、匯總統(tǒng)計(jì)數(shù)據(jù)、p值)。
? 執(zhí)行聚類(lèi)分析(例如,分層分析、診斷、肘圖、聚類(lèi)大?。?br />
任務(wù)表述3.1:主將業(yè)務(wù)問(wèn)題轉(zhuǎn)換為ML問(wèn)題。
? 確定何時(shí)使用以及何時(shí)不使用MLO
? 了解有監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)的區(qū)別。
? 從分類(lèi)、回歸、預(yù)測(cè)、聚類(lèi)、建議以及基礎(chǔ)模型中進(jìn)行選擇。
任務(wù)表述3.2:為給定ML問(wèn)題選擇相應(yīng)的模型。
? XGBoost、邏輯回歸、k-means、線性回歸、決策樹(shù)、隨機(jī)森林、
? CNN、集成學(xué)習(xí)、遷移學(xué)習(xí),以及大型語(yǔ)言模型(LLM)
? 表達(dá)模型背后的直觀感受。
任務(wù)表述3.3:訓(xùn)練ML模型。
? 拆分?jǐn)?shù)據(jù)分別用于訓(xùn)練和驗(yàn)證(例如,交叉驗(yàn)證)。
? 了解ML訓(xùn)練的優(yōu)化技術(shù)(例如,梯度下降、損失函數(shù)、收斂)。
? 選擇合適的計(jì)算資源(例如GPU或CPU,分布式或非分布式)。
?選擇合適的計(jì)算平臺(tái)(Spark或非Spark)
? 更新和重新訓(xùn)練模型。
?批量或?qū)崟r(shí)/線上
任務(wù)表述3.4:執(zhí)行超參數(shù)優(yōu)化。
? 執(zhí)行正則化。
?隨機(jī)失活
?L1/L2
? 執(zhí)行交叉驗(yàn)證。
? 初始化模型。
? 了解神經(jīng)網(wǎng)絡(luò)架構(gòu)(層和節(jié)點(diǎn))、學(xué)習(xí)率、激活函數(shù)。
? 了解基于樹(shù)的模型(樹(shù)數(shù)量、級(jí)別數(shù)量)。
? 了解線性模型(學(xué)習(xí)率)。
任務(wù)表述3.5:評(píng)估ML模型。
? 避免過(guò)擬合或欠擬合
?檢測(cè)和處理偏差和方差。
? 評(píng)估指標(biāo)(例如,曲線下面積[AUC]·接受者操作特性[ROC]、準(zhǔn)確率、
查準(zhǔn)率、查全率、均方根誤差[RMSE]、FI分?jǐn)?shù))。
? 解釋混淆矩陣。
? 執(zhí)行脫機(jī)和聯(lián)機(jī)模型評(píng)估(A/B測(cè)試)。
? 使用指標(biāo)(例如,訓(xùn)練模型的時(shí)間、模型質(zhì)量、工程成本)比較模型。
? 執(zhí)行交叉驗(yàn)證。
任務(wù)表述4.1:主針對(duì)性能、可用性、可擴(kuò)展性、彈性和容錯(cuò)能力構(gòu)建ML解決方案。
? 記錄和監(jiān)控AWS環(huán)境。
?AWSCloudTrail和AmazonCIoudWatch
?構(gòu)建錯(cuò)誤監(jiān)控解決方案。
? 部署到多個(gè)AWS區(qū)域和多個(gè)可用區(qū)。
? 創(chuàng)建AMI和黃金映像。
? 創(chuàng)建Docker容器。
? 部署AutoScaling組。
? 合理調(diào)整資源大小(例如,實(shí)例、預(yù)置IOPS、卷)。
? 執(zhí)行負(fù)載均衡。
? 遵循AWS最佳實(shí)踐。
任務(wù)表述4.2:針對(duì)給定問(wèn)題建議和實(shí)施相應(yīng)的ML服務(wù)和功能。
? AWS上的機(jī)器學(xué)習(xí)(應(yīng)用程序服務(wù)),例如:
?AmazonPOlly
?AmazonLex
?AmazonTranscribe
?AmazonQ
? 了解AWS服務(wù)配額。
? 確定何時(shí)構(gòu)建自定義模型以及何時(shí)使用AmazonSageMaker內(nèi)置算法。
? 了解AWS基礎(chǔ)設(shè)施(例如,實(shí)例類(lèi)型)以及與成本相關(guān)的注意事項(xiàng)。
?使用競(jìng)價(jià)型實(shí)例通過(guò)AWSBatch訓(xùn)練深度學(xué)習(xí)模型。
任務(wù)表述4.3:將基本AWS安全實(shí)踐應(yīng)用于ML解決方案。
? AWSldentityandAccessManagement(IAM)
? S3存儲(chǔ)桶策略
? 安全組
? VPC
? 加密和匿名化
任務(wù)表述4.4:部署和運(yùn)行ML解決方案。
? 公開(kāi)終端節(jié)點(diǎn)并與之進(jìn)行交互。
? 了解ML模型。
? 執(zhí)行A/B測(cè)試。
? 重新訓(xùn)練管道。
? 對(duì)ML模型進(jìn)行調(diào)試和故障排除。
?檢測(cè)和緩解性能下降。
?監(jiān)控模型性能。