AWS Certified Generative AI Developer – Professional
1.0 AIP-C01
? 內容領域 1:基礎模型集成、數據管理和合規(guī)性(計分內容的 31%)
? 內容領域 2:實施和集成(計分內容的 26%)
? 內容領域 3:AI安全、保障與監(jiān)管(計分內容的 20%)
? 內容領域 4:GenAI應用程序的運營效率和優(yōu)化(計分內容的 12%)
? 內容領域 5:測試、驗證和故障排除(計分內容的 11%)
任務 1.1:分析需求,設計 GenAI解決方案。
技能 1.1.1:根據具體業(yè)務需求和技術限制,創(chuàng)建全面的架構設計(例如,使用
合適的基礎模型、集成模式、部署策略)。
技能 1.1.2:開發(fā)技術概念驗證實施方案,來驗證可行性、性能特征和商業(yè)價值,
然后進行全面部署(例如,使用 Amazon Bedrock)。
技能 1.1.3:創(chuàng)建標準化技術組件,確保跨多個部署場景中實現一致的實施(例如,
使用 AWS Well-Architected Framework、AWS WA 工具生成式人工智能剖析)。
任務 1.2:選擇并配置基礎模型。
技能 1.2.1:評估和選擇基礎模型,確保很好地契合特定的業(yè)務使用案例和技術要求
(例如,使用性能基準、能力分析、限制評估等)。
技能 1.2.2:創(chuàng)建靈活的架構模式,可以動態(tài)選擇模型和切換提供商,而且無需修改
代碼(例如,使用 AWS Lambda、Amazon API Gateway、AWS AppConfig)。
技能 1.2.3:設計具備彈性的 AI系統,可確保服務中斷期間的持續(xù)運行(例如,使用
AWS Step Functions斷路器模式,針對在有限區(qū)域提供的模型使用 Amazon Bedrock
跨區(qū)域推理,跨區(qū)域模型部署,優(yōu)雅降級策略)。
技能 1.2.4:實施基礎模型自定義部署和生命周期管理(例如,使用 Amazon
SageMaker人工智能,部署特定于領域的經過微調的模型;低秩自適應 [LoRA] 等
參數-效率自適應技術和用于模型部署的適配器;用于版本控制和部署自定義模型的
SageMaker模型注冊表;用于更新模型的自動部署管道;失敗部署的回滾策略;
管理生命周期來停用和替換模型)。
任務 1.3:實施數據驗證和處理管道,用于基礎模型的使用。
技能 1.3.1:創(chuàng)建全面的數據驗證工作流,確保數據符合質量標準以便供基礎模型
使用(例如,使用 AWS Glue數據質量自動監(jiān)測功能、 SageMaker Data Wrangler、
自定義 Lambda 函數、 Amazon CloudWatch指標)。
技能 1.3.2:創(chuàng)建數據處理工作流來處理復雜的數據類型,包括文本、圖像、音頻和表格
數據等,這些數據在用于基礎模型時有專門的處理要求(例如,使用 Amazon Bedrock
多模態(tài)模型、SageMaker Processing、AWS Transcribe、高級多模態(tài)管道架構)。
技能 1.3.3:根據特定于模型的要求,為基礎模型推理設置輸入數據的格式(例如,為
Amazon Bedrock API 請求使用 JSON格式,適用于 SageMaker人工智能終端節(jié)點的
結構化數據準備,為基于對話的應用程序使用對話格式)。
技能 1.3.4:改善輸入數據質量以提高基礎模型回復的質量和一致性(例如,使用
Amazon Bedrock重新格式化文本,使用 Amazon Comprehend提取實體,使用
Lambda 函數對數據進行標準化)。
任務 1.4:設計和實施向量存儲解決方案。
技能 1.4.1:創(chuàng)建專門用于基礎模型增強的高級向量數據庫架構,實現超越傳統搜索
功能的高效語義檢索(例如,使用 Amazon Bedrock 知識庫實現分層組織;使用
帶 Neural 插件的 Amazon OpenSearch Service用于 Amazon Bedrock集成,來進行
基于主題的分割; Amazon RDS 與 Amazon S3文檔存儲庫結合使用; Amazon
DynamoDB與向量數據庫結合使用來處理元數據和嵌入)。
技能 1.4.2:開發(fā)全面的元數據框架,提高基礎模型交互的搜索查準率和上下文感知
能力(例如,使用 S3 對象元數據作為文檔時間戳,用于創(chuàng)作者信息的自定義屬性,
使用標記系統進行領域分類)。
技能 1.4.3:實施高性能向量數據庫架構,來大規(guī)模優(yōu)化語義搜索性能以便用于基礎
模型檢索(例如,使用 OpenSearch分片策略,針對專用領域的多索引方法,分層
索引技術)。
技能 1.4.4:使用 AWS服務創(chuàng)建集成組件來連接資源(例如,文檔管理系統,知識
庫,用于 GenAI 應用程序中全面數據集成的內部 wiki)。
技能 1.4.5:設計和部署數據維護系統,確保向量存儲包含當前的準確信息,以便
用于基礎模型增強(例如,使用遞增更新機制、實時更改檢測系統、自動同步
工作流、定期刷新管道)。
任務 1.5:設計用于增強基礎模型的檢索機制。
技能 1.5.1:開發(fā)高效的文檔分割方法來優(yōu)化檢索性能,用于基礎模型上下文增強
(例如,使用 Amazon Bedrock 分塊功能,使用 Lambda 函數實施固定大小分塊,
根據內容結構采用分層式分塊的自定義處理)。
技能 1.5.2:選擇和配置優(yōu)化的嵌入解決方案,為語義搜索高效地創(chuàng)建向量表示
(例如,使用基于維度和領域擬合的 Amazon Titan嵌入,評估 Amazon Bedrock嵌入
模型的性能特征,使用 Lambda 函數批量生成嵌入)。
技能 1.5.3:部署和配置向量搜索解決方案,啟用語義搜索功能用于增強基礎模型
(例如,使用具有向量搜索功能的 OpenSearch Service,帶有 pgvector擴展的
Amazon Aurora,具有托管向量存儲功能的 Amazon Bedrock 知識庫)。
技能 1.5.4:創(chuàng)建高級搜索架構,提高針對基礎模型上下文檢索到的信息的相關性和
準確率(例如,使用 OpenSearch 進行語義搜索、結合使用關鍵字和向量的混合
搜索, Amazon Bedrock重排器模型)。
技能 1.5.5:開發(fā)先進的查詢處理系統來提高檢索有效性和結果質量,以便用于增強
基礎模型(例如,使用 Amazon Bedrock 進行查詢擴展,使用 Lambda 函數進行查詢
分解,使用 Step Functions進行查詢轉換)。
技能 1.5.6:創(chuàng)建一致的訪問機制,實現與基礎模型的無縫集成(例如,使用函數
調用接口進行向量搜索,使用模型上下文協議 [MCP]客戶端進行向量查詢,使用
標準化 API模式進行檢索增強)。
任務 1.6:為基礎模型交互實施提示工程策略和監(jiān)管措施。
技能 1.6.1:創(chuàng)建高效的模型指令框架來控制基礎模型的行為和輸出(例如,使用
Amazon Bedrock提示管理器強制實施角色定義,使用 Amazon Bedrock防護機制
強制實施負責任 AI指導原則,使用模板配置對回復進行格式化處理)。
技能 1.6.2:構建交互式 AI系統用于維護上下文并改善用戶與基礎模型的互動(例如,
Step Functions可用于澄清工作流, Amazon Comprehend可用于意圖識別,
DynamoDB可用于對話歷史記錄存儲)。
技能 1.6.3:實施全面的提示管理和監(jiān)管系統,對基礎模型操作進行監(jiān)督來確保實現
操作一致性(例如,使用 Amazon Bedrock 提示管理器創(chuàng)建參數化模板和審批
工作流,使用 Amazon S3存儲模板存儲庫,使用 AWS CloudTrail 跟蹤使用情況,
使用 Amazon CloudWatch Logs記錄訪問活動)。
技能 1.6.4:開發(fā)質量保證系統,確保基礎模型的提示有效性和可靠性(例如,使用
Lambda 函數驗證預期輸出,使用 Step Functions測試邊緣用例,使用 CloudWatch
測試提示回歸)。
技能 1.6.5:增強基礎模型性能,以迭代方式完善提示,并運用基本提示技巧之外的
技術來提高回復質量(例如,使用結構化輸入組件、輸出格式規(guī)范、思維鏈指令
模式、反饋循環(huán))。
技能 1.6.6:設計復雜的提示系統,利用基礎模型來處理復雜的任務(例如,使用
Amazon Bedrock提示工作流管理器執(zhí)行順序提示鏈,基于模型回復的有條件分支,
可重復使用的提示組件,集成式預處理和后處理步驟)。
任務 2.1:實施代理式 AI解決方案和工具集成。
技能 2.1.1:開發(fā)智能化的自治系統,具備相應的內存和狀態(tài)管理功能(例如,
將 Strands Agents與 AWS Agent Squad 結合用于多代理系統,使用 MCP 進行
代理與工具的交互)。
技能 2.1.2:創(chuàng)建高級問題解決系統,賦予基礎模型按照結構化推理步驟來分析和
解決復雜問題的能力(例如,使用 Step Functions實施 ReAct 模式和思維鏈推理
方法)。
技能 2.1.3:開發(fā)具有保障措施的 AI工作流,確保實現受控的基礎模型行為(例如,
使用 Step Functions實施篩選停用詞條件,使用 Lambda 函數實施超時機制,使用
IAM策略強制實施資源邊界,使用斷路器來防范故障)。
技能 2.1.4:創(chuàng)建先進的模型協調系統,用于優(yōu)化多種功能的性能(例如,使用專用
基礎模型執(zhí)行復雜任務,使用自定義聚合邏輯進行模型組合,模型選擇框架)。
技能 2.1.5:開發(fā)協作式 AI系統,利用人員的專業(yè)知識增強基礎模型能力(例如,
使用 Step Functions協調審核和審批流程,使用 API Gateway實施反饋收集機制,
人工增強模式)。
技能 2.1.6:實施智能工具集成來擴展基礎模型功能,確保可靠的工具運行(例如,
使用 Strands API 實施自定義行為,標準化函數定義,使用 Lambda函數實施
錯誤處理和參數驗證方法)。
技能 2.1.7:開發(fā)模型擴展框架來增強基礎模型能力(例如,使用 Lambda 函數實施
無狀態(tài) MCP 服務器,提供輕量級工具訪問;使用 Amazon ECS實施 MCP 服務器,
提供復雜的工具,使用 MCP 客戶端庫來確保一致的訪問模式)。
任務 2.2:實施模型部署策略。
技能 2.2.1:根據具體的應用程序需求和性能要求部署基礎模型(例如,使用 Lambda
函數進行按需調用,Amazon Bedrock預置吞吐量配置,使用 SageMaker人工智能
終端節(jié)點實施混合解決方案)。
技能 2.2.2:部署不同于傳統 ML部署的基礎模型解決方案,解決大型語言模型 (LLM)
的獨特挑戰(zhàn)(例如,實施基于容器的部署模型;針對內存要求、GPU利用率和詞元
處理能力進行優(yōu)化;遵循專門的模型加載策略)。
技能 2.2.3:開發(fā)優(yōu)化的基礎模型部署方法,平衡 GenAI工作負載的性能和資源需求
(例如,選擇合適的模型,針對特定任務使用較小的預訓練模型,使用基于 API的
模型級聯來執(zhí)行常規(guī)查詢)。
任務 2.3:設計和實施企業(yè)集成架構。
技能 2.3.1:創(chuàng)建企業(yè)連接解決方案,將基礎模型功能無縫融入到現有的企業(yè)環(huán)境中
(例如,對舊式系統使用基于 API的集成,使用事件驅動型架構實施松耦合,數據
同步模式)。
技能 2.3.2:開發(fā)集成式 AI功能,使用 GenAI功能增強現有應用程序(例如,使用
API Gateway實施微服務集成,將 Lambda函數用作 Webhook處理程序,使用
Amazon EventBridge實施事件驅動型集成)。
技能 2.3.3:創(chuàng)建安全訪問框架,確保實施了適當的安全控制措施(例如,在基礎
模型服務和企業(yè)系統之間使用身份聯合驗證,為模型和數據訪問使用基于角色的訪問
控制,對基礎模型采用最低權限 API訪問)。
技能 2.3.4:開發(fā)跨環(huán)境的 AI解決方案,確保在各司法管轄區(qū)中的數據合規(guī)性,同時
實現基礎模型訪問控制(例如,使用 AWS Outposts 進行本地數據集成,使用 AWS
Wavelength進行邊緣部署,云服務與本地資源之間的安全路由)。
技能 2.3.5:實施 CI/CD管道和 GenAI網關架構,在企業(yè)環(huán)境中實施安全且合規(guī)的
使用模式(例如,使用 AWS CodePipeline、AWS CodeBuild;為持續(xù)部署使用
自動化測試框架;使用安全掃描和回滾支持來測試 GenAI組件;集中式抽象層、
可觀測性和控制機制)。
任務 2.4:實施基礎模型 API集成。
技能 2.4.1:創(chuàng)建靈活的模型交互系統(例如,使用 Amazon Bedrock API 管理來自
各種計算環(huán)境的同步請求,使用特定于語言的 AWS SDK和 Amazon SQS進行異步
處理,使用 API Gateway為自定義 API客戶端提供請求驗證)。
技能 2.4.2:開發(fā)實時 AI交互系統,提供來自基礎模型的即時反饋(例如,使用
Amazon Bedrock流式傳輸 API進行遞增式回復交付,使用 WebSocket或服務器
發(fā)送的事件實時生成文本,使用 API Gateway實施分塊傳輸編碼)。
技能 2.4.3:創(chuàng)建具有彈性的基礎模型系統來確保可靠運行(例如,使用 AWS SDK
進行指數回退,使用 API Gateway管理速率限制,利用回退機制實現優(yōu)雅降級,使用
AWS X-Ray提供跨服務邊界的可觀測性)。
技能 2.4.4:開發(fā)智能模型路由系統用以優(yōu)化模型選擇(例如,使用應用程序代碼
實施靜態(tài)路由配置;使用 Step Functions基于內容動態(tài)路由到專用基礎模型;基于
指標的智能模型路由;使用 API Gateway通過請求轉換實現路由邏輯)。
任務 2.5:實施應用程序集成模式和開發(fā)工具。
技能 2.5.1:創(chuàng)建基礎模型 API接口,滿足 GenAI 工作負載的特定要求(例如,使用
API Gateway處理流式回復,詞元限制管理,處理模型超時的重試策略)。
技能 2.5.2:開發(fā)易于訪問的 AI接口來加快基礎模型的采用和集成(例如,使用 AWS
Amplify開發(fā)聲明式 UI 組件,適用于 API優(yōu)先開發(fā)方法的 OpenAPI規(guī)范,使用
Amazon Bedrock提示工作流管理器開發(fā)無代碼工作流構建器)。
技能 2.5.3:創(chuàng)建業(yè)務系統增強功能(例如,使用 Lambda 函數實施客戶關系管理
[CRM] 增強功能,使用 Step Functions編排文檔處理系統,使用 Amazon Q 企業(yè)版
數據來源提供內部知識工具,使用 Amazon Bedrock 數據自動化來管理自動數據處理
工作流)。
技能 2.5.4:提高開發(fā)人員工作效率,加快 GenAI 應用程序開發(fā)工作流的速度(例如,
使用 Amazon Q 開發(fā)者版生成和重構代碼, API輔助代碼建議,AI組件測試,性能
優(yōu)化)。
技能 2.5.5:開發(fā)高級 GenAI應用程序來實施先進的 AI 功能(例如,使用 Strands
Agents 和 AWS Agent Squad 實施 AWS云原生的編排,使用 Step Functions編排代
理設計模式,使用 Amazon Bedrock管理提示鏈模式)。
技能 2.5.6:提高基礎模型應用程序的故障排除效率(例如,使用 CloudWatch Logs
Insights分析提示和回復,使用 X-Ray跟蹤 FM API調用,使用 Amazon Q 開發(fā)者版
實施特定于 GenAI的錯誤模式識別)。
任務 3.1:實施輸入和輸出安全控制措施。
技能 3.1.1:開發(fā)全面的內容安全系統,用于防止有害的用戶信息輸入到基礎模型中
(例如,使用 Amazon Bedrock 防護機制篩選內容,使用 Step Functions和 Lambda
函數實施自定義審核工作流,實時驗證機制)。
技能 3.1.2:創(chuàng)建內容安全框架來防止有害輸出(例如,使用 Amazon Bedrock防護
機制篩選回復,使用專門的基礎模型評估進行內容審核和毒性檢測,使用文本到 SQL
的轉換來確保獲得確定性結果)。
技能 3.1.3:開發(fā)準確率驗證系統來減少基礎模型回復中的幻覺(例如,使用 Amazon
Bedrock 知識庫確定回復依據和進行事實核查,通過置信度評分和語義相似度搜索
進行驗證,使用 JSON架構強制實現結構化輸出)。
技能 3.1.4:創(chuàng)建深度防御安全系統來提供全面的保護,防止基礎模型濫用(例如,
使用 Amazon Comprehend開發(fā)預處理篩選條件,使用 Amazon Bedrock 實施基于
模型的防護機制,使用 Lambda 函數執(zhí)行后處理驗證,使用 API Gateway實施 API
響應篩選)。
技能 3.1.5:實施高級威脅檢測功能,防范對抗輸入和安全漏洞(例如,使用提示
注入和越獄檢測機制,輸入清理和內容篩選條件,安全分類器,自動對抗測試工作流)。
任務 3.2:實施數據安全和隱私控制措施。
技能 3.2.1:開發(fā)受保護的 AI環(huán)境,確保基礎模型部署的全面安全性(例如,使用
VPC端點隔離網絡,使用 IAM策略強制執(zhí)行安全數據訪問模式,使用 AWS Lake
Formation 提供精細的數據訪問,使用 CloudWatch監(jiān)控數據訪問)。
技能 3.2.2:開發(fā)隱私保護系統,在基礎模型交互期間保護敏感信息(例如,使用
Amazon Comprehend和 Amazon Macie檢測個人身份信息 [PII],Amazon Bedrock
原生的數據隱私功能,使用 Amazon Bedrock防護機制篩選輸出,使用 Amazon S3
生命周期配置來實施數據留存策略)。
技能 3.2.3:創(chuàng)建注重保護隱私的 AI系統,在保護用戶隱私的同時,確保基礎模型的
實用性和有效性(例如,使用數據掩蔽技術, Amazon Comprehend PII 檢測,敏感
信息匿名化策略、Amazon Bedrock防護機制)。
任務 3.3:實施 AI監(jiān)管和合規(guī)性機制。
技能 3.3.1:制定合規(guī)性框架,確保基礎模型部署的監(jiān)管合規(guī)(例如,使用
SageMaker人工智能開發(fā)編程式模型卡片,使用 AWS Glue自動跟蹤數據血統,
使用元數據標記進行系統化數據來源歸因,使用 CloudWatch Logs收集全面的決策
日志)。
技能 3.3.2:實施數據來源跟蹤措施,維護 GenAI 應用程序的可追溯性(例如,使用
AWS Glue Data Catalog注冊數據來源,使用元數據標記對基礎模型生成的內容進行
來源歸因,使用 CloudTrail 進行審計日志記錄)。
技能 3.3.3:創(chuàng)建企業(yè)監(jiān)管系統,確保以一致的方式監(jiān)督基礎模型實施(例如,使用
符合企業(yè)策略、監(jiān)管要求和負責任 AI原則的綜合性框架)。
技能 3.3.4:實施持續(xù)監(jiān)控和高級治理控制措施,支持安全審計,做好監(jiān)管準備工作
(例如,使用自動化功能,檢測濫用、偏差和策略違規(guī)行為;監(jiān)控偏差偏移;自動
報警和補救工作流;詞元級編輯;響應日志記錄、AI輸出策略篩選條件)。
任務 3.4:實施負責任 AI原則。
技能 3.4.1:開發(fā)透明的 AI系統用于基礎模型輸出(例如,使用推理顯示提供面向
用戶的解釋,使用 CloudWatch收集置信度指標并量化不確定性,提供用于來源
歸因的證據,使用 Amazon Bedrock代理追蹤提供推理跟蹤)。
技能 3.4.2:應用公平性評估來確保基礎模型輸出中沒有偏見(例如,使用
CloudWatch中的預定義公平性指標、Amazon Bedrock提示管理器和 Amazon
Bedrock 提示工作流管理器,執(zhí)行系統化 A/B測試;使用 LLM-asa-Judge解決方案
執(zhí)行自動模型評估)。
技能 3.4.3:開發(fā)符合策略要求的 AI系統,確保遵循負責任 AI實踐(例如,根據策略
要求使用 Amazon Bedrock防護機制,使用模型卡片記錄基礎模型限制,使用
Lambda 函數自動執(zhí)行合規(guī)性檢查)。
任務 4.1:實施成本優(yōu)化和資源效率策略。
技能 4.1.1:開發(fā)詞元效率系統來降低基礎模型成本,同時保持模型有效性(例如,
使用詞元估算和跟蹤、上下文窗口優(yōu)化、響應大小控制、提示壓縮、上下文修剪、
回復限制)。
技能 4.1.2:創(chuàng)建經濟高效的模型選擇框架(例如,使用成本-能力權衡評估,基于
查詢復雜度的分級基礎模型使用,推理成本與回復質量的平衡,性價比測量,高效的
推理模式)。
技能 4.1.3:開發(fā)高性能基礎模型系統,充分提高 GenAI工作負載的資源利用率和
吞吐量(例如,使用批處理策略、容量規(guī)劃、使用率監(jiān)控、彈性伸縮配置、預置吞吐
量優(yōu)化)。
技能 4.1.4:創(chuàng)建智能緩存系統,通過避免不必要的基礎模型調用來降低成本并縮短
響應時間(例如,使用語義緩存、結果指紋識別、邊緣緩存、確定性請求哈希、提示
緩存)。
任務 4.2:優(yōu)化應用程序性能。
技能 4.2.1:創(chuàng)建響應靈敏的 AI 系統,解決延遲與成本的權衡問題,并改善基礎模型
的用戶體驗(例如,使用預計算來執(zhí)行可預測的查詢,為注重時間的應用程序使用
延遲優(yōu)化的 Amazon Bedrock 模型,為復雜工作流使用并行請求,回復流式傳輸,
性能基準測試)。
技能 4.2.2:增強檢索性能,提高檢索信息的相關性和速度,用以增強基礎模型
上下文(例如,使用索引優(yōu)化、查詢預處理、帶自定義評分的混合搜索實施方案)。
技能 4.2.3:實施基礎模型吞吐量優(yōu)化,解決 GenAI工作負載的特定吞吐量挑戰(zhàn)(例如,
使用詞元處理優(yōu)化、批量推理策略、并行模型調用管理)。
技能 4.2.4:增強基礎模型性能,針對特定 GenAI 使用案例實現優(yōu)化結果(例如,
使用特定于模型的參數配置,通過 A/B測試評估改進,適當的溫度處理,以及根據
要求進行 top-k/top-p 選擇)。
技能 4.2.5:創(chuàng)建專用于基礎模型工作負載的高效資源分配系統(例如,根據詞元
處理需求使用容量規(guī)劃,對提示和完成模式的資源利用率進行監(jiān)控,針對 GenAI流量
模式進行優(yōu)化的彈性伸縮配置)。
技能 4.2.6:優(yōu)化 GenAI工作流的基礎模型系統性能(例如,針對提示-完成模式使用
API調用分析,針對檢索增強的向量數據庫查詢優(yōu)化,特定于 LLM推理的縮短延遲
技術,高效的服務通信模式)。
任務 4.3:為 GenAI應用程序實施監(jiān)控系統。
技能 4.3.1:創(chuàng)建全面的可觀測性系統,提供對基礎模型應用程序性能的全面監(jiān)測能
力(例如,使用運營指標、性能跟蹤、基礎模型交互跟蹤、業(yè)務影響指標和自定義
控制面板)。
技能 4.3.2:施全面的 GenAI監(jiān)控系統,主動識別問題,評估特定于基礎模型實施的
關鍵績效指標(例如,使用 CloudWatch跟蹤詞元使用情況、提示有效性、幻覺率和
回復質量;針對詞元爆發(fā)模式和回復偏差的異常檢測;使用 Amazon Bedrock 模型
調用日志進行詳細的請求和回復分析、確定性能基準、成本異常檢測)。
技能 4.3.3:開發(fā)集成的可觀測性解決方案,為基礎模型應用程序提供可用于指導
操作的見解(例如,使用運營指標控制面板,業(yè)務影響力可視化,合規(guī)性監(jiān)控,
取證可追溯性和審計日志記錄,用戶互動跟蹤、模型行為模式跟蹤)。
技能 4.3.4:創(chuàng)建工具性能框架來確保為基礎模型優(yōu)化工具操作和利用率(例如,
使用調用模式跟蹤,收集性能指標,工具調用可觀測性和多代理協調跟蹤,用于異常
檢測的使用率基準)。
技能 4.3.5:創(chuàng)建向量存儲操作管理系統,確保優(yōu)化向量存儲操作和可靠性,用于
增強基礎模型(例如,對向量數據庫使用性能監(jiān)控,自動化索引優(yōu)化例程,數據質量
驗證流程)。
技能 4.3.6:開發(fā)特定于基礎模型的故障排除框架,用于識別傳統 ML系統中沒有的
GenAI獨有故障模式(例如,使用黃金數據集檢測幻覺,使用輸出差異對比技術開展
回復一致性分析,通過推理路徑跟蹤來識別邏輯錯誤,專用可觀測性管道)。
任務 5.1:為 GenAI實施評估系統。
技能 5.1.1:制定全面的評估框架,在傳統 ML的評估方法之外,利用新方法來評估
基礎模型輸出的質量和有效性(例如,使用相關性、事實準確率、一致性和流暢性指標)。
技能 5.1.2:創(chuàng)建系統化模型評估系統來確定優(yōu)化配置(例如,使用 Amazon Bedrock
模型評估、A/B測試和基礎模型的金絲雀測試,多模型評估,通過成本性能分析來
衡量詞元效率,延遲-質量比率和業(yè)務成果)。
技能 5.1.3:開發(fā)以用戶為中心的評估機制,根據用戶體驗持續(xù)改進基礎模型性能
(例如,使用反饋界面,針對模型輸出的評級系統,用于評估回復質量的注釋工作流)。
技能 5.1.4:創(chuàng)建系統化質量保證流程,維護一致的基礎模型性能標準(例如,使用
持續(xù)評估工作流,對模型輸出進行回歸測試,部署自動化質量控制機制)。
技能 5.1.5:開發(fā)全面的評估系統,確保從多個角度對基礎模型輸出進行全面評估
(例如,使用 RAG 評估,使用 LLM-asa-Judge技術進行自動質量評估,人員反饋
收集界面)。
技能 5.1.6:實施檢索質量測試,評估和優(yōu)化檢索組件來增強基礎模型(例如,使用
相關性評分,上下文匹配驗證,檢索延遲測量)。
技能 5.1.7:開發(fā)代理性能框架,確保代理高效且正確地執(zhí)行任務(例如,任務
完成率量度,工具使用有效性評估,Amazon Bedrock代理評估,多步驟工作流中的
推理質量評估)。
技能 5.1.8:創(chuàng)建全面的報告系統,高效地向利益攸關方傳遞績效指標和見解,用于
實施基礎模型(例如,使用可視化工具,自動報告機制,模型比較可視化)。
技能 5.1.9:創(chuàng)建部署驗證系統,用于在基礎模型更新期間保持可靠性(例如,使用
合成用戶工作流,針對幻覺率和語義漂移的 AI 特定輸出驗證,通過自動質量檢查確保
回復一致性)。
任務 5.2:對 GenAI應用程序進行故障排除。
技能 5.2.1:解決內容處理問題,確保在基礎模型交互中完善地處理必要的信息(例如,
使用上下文窗口溢出診斷、動態(tài)分塊策略、提示設計優(yōu)化、與截斷相關的錯誤分析)。
技能 5.2.2:診斷和解決基礎模型集成問題,識別并修復特定于 GenAI服務的 API
集成問題(例如,使用錯誤日志記錄、請求驗證、回復分析)。
技能 5.2.3:對提示工程問題進行故障排除,利用基本提示調整之外的方法,提高
基礎模型的回復質量和一致性(例如,使用提示測試框架、版本比較、系統化改進)。
技能 5.2.4:對檢索系統問題進行故障排除,識別并解決影響信息檢索有效性的問
題,來增強基礎模型(例如,使用模型回復相關性分析、嵌入質量診斷、漂移監(jiān)控、
向量化問題解決、分塊和預處理補救、向量搜索性能優(yōu)化)。
技能 5.2.5:對提示維護問題進行故障排除,來持續(xù)改進基礎模型交互的性能(例如,
使用模板測試和 CloudWatch Logs來診斷提示混淆,使用 X-Ray實施提示可觀測性
管道,使用架構驗證來檢測格式不一致的情況,使用系統化提示優(yōu)化工作流)。