AWS Glue 是一項(xiàng)無服務(wù)器數(shù)據(jù)集成服務(wù),可以將其用于分析、機(jī)器學(xué)習(xí)和應(yīng)用程序開發(fā)。同事也是用于編寫、運(yùn)行任務(wù)和實(shí)施業(yè)務(wù)工作流程的額外生產(chǎn)力和數(shù)據(jù)操作工具。
AWS Glue服務(wù),提供發(fā)現(xiàn)、準(zhǔn)備和集成所有任意規(guī)模的數(shù)據(jù)的功能。
使用 AWS Glue可以發(fā)現(xiàn)并連接到 70 多個不同的數(shù)據(jù)來源,在集中式數(shù)據(jù)目錄中管理數(shù)據(jù),并以可視化方式創(chuàng)建、運(yùn)行和監(jiān)控 ETL 管道以將數(shù)據(jù)加載到數(shù)據(jù)湖中,從而為進(jìn)一步的數(shù)據(jù)分析或者是機(jī)器學(xué)習(xí)提供高質(zhì)量的數(shù)據(jù)集合。AWS Glue可讓數(shù)據(jù)準(zhǔn)備更簡單、更快、更便宜。

使用 AWS Glue服務(wù)可以直觀地創(chuàng)建、運(yùn)行和監(jiān)控“提取、轉(zhuǎn)換、加載(ETL)”管道,以將數(shù)據(jù)加載到數(shù)據(jù)湖中。此外,您可以使用 Amazon Athena、Amazon EMR 和 Amazon Redshift Spectrum 立即搜索和查詢已編目數(shù)據(jù)。此外,AWS Glue 可以輕松地在架構(gòu)中集成數(shù)據(jù),同時它還可以與 AWS 分析服務(wù)和 Amazon S3 數(shù)據(jù)湖集成。

1. 添加一個爬網(wǎng)程序來填充 AWS Glue Data Catalog
2. 定義一個作業(yè),該作業(yè)描述數(shù)據(jù)從源到目標(biāo)的轉(zhuǎn)換
3. 運(yùn)行作業(yè)以轉(zhuǎn)換數(shù)據(jù)
4. 監(jiān)控和查看已計(jì)劃的爬網(wǎng)程序和已觸發(fā)的作業(yè)