首页>行情 >内容

AWS提供免写程式的云端ETL服务Glue DataBrew

行情2021-02-10 18:01:00
最佳答案

图片来源:

AWS

为了让资料科学家更容易进行资料分析,AWS本周宣布完全不用写程式、不用处理资料正规化,用拖拉、点击即可操作完成的云端资料ETL(extract、transform, load)服务Glue DataBrew。

2016年AWS首先推AWS Glue作为第一代ETL服务,强调提供步骤化指引,让资料分析师或资料科学家载入需要分析的资料,但是仍需要有程式撰写技能包括SQL、Python、Scala。之后AWS又推出了Glue Studio服务,它省去了写程式的麻烦,但是使用者仍然需处理资料清洗、正规化,这作业仍然需要仰赖ETL工程师,使得资料分析光是ELT作业就可能要花上数星期甚至几个月。此外,常见的工具如Excel或Jupyter Notebook等试算表则无法处理大量资料。

新的AWS Glud DataBrew则在AWS Glue基础上加以改进,使用者无需写任何程式码,透过点击、互动视觉化介面即可完成操作。它内建250种资料转换功能,像是筛选异常、标準化资料(如时间及日期)格式、产生集结、修正无效资料值等,可汇入来自AWS S3资料湖泊、Redshift资料仓储及Amazon Aurora及Amazon RDS(Relational Database Service)的资料。这项工具可提供资料清洗的建议。DataBrew还具备自然语言处理(NLP)技能来处理较複杂的转换,像是将文字变成资料栏位值(如将yearly转成「年度」)。

AWS宣称新工具可将过往几天或几个星期的工作大幅缩短。资料準备完成后,DataBrew会将结果出版到Amazon S3。资料分析师之后即可使用第三方(当然最好是AWS的)分析或机器学习服务来查询资料,或是训练机器学习模型。

AWS DataBrew是根据转换的资料量付费。这项服务已在美国、欧洲、亚太(澳洲及日本)区上线,之后会再推向其他地区。目前用户包括NTT Docomo 、英国石油(BP)及化纤厂Invista等。

免责声明:本文由用户上传,如有侵权请联系删除!