首页>行情 >内容

提升云端数据分析力微软Azure更新3大资料服务

行情2021-02-24 18:07:12
最佳答案

图片来源:

微软

微软云端平台Azure最近宣布针对3项资料服务的更新,包含推出正式版的资料湖储存服务Data Lake Storage Gen2和资料完全託管服务Data Explorer,此外,还推出预览版的混合资料整合服务Data Factory,期望提供用户性价比高又安全的云端资料分析服务。

资料湖储存服务Data Lake Storage Gen2适用于巨量资料分析,结合了Azure非结构化储存服务Blob Storage的可扩展性、安全模型和丰富的功能于一身,再加上为分析所设计的高效能的档案系统,还能与Hadoop分散式档案系统相容,让用户选择云端资料湖服务时,不需要在成本和效能中取捨。

图片来源:微软

微软指出,自家资料湖储存服务其中一项主要目标,即是要与Apache生态系统相容,为了做到这点,微软开发Azure Blob档案系统驱动程式,该驱动程式正式成为Apache Hadoop和Spark的一部分,并且附于许多 Hadoop的商业版本中。

为了进一步提升Data Lake Storage Gen2的分析效能,微软用阶层式命名空间,收集档案集合并整理成阶层式目录和巢状子目录,此种命名空间对巨量资量分析架构相当重要,由于Hive或是Spark等工具经常将输出写入暂时位置,并在作业结束时重新命名该位置,若没有阶层式命名空间,重新命名所花费的时间通常会比分析流程本身更长,因此,阶层式命名空间因为需要较少的运算执行,能够加速job执行并减低成本。

而Data Explorer是一个快速且具有高扩展性的完全託管资料分析服务,能够针对大量的串流数据进行即时分析,在不需要修改资料结构的情况下,一秒内能够查询10亿笔记录,此外,该服务能与微软云端其他服务相连,像是Data Lake Storage、SQL Data Warehouse、Power BI。为了提升速度和简化操作,Data Explorer由两个分别的服务组成:Engine服务和资料管理服务,这两项服务都在Azure中,以运算节点的丛集形式部署。

图片来源:微软

资料管理服务负责消化多种不同型态的原始资料,并且管理资料清理、执行失败和backpressure等任务,还能透过自动索引和压缩机制快速处理资料。而Engine服务则是负责处理输入的原始资料和用户的查询,透过自动扩展(Auto Scaling)和资料分割(data sharding)来达到高效能的目标。

最后,微软这次的更新还推出混合资料整合服务Data Factory预览版,Data Factory服务是用来将资料移动和转换工作自动化的服务,内建超过80个与结构化、半结构化和非结构化资料源的连接器。除此之外,该服务还提供资料工作流程可视化工具Mapping Data Flow,提供用户在设计、建置和管理资料转换的过程有可视化的体验,不需要学习Spark或是对分散式基础架构有深入的了解。

图片来源:微软

免责声明:本文由用户上传,如有侵权请联系删除!