对于微软Azure Cloud上的数据库和分析新闻来说,这是重要的几周。6月27日,微软发布了关于Azure数据存储和数据集成的各种公告。就在今天早上,雪花宣布其数据仓库服务现在可以在Azure上正常使用。
数据重组的消息不断传来。今天,在拉斯维加斯举行的Inspire合作伙伴大会上,微软发布了更多与数据相关的公告,包括其在Azure上的数据仓库服务,以及Power BI服务。
在数据仓库方面,微软宣布了一个名为Azure SQL数据仓库(SQL DW)服务的即时数据移动新功能。数据仓库平台通过在一个大型逻辑服务器中联合多个服务器(“节点”)来提高速度。当查询在这个逻辑服务器上运行时,数据经常需要在节点之间移动,数据仓库的执行速度对其性能至关重要。DW使这些操作更快。
该产品使用一种称为数据移动服务(DMS)的功能来处理这项任务,它一直很好,因为它基于一种长期有效的SQL Server技术,称为批量复制协议(BCP)。然而,BCP的问题是,它使用SQL Server的单行操作模式在单线程、单处理器内核上执行。
但是SQL Server Gen2存储的用户现在可以利用即时数据移动(IDM),它在多个CPU核心上执行,并使用SQL Server的新批处理模式(基于向量的处理)。结果是更快的数据移动。因此,在查询基于非物理排列的列连接表时,查询性能更好。事实上,微软表示,当与新的Azure加速网络结合时,SQL DW可以以每个节点每秒1GB的速度移动数据。
也可以阅读:Azure SQL数据仓库“第二代”:微软对亚马逊的挑战。
在IDM和SQL DW Gen2存储和缓存带来的性能改进之间,微软对该产品的性能非常有信心。事实上,我们有足够的信心委托市场研究公司GigaOm Research对亚马逊红移的SQL DW进行TPC-H基准测试,结果似乎非常乐观。
我本人是GigaOm Research的分析师。我没有参与SQL DW TPC-H基准测试项目,虽然我知道它正在实施中。
关于微软TPC-H基准测试的讨论包含在一篇博客文章中,GigaOm报告也可以在网上找到。
在Power BI方面,微软增强了云大数据和企业轴上流行的商业智能服务。
对于前者,微软增强了Power Query自助数据准备工具(也嵌入了Windows版的Excel)来处理Power BI云服务中存储的数据,而不是将其功能局限于桌面上存储的Power BI模型。
根据Power Query的云计算能力是如何实现的,它可能会成为微软Azure数据工厂服务的一个非常有趣的补充,而后者的主要增强是6月27日发布的声明的一部分。此外,Power BI使用Azure数据集成存储Gen2 Lake(也于6月27日宣布,目前正在预览),这是一种增强的Azure Blob存储,它消除了文件大小限制,并添加了访问接口,使其与Hadoop分布式文件系统(HDFS)兼容,并规范了大数据存储技术。
Power BI基于微软长期使用的SQL Server Analysis Services (SSAS)技术。从今天开始,Power BI现在集成了许多SSAS功能。这包括与XML for Analysis (XMLA)的兼容性,XMLA是SSAS的本地协议。XMLA兼容性带来了与SSAS的一系列工具的兼容性,使Power BI更适合企业。
BI还与SQL Server Reporting Service (SSRS)集成,后者是微软的企业报告技术。现在,除了Power BI报告和仪表盘,Power BI云服务还可以托管和呈现SSRS报告。
这为Power BI报告服务器提供了良好的对称性,Power BI报告服务器本身是SSRS本地报告服务器的超集,它允许同时交付Power BI报告和SSRS资产。现在,微软客户将能够在prem和云环境中使用ssr和Power BI报告。
为了进一步增强其企业功能,Power BI现在将支持微软通用数据模型(CDM)并增加多地理合规性,允许客户将Power BI Premium(而不是Professional)部署到特定的全球区域。这促进了对数据驻留要求的遵从,增强了数据局部性,从而减少了数据加载时间。
微软知道技术几乎都是通过数据和分析来实现的,它在该领域的各种产品上投入了两倍的资金,尤其是在云计算领域。微软现在面临的挑战是让市场相信,它可以在数据领域超越亚马逊的网络服务。尽管已经上路,但要赢得市场对数据部分的关注,Redmond还有更多工作要做。