继去年九月发布了microsoft azure data factory(adf)第二版(v2)的公共预览版之后,近期microsoft继续跟进,发布了该服务新的可视化工具的公开预览版。
在前期发布的adf v2服务中,添加了对下列功能的支持:
新的调度功能,支持一次运行(run-once)和复杂调度场景。增加了对条件循环(conditional looping)等复杂工作流的控制能力。支持用于数据出入(ingress/egress)的web端点。支持在基于云的integration runtime中执行ssis软件包。但是在去年九月发布adf v2服务时,并未提供可视化工具,依然需要手工创建adf v2组件和流水线。最新发布的可视化工具,使v2版服务具备了和以前版本相同的功能。
新的可视化工具是基于web的。对于已部署的azure data factory,需要在azure门户上加载。
工具在启动后,提供以下功能:
创建新的adf流水线。允许用户通过拖放可视化接口构建处理流水线,并支持复杂分支、计算组件(例如hdinsight和azure data lake analytics)。流水线中可添加一些基于web的新数据源,也支持更多的传统数据源,例如azure sql database和文件。
创建新的adf复制(copy)流水线。与adf v1中使用的自动过程一样,允许用户选取源数据集和目标数据集,快速地创建一个复制流水线。当前,adf v2的源数据支持33种数据源,包括amazon redshift、oracle和sap hana等;目标数据支持13种数据源,包括部分azure服务,以及oracle和salesforce等。
配置新的ssis integration runtime。允许用户在azure sql database中创建新的ssis integration runtime,以支持在云升级转换(lift-and-shift)场景下执行ssis软件包。据microsoft宣称,只要满足数据源连接性和可用性要求,本地部署(on-premises)的ssis软件包同样可在azure中正常执行。
配置git软件库。允许用户配置adf实例和visual studio team services账户间的连接性。但目前尚不支持软件库以github作为宿主。
为支持复制活动和计算任务卸载(offloading),adf v2还提供了一种同时支持基于azure(azure-based)或本机(self-hosted)运行的intergration runtime组件类型。具体使用哪一种方式,取决于数据源和计算资源的位置。
图片来源:https://docs.microsoft.com/en-us/azure/data-factory/concepts-integration-runtime
self-hosted integration runtime可用于集成本地部署资源,它替代了上一版adf中推出的on-premises data management gateway组件。该组件可以下载并安装在windows系统中,目前尚不支持任何linux系统。对于运行在adf v2服务上的azure-based integration runtime组件,至少需要关联两个节点才能实现本地部署组件的高可用性,目前最多可以关联四个节点。
该可视化工具的发布,弥补adf v2发布后一直缺失的易用性。microsoft的大数据管理凯发在线的解决方案,意在抗衡software ag webmethods、 talend big data platform或hitachi pentaho的类似方案,同时在azure logic apps、mulesoft或dell boomi等工具之外,为用户另提供了一种ipaas(集成平台即服务,integration platform as a service)工具选择,解决了原有ipaas工具并不能很好地适用于大规模和大批量数据的问题。
在azure上运行的ssis integration runtime,给出了ssis软件包的迁移路径。这样,microsoft具备在云平台服务上继续使用本地部署投资的能力。
当前,azure data factory v2工作负载可部署到east us、east us2和west europe数据中心,但服务依然是公开预览版的。
使用adf服务的详细信息,可参考microsoft官方文档。在microsoft自己的媒体频道上,也提供了演示工具基本使用的视频。
查看英文原文: microsoft releases azure data factory v2 visual tools in public preview