减少BW在HANA系统上的占用空间

运行SAP Business Warehouse时,将SAP与大数据集成的首选方法之一是NLS(近线存储)。 NLS是一种将数据移出主数据库并将其存储在更具成本效益但速度较慢的辅助数据库中的方法。尽管数据仍然可用于报告–SAP BW系统将查询两个数据库。对于SAP BW的任何最终用户,他们将保持不可见的数据位置。查询很简单。性能是另一个问题–来自廉价存储介质的数据将无法像从HANA内存中列存储中那样快地获得。

SAP本身提供了基于前Sybase IQ数据库的NLS实施,以通过将部分数据移至冷存储中来减少HANA数据量。我们提供自己的Nearline存储实施,该存储与SAP BW完全兼容并已通过SAP认证。

IQ数据库是最好的出路吗?在Datavard,我们发现了此解决方案的两个问题:

  • 首先,智商是一个很好的数据库–但运行起来很昂贵。对于某些数据中心而言,它也很难维护并集成到其IT流程中。当然,可以在云中拥有IQ,但这要付出高昂的代价–一些云供应商以与HANA相当的托管成本提供IQ。我们看到客户需要更大的灵活性来将数据存储在其他数据库中,例如Hadoop。
  • 其次,我们看到了家政服务的额外需求。这本身就是一个区域,与归档和近线存储完全脱钩。我们的许多客户具有通过简单清除技术和冗余数据来减少数据量的巨大潜力。

Hadoop上的NLS存储

我们的解决方案OutBoard适用于许多存储类型,包括SAP / Sybase IQ和Hadoop。实际上,OutBoard可以根据数据的价值和寿命将数据存储在连接到同一SAP BW系统的不同存储中。

 

据,直到...为止 Hadoop的 涉及到的选项有很多:

  • HDFS 是最基本的选择。基本上,文件只是被推送到Hadoop的文件系统中。虽然易于安装且操作便宜,但性能不是很好。
  • 蜂巢 is a better option –它是在Hadoop上运行的SQL引擎。可以将HIVE中的数据提供给Hadoop本机应用程序。 HIVE速度不是很快,但是扩展性很好。对一亿条记录的查询将具有类似于针对十亿条记录的查询的运行时。
  • 黑斑羚 是Cloudera在HIVE之上构建的数据处理引擎。 Datavard与Cloudera结为伙伴,这归功于它们出色的HIVE分发,对客户和合作伙伴的良好支持以及最终的尖端Impala实施。
  • 火花 是处理HIVE数据的类似框架,但根据我们的经验,与Impala相比,它稍慢一些。使用HANA VORA(基本上是基于Spark的SAP扩展),与将来的Impala相比,Spark可能会获得更多的优势。

 

数据变量recommendation: NLS on Hadoop

考虑到运营成本,易于实施和性能,我的建议很明确:Impala on HIVE是目前操作SAP BW的近线存储的最强大和最先进的选择。我们的一些客户自己在内部运行Hadoop集群,并对这种解决方案感到满意。 所有主要的云提供商,例如Azure or AWS support it.

 

数据库和存储的总拥有成本

一旦您将不同数据库上BW数据存储的总拥有成本视为“副业”,我们的建议是有充分根据的。通常,您最终会在成本和性能之间进行权衡。

以下是2016年与我们与实施NLS的客户合作的最新数据。所有这些数字都是特定于客户的,并且在不同地区,客户和其他因素(例如,选择硬件供应商或SAP折扣)之间可能会有所不同。以下所有图表均代表了一组客户和最近项目历史的数据(对于欧洲客户,我使用了当前的EUR到USD的转换率)。

该图比较了不同的数据库,我仅将SAP HANA作为参考。其他所有数据库都可以用作NLS存储 数据变量OutBoard。目前,SAP的NLS实施仅支持SAP IQ作为辅助工具。条形越低,存储类型的TCO越便宜。

每年一TB(TB)的SAP HANA通常花费约110,000美元。 1 TB的SAP IQ重约90,000美元,因此与HANA本身相比并不算高。 HANA和IQ都以非常相似的因素压缩数据(1:7)。使用其他数据库,例如IBM的DB2 BLU或Oracle,可以实现类似(甚至更好)的压缩。 DB2 Blu每年和TB的成本约为55,000美元。 Oracle往往更便宜一些。

从不同存储类型的性能来看,情况大不相同。需要考虑这两个方面:报告性能的业务需求以及具有大数据量的性能的可伸缩性。下图显示了NW中具有1000万条查询记录的BW查询和NLS中具有1亿条查询记录的报告速度。注意性能和可伸缩性方面的差异。

SAP IQ可以非常快速地完成1000万条记录–Hadoop比基于列的SAP IQ慢得多。但是,当我们增加数据量时,Hadoop看起来一点也不差。特别是考虑到10mio和100mio记录之间的差异,可以看到Hadoop的真正功能。

最后,查看性能成本比很有趣。为了计算它,我将平均性能除以数据库成本。结果越高,物有所值。

上图为我们的坚定建议打下了基础:Hadoop只是简单的规则。附带说明一下,SAP也已经掌握了这一点,我们在这里获得的数据说明了SAP为什么提供SDA和HANA VORA以便将Hadoop与基于HANA的SAP BW集成到大数据场景中。在Datavard,我们使用称为 数据变量Glue 弥合SAP与大数据世界之间的鸿沟。

那么,您现在应该做什么?

如果您正在运行大型BW系统,快速发展的BW系统或HANA上的BW(或以上所有功能),则应研究NLS的概念。即使您要查看的数字因您的情况而异(无论是在内部还是在云中),也适用以下条件:借助聪明的数据管理和NLS,您可以节省很多钱,并且生活更轻松。

从今天开始,要求我们的数据管理团队提供演示。您可能还希望使用Datavard NLS解决方案OutBoard进行测试驱动(PoC),并在自己的系统环境中使用自己的数据来熟悉功能和选项。