近期,就在2月15日,国内IT界有搞出个大瓜,Teradata以对中国当前及未来商业环境的不确定性,慎重考虑后决定退出中国运营,后续将进入中国公司关闭程序。Teradata是一家有着40多年历史的数据仓库企业,被业界专业人事称为“数仓人才的黄埔军校”, 在大数据领域一直保持全球领先的地位。它在1997年正式进入中国,并率先在金融、电信领域推出自己的数仓产品,由于当时国内软硬件基础不太好,信息化行业又面临着迅速数据膨胀等因素,使Tearadata很快在中国铺开市场,直到近期的退出,在国内还保留着众多的使用单位及市场。下面谈谈对这一事件的看法及国产数据仓库产品的机会。(本文转载自公众号:韩锋频道)
1. Teradata 退出,个中缘由
卖的好好的,为啥退?笔者不是啥国际局势专家,感觉无外乎几个原因:一是国家间的国际关系影响;二是某些国家的做法令人不爽,如监听门事件等;三是国内众多替代产品慢慢趋向成熟稳定并蚕食Teradata的市场。个人感觉最大的原因还是第三点国产数据库的崛起萎缩了海外厂商的市场,国内数仓产品很多,与Teradata等同的有南大通用的GBase 8a、华为的GaussDB 200、阿里的ADB等等。此外,Teradata是以一体机的形式对外销售,最大的特点就是昂贵,但不缺钱的企业多了去了,仍在中国赚得盆满钵满。但随着持续发展,国内的客户发现Teradata也存在很多的问题,就算没有国际局势、没有监听门事件也萌发换掉它的想法。试探着找出可以替代Teradata架构、使用相似的产品,下文也将从几个方面对比国内数仓产品与Teradata的异同。
2. Teradata 退出,如何填补
1).Teradata 技术架构
Teradata是Shared Nothing的MPP架构,主要包括解析引擎、BYNET和访问控制处理器(AMP),Teradata以节点为系统的基本单元,一体机中每台服务器都称为节点,高级架构图如下:
2).主流数仓架构
当前主流国产数仓产品主要有三种架构。
❖ 有Master
第一种有Master的架构,主要产品是PG系的产品,比如GreenPlum等通过PostgreSQL改过来的产品,其典型架构图如下
❖ 无Master
第二种是无Master的计算、存储、管理一体化的架构,其架构图如下
❖ 多Master
第三种架构是联邦架构,也可叫多Master。跟第一种非常相似,唯一差别就是原来的Master-Slave模式变成了集群模式,架构图如下
该架构使集群对外服务能力更强,因其连接应用的管理节点是集群模式,可实现多管理节点的高可用、不像Master-Slave模式,在掉了Master后,到Slave切换的RTO过大及数据丢失的风险。目前这个架构国内唯一家数据库支持,就是GBase 8a MPP V9,国外有HDP 2.0。
3).数仓全球概况
Gartner作为全球最具权威的IT市场研究与顾问咨询公司,定期会推出IT行业的各种报告以及著名的Gartner魔力象限。Gartner魔力象限通常从两个方面来评价供应商:前瞻性和执行能力。涵盖的公司包括:领导者、挑战者、有远见者、细分领域主导者。前者考量该厂商提供产品底层技术基础的能力、市场领导能力、创新能力、外部投资等, 后者考量产品的易用程度和价格、服务的完善程度和技 术支持能力、管理团队的经验和能力等。象限图的横轴表示前瞻性,纵轴表示执行能力。国产数仓也在Gartner中进行过评估,过去几年中曾经出现两个国内厂家进入了该魔力象限,比如2017年,共有22家厂商被选入魔力象限。其中,亚太地区入围的三家全部来自中国,包括GBase、阿里云和华为,这也是该象限首次有三家中国厂商进入。除了Micro Focus和SAP两家欧洲公司外,其余17家均为美国公司。
华为的GaussDB产品与南大通用的GBase产品在全球排上了名,与Oracle、Teradata知名数据库同时出现在一幅图中。虽然不在同一象限,但也代表了这些厂商在全球的认可度。从这一角度来看,Teradata退出后原有市场填补及新市场空间可从上述受到权威认可的厂商中选择,如上面的南大的GBase 8a和华为的GaussDB为主。
4).国内典型产品
❖ GBase 8a
GBase 8a是南大通用公司自主研发的一款分析型数据库,而南大通用本身也是一家专注做数据库的公司,其产品覆盖分析型、事务型、另一维度,分集中式和分布式,有8a分析型数据,8s集中式事务库,8c分布式多模数据库。而对应Teradata数仓产品的则是南大通用8a产品,产品名字GBase 8a MPP Cluster,最新版本是V953,据说性能在OLAP场景下非常强劲,且该产品在2010年就研发并投入市场,在国内的OLAP领域可以说资格最老、最稳定、市场占有最大的一家公司产品。
❖ GaussDB DWS
GaussDB是华为旗下的一系列数据库产品,包括100、200、300,其中GaussDB 100现在已经开源叫openGauss,是偏事务的一款产品,GaussDB 200现在叫DWS,是可以对标Teradata的一款分析型数仓产品,GaussDB300是HTAP产品,并未正式上市。
5).关注迁移能力
作为产品替代的一个重要考量因素,是否具备完备的迁移能力至关重要。上面谈到的两款产品都有对应的从Teradata到本产品的迁移工具,包括DDL、视图、SQL、数据的迁移。
❖ GaussDB
GaussDB的迁移工具从官网可以查到其语法,命令以.sh结尾,本人猜测很可能是用shell脚本编写的SQL转换迁移程序,但该工具不能迁移数据。
❖ GBase 8a
GBase 8a MPP也有迁移工具,网上查叫GBase MTK,可以实现从Oracle、SQL Server、PostgreSQL、Teradata到GBase 8a的数据迁移,但好像只能实现DDL的自动转换并进行数据的倒换迁移。
而对于Teradata的SQL迁移,目前在网上没有查到其对应的工具,咨询过南大通用公司的前同事,好像GBase也有Teradata SQL转换工具,且据说转换效率非常高,准确率也不错。使用Python语言编写,根据客户实际SQL风格灵活定制化。从工具的语言上感觉南大通用的工具会更强大点,毕竟Python比Shell脚本的Coding灵活度要大的多。
3. Teradata 退出,引发思考
Teradata 公司的退出,为我们敲响了警钟。单纯依赖国外产品的路线是不长久的,只有立足国内,保持充分技术自由度才是最佳选择。至于TD数仓在国内的替换、以及未来市场,相信以GBase 8a、华为GaussDB DWS为代表的国产厂商产品,应可担当大任;也更希望并期待有更多国产数据库不断涌现,壮大国内的数据库生态。