自2000年代初大数据技术诞生以来,为了应对不断丰富的应用场景、日益复杂的数据类型,以及逐渐膨胀的数据规模,大数据业内逐渐发展出了多种技术路线。
到今天,大数据产品和技术已处于百花齐放的状态,国内市场近年来也因此涌现出了一批大数据厂商,针对多种应用场景的数据处理需求,如大规模离线数据处理、实时数据分析、异构数据分析等,提供不同的产品和解决方案。
炎凰数据就是其中一家新锐针对异构数据的大数据即时分析平台厂商。
成立至今三年间,炎凰数据持续深耕异构数据即时分析赛道,坚持国产自研和产品化路线,在竞争激烈的国内大数据市场中,走出了一条独特的路线,并获得了市场的认可。
异构数据即时分析的市场需求和发展前景如何?炎凰数据为何选择进入该市场?炎凰数据的团队和产品有哪些优势?带着这些问题,爱分析与炎凰数据董事长何宁、CTO王国栋进行了一次深入访谈。
异构数据即时分析平台:赋予用户自由探索未知数据的能力
异构数据大规模增长,如何从数据中快速获取洞察成为挑战
在传统大数据分析应用层面,企业通常会聚焦在固定报表、交互式查询分析等场景,对大量结构化数据进行分析。随着企业业务互联网化和数字化程度的加深,企业内的数据特征发生了以下两点结构性的变化:
1)企业的数据来源更加广泛,如数据可能来自各类业务系统、应用、数据库、物联网设备等,并且在很多场景都需要联合多个来源的数据进行关联分析。
2)企业的系统中逐渐产生了大量半结构化数据(如CSV、JSON、XML等),以及非结构化数据(如文档、音频、视频等)。根据IDC预测,到2025年全球数据总量将达到175ZB,其中超过 80% 的数据都将是处理难度较大的半结构化和非结构化数据。
图1:2025年全球数据总量及构成
然而,面对这些多源异构的数据,如果采用传统的数据处理和分析方式,即通过写时建模,预先定义数据schema,然后对数据进行ETL加工,导入数仓,用于支撑指定场景的数据查询分析,很难有效挖掘出这类异构数据的价值,这是因为:
首先,传统的数据处理模式要求部门之间紧密地协作,数据部门根据用数部门提出的需求预先排期对数据进行加工建模,当用数需求很多时,用户往往要数天甚至数周才能获取分析结果。
其次,在大部分针对异构数据的分析场景中,如对日志数据进行分析,用户需要从哪些角度分析数据,以及需要使用哪些维度的数据都不确定,很难采用预先规划的方式对非结构化数据进行分析。
异构数据即时分析平台,专为多源异构数据的查询分析而设计
正是为了满足企业对异构数据进行高效查询分析的需求,异构数据即时分析平台这一赛道近年来在国内市场逐渐变得明确和清晰。以炎凰数据的异构数据即时分析平台产品为例,它能够集成多个数据源的各类非结构化或结构化数据,并采用读时建模的方式,让企业可以在需要对数据进行查询分析时,通过自定义规则,对原始数据进行快速查询分析,支撑智能运维、安全合规和大量创新型业务分析等场景的分析需求。
图2:炎凰数据异构数据即时分析平台
而要支撑异构数据的即时分析,“读时建模”是其中最关键的技术。读时建模技术允许用户在读取数据时自定义规则,根据算法从原始数据中自动提取分析需要的字段,并支持用户根据业务需求动态地调整数据查询规则,从而避免繁重的传统ETL工作,提高异构数据处理的灵活度。
炎凰数据CTO王国栋认为,读时建模的灵活性让用户能够以较小的成本,根据分析需求的变化,快速完成数据模型的迭代,在复杂的异构数据分析中实现“time to value”。
因此,随着企业对异构数据分析的需求不断增长,异构数据即时分析平台的价值在于,帮助用户降低对于数据协作流程以及数据开发和管理团队的依赖,通过提供高效的数据分析工具,赋予用户自由、高效地探索数据,挖掘数据价值的能力。
2.“事为先、人为重“,炎凰数据是最合适的团队
如果要选出国内异构数据分析赛道最优秀的团队,炎凰数据必定是其中之一。这家成立于2020年7月的大数据公司,核心团队成员都来自于美国明星大数据公司Splunk的前中国研发中心,团队在异构数据分析领域有着深厚的技术和经验积累。
2019年底,在美国逐渐对中国进行技术上的封锁打击,以及中国市场环境变得更加复杂等背景下,Splunk宣布将研发中心迁出中国,这也给炎凰数据的成立提供了一个契机。曾担任Splunk全球副总裁、中国研发中心总经理,现为炎凰数据董事长的何宁表示:“在那样一个时间点上,我和我的创始团队,出于技术人的理想,希望利用自身的专长为业内提供一个灵活好用的分析工具,同时也为了打破国外公司的技术垄断,在读时建模和异构数据分析领域,打造自主可控的国产解决方案。”
带着这样的初衷和愿景,何宁与曾为Splunk中国研发中心核心研发成员的叶晓路、王国栋,倪跃,以及多位前Splunk的资深工程师,创立了炎凰数据。
在访谈中,随着话题的深入,我们愈加发现,这支团队身上有着诸多优势,才让炎凰数据在成立仅三年间,产品已打磨相对完善,并且也收获了一批行业头部客户,如众安保险、上海电力、知识星球等,从而顺利在国内市场打开了局面。
图3:炎凰数据创始团队(从左至右:倪跃、叶晓路、何宁、王国栋)
目前,炎凰数据主要的研发人员都来自Splunk。
首先,这让炎凰数据得以迅速组建起了一支成熟的团队,形成完整的研发能力,并且这支团队在Splunk时期已经经过了充分的磨合,保证了在整个产品研发流程中能够高效顺畅的合作。
其次,在Splunk这样全球一流的大数据公司深耕异构数据分析产品技术的研发,让团队建立了对这个领域的客户需求、市场环境,以及关键技术的深刻理解。
最后,服务于多家国外顶级软件产品公司的经历,让炎凰数据的团队非常熟悉大数据产品的开发流程、架构设计、技术选型等,这些经验有助于公司持续开发一款好的软件产品。
当然,随着公司的发展,炎凰数据也逐渐吸纳了一批在市场、商务等方面有专长的优秀人士加入,让整个团队的能力更完善,更能应对市场竞争和环境变化。
3.紧贴市场需求变化,持续打造一款好用的数据平台产品
凭借着团队在读时建模技术,以及异构数据分析平台开发等方面的积累,炎凰数据在成立后,很快开发和打磨出了一个涵盖主要功能的异构数据即时分析平台产品。
然而,由于近年来企业数字化建设持续深入,以及中国企业用户需求的特殊性,完全复刻Splunk的产品技术已经不能满足今天的中国市场的需求。
因此,炎凰数据在最近两年持续洞察用户需求,并不断进行产品升级,希望为企业用户提供好用、易用的数据平台产品。总结起来,炎凰数据主要从以下四个层面,对异构数据即时分析平台产品不断进行优化和创新。
- 坚持走产品化路线
对于很多企业用户而言,异构数据处理和分析难度很高,如果需要自行考虑和解决大数据技术栈之间的搭建问题,往往效果不佳,同时也耗费了很多额外的精力。
因此,炎凰数据提供了一站式的数据平台产品,提供了从数据导入、数据集成、数据建模、数据存储、数据分析、数据服务、数据可视化等端到端的能力,使用户可以开箱即用,免去在基础设施构建和配置上的复杂工作。
而在标准化的产品之外,炎凰数据也充分考虑了国内很多大型企业潜在的定制化需求。
具体而言,炎凰数据采取的策略是,将一个完整的数据平台上80%属于用户共性需求的功能设计为标准化的产品,而对剩余20%左右不同客户可能存在的个性化需求,炎凰数据则将相关能力进行封装,并构建了一个合作伙伴生态,由这些合作伙伴利用自身的专长充分理解客户的特殊需求,并完成相应的功能开发。从而既满足了客户需求,也让炎凰数据可以专注于产品的持续打磨和升级。
- 持续优化底层计算引擎
尽管读时建模为异构数据的即时分析提供了一个有效的解决方案,但读时建模也有着一个较明显的短板,即读时建模的算力开销较大,这在数据规模较大时,如不对引擎进行深入优化,将会显著影响数据查询的性能。
针对这一问题,炎凰数据持续在自研的大数据计算引擎上进行了大量优化工作。包括在向量化计算、即时编译,基于列式存储的数据压缩,并发任务安排等多方面做了大量精巧的设计与优化,以加快运算速度,提高数据吞吐量,降低算力消耗,从而可以在绝大部分场景中实现相对即时的分析结果。
- 采用全新的基础架构
区别于Splunk时代,今天的企业对于数据分析的计算环境、数据规模都比以往有着很大的不同。一方面,一些企业的很多业务系统和数据平台都部署在云上,同时对于资源使用的灵活性有着很高要求;另一方面,随着企业数据规模的不断提高,如何应对高吞吐、大规模数据的分析,也成为了企业迫切需要解决的问题。
炎凰数据也敏锐的察觉到了这些变化,因此很早就开始规划和进行平台基础架构上的升级,引入云原生和分布式架构和技术。
在云原生方面,炎凰数据平台基于全新的云原生架构而设计,无论在云端还是私有化部署,都能够通过存算分离,为用户带来存储和计算资源的弹性扩展能力,从而可以有效应对高峰期的查询需求,并大幅降低运维和实施部署的成本。
在分布式方面,炎凰数据于今年6月发布新版本的数据平台产品,采用了分布式架构,提升了对于大规模,高并发数据的处理性能。
- 注重平台易用性
数据平台的易用性往往也是企业用户在选择产品时会重点考虑的因素,通过减少繁琐的操作,用户可以专注于数据分析工作,获取洞察。因此,炎凰数据一直注重提升数据平台的易用性。
首先是查询语言方面,区别于业内同类的异构数据分析平台通常采用定制的搜索语言,如SPL、Elastic query DSL等,炎凰数据平台支持用户使用标准SQL语言进行数据查询,除了支持过滤,映射,去重,聚合,排序,关联等基本SQL查询能力之外,还提供了大量标准函数和表函数的扩展,同时也支持用户自定义函数,极大降低了用户的学习门槛。
其次,炎凰数据平台提供了丰富的仪表板功能,基于平台集成的可视化图库echarts,用户可以使用各类常见的可视化解决方案,并将数据分析方法和分析结果保存在其中,加速企业内部数据价值的分享和传递。
深入应用场景,用数据提升客户业务效益
数据平台最终还是需要在具体的应用场景中,为用户的业务提供洞察,提升业务效益。总体而言,炎凰数据的产品可以作为企业数字化转型的数据平台和效能工具,在运维、安全、生产制造等多种真实场景中,为用户提供快速分析和解决业务问题的能力。
图4:炎凰数据平台产品定位
- 跨领域数据分析,提升企业IT治理水平
在IT运维领域,炎凰数据的异构数据即时分析平台可提供关联多源日志数据的能力,帮助用户在IT基础平台运维、业务系统质量分析等场景高效洞察和定位问题。
企业IT基础平台运维:炎凰数据平台可以帮助企业用户整合基础平台多种产品日志,并通过一站式的工具组合,提供企业级的巡检、监控、统计、报表、统一视图、用量透视、辅助规划能力,企业的IT平台运行状况因此可以一目了然。
业务系统质量度量与分析:炎凰数据平台具备便捷接入各类来源数据的能力,可以快速关联分析多个应用系统的日志数据,提供全流程业务质量度量,通过描画应用调用链,精准定位系统的业务故障。
- 兼顾效率与灵活,保障网络完全防护
随着企业数字化的深入,大中型企业在网络安全方面,也会面临着更高的威胁。炎凰数据平台对于异构数据的即时分析能力可以帮助企业在网络安全领域建立安全运营中心(SOC)。通过配合企业的安全设备,平台能够持续分析威胁数据,清晰探查攻击链路,并准确定位攻击源;同时,平台也能够对多安全系统进行跨域关联分析,提供定期的统计与报表,实现高效的安全告警。
广泛连接异构数据,助力企业生产
在制造业,领先的生产型企业在设备上有大量传感器在持续不断地收集各类IoT数据,不同传感器收集的数据可能存在数据格式和标准不一致的问题,这使得多传感器数据的关联分析具备较高难度。而炎凰数据平台可以轻松实现对各类型产线传感器数据进行关联和综合分析,为产品设计、产线调优等场景提供精准洞察,提升制造业企业的生产效率。
5.异构数据潜力巨大,价值有待进一步深挖
与异构数据庞大的数据规模及潜在价值相比,国内企业当前对于异构数据的挖掘利用整体还处于较初级的水平。随着以炎凰数据为代表的异构数据即时分析平台在功能、性能、易用性上的不断完善,以及企业对于异构数据价值的认识逐渐提高,预期国内企业将会在各类业务场景中加强对于异构数据探索分析。
为了加速这一进程,帮助业内企业用好分析工具,拓宽应用场景,炎凰数据近期推出了免费的社区版一站式异构数据分析平台产品——鸿鹄,并提供相应的交流平台,旨在帮助广大开发者可以灵活地管理海量多源异构数据,快速地分析数据特征,助力用户轻松实现数据驱动业务。
截至当前,鸿鹄社区已经汇集了众多来自字节跳动、中金所、平安、阿里、移动、公安部研究所、电信等知名企业机构的研发人员、数据分析师、数据科学家等人员,并产生了多个创新性的应用案例。
如在公安部第三研究所“网络安全态势感知系统”应用案例中,用户提出了一种基于鸿鹄数据平台的网络安全态势感知系统,系统借助鸿鹄数据平台读时建模、时序处理、数据搜索等高效灵活的超大数据存储和分析处理能力,以安全大数据为基础,从全局角度提升对安全威胁的发现识别、理解分析、响应处置能力,最终实现网络安全态势感知能力的落地。
在上海耀乘科技“微服务应用的可观测性平台”应用案例中,用户基于鸿鹄自主研发的读时建模引擎,可以快速导入和存储异构数据,支持动态调整数据模型和分析参数,无需固化模型和分析流程。当业务分析场景有变化时,只需调整SQL分析语句,快速响应,符合搭建可观测性场景的需求。因此保障了在微服务应用中,当请求跨越多个微服务时,每一个微服务都具有透明性和可观测性,从而使工程人员能够及时准确地观测和诊断问题。
可见,异构数据分析正不断在多个业务领域创造出重要价值,相信在不久的将来,异构数据分析即时平台将成为企业的必备基础设施。