大道至简,炎凰数据要做极致好用的国产大数据分析基础软件|爱分析调研

news2024/9/30 15:23:48

自2000年代初大数据技术诞生以来,为了应对不断丰富的应用场景、日益复杂的数据类型,以及逐渐膨胀的数据规模,大数据业内逐渐发展出了多种技术路线。

到今天,大数据产品和技术已处于百花齐放的状态,国内市场近年来也因此涌现出了一批大数据厂商,针对多种应用场景的数据处理需求,如大规模离线数据处理、实时数据分析、异构数据分析等,提供不同的产品和解决方案。

炎凰数据就是其中一家新锐针对异构数据的大数据即时分析平台厂商。

成立至今三年间,炎凰数据持续深耕异构数据即时分析赛道,坚持国产自研和产品化路线,在竞争激烈的国内大数据市场中,走出了一条独特的路线,并获得了市场的认可。

异构数据即时分析的市场需求和发展前景如何?炎凰数据为何选择进入该市场?炎凰数据的团队和产品有哪些优势?带着这些问题,爱分析与炎凰数据董事长何宁、CTO王国栋进行了一次深入访谈。

异构数据即时分析平台:赋予用户自由探索未知数据的能力

异构数据大规模增长,如何从数据中快速获取洞察成为挑战

在传统大数据分析应用层面,企业通常会聚焦在固定报表、交互式查询分析等场景,对大量结构化数据进行分析。随着企业业务互联网化和数字化程度的加深,企业内的数据特征发生了以下两点结构性的变化:

1)企业的数据来源更加广泛,如数据可能来自各类业务系统、应用、数据库、物联网设备等,并且在很多场景都需要联合多个来源的数据进行关联分析。

2)企业的系统中逐渐产生了大量半结构化数据(如CSV、JSON、XML等),以及非结构化数据(如文档、音频、视频等)。根据IDC预测,到2025年全球数据总量将达到175ZB,其中超过 80% 的数据都将是处理难度较大的半结构化和非结构化数据。

图1:2025年全球数据总量及构成
在这里插入图片描述

然而,面对这些多源异构的数据,如果采用传统的数据处理和分析方式,即通过写时建模,预先定义数据schema,然后对数据进行ETL加工,导入数仓,用于支撑指定场景的数据查询分析,很难有效挖掘出这类异构数据的价值,这是因为:

首先,传统的数据处理模式要求部门之间紧密地协作,数据部门根据用数部门提出的需求预先排期对数据进行加工建模,当用数需求很多时,用户往往要数天甚至数周才能获取分析结果。

其次,在大部分针对异构数据的分析场景中,如对日志数据进行分析,用户需要从哪些角度分析数据,以及需要使用哪些维度的数据都不确定,很难采用预先规划的方式对非结构化数据进行分析。

异构数据即时分析平台,专为多源异构数据的查询分析而设计

正是为了满足企业对异构数据进行高效查询分析的需求,异构数据即时分析平台这一赛道近年来在国内市场逐渐变得明确和清晰。以炎凰数据的异构数据即时分析平台产品为例,它能够集成多个数据源的各类非结构化或结构化数据,并采用读时建模的方式,让企业可以在需要对数据进行查询分析时,通过自定义规则,对原始数据进行快速查询分析,支撑智能运维、安全合规和大量创新型业务分析等场景的分析需求。

图2:炎凰数据异构数据即时分析平台
在这里插入图片描述

而要支撑异构数据的即时分析,“读时建模”是其中最关键的技术。读时建模技术允许用户在读取数据时自定义规则,根据算法从原始数据中自动提取分析需要的字段,并支持用户根据业务需求动态地调整数据查询规则,从而避免繁重的传统ETL工作,提高异构数据处理的灵活度。

炎凰数据CTO王国栋认为,读时建模的灵活性让用户能够以较小的成本,根据分析需求的变化,快速完成数据模型的迭代,在复杂的异构数据分析中实现“time to value”。

因此,随着企业对异构数据分析的需求不断增长,异构数据即时分析平台的价值在于,帮助用户降低对于数据协作流程以及数据开发和管理团队的依赖,通过提供高效的数据分析工具,赋予用户自由、高效地探索数据,挖掘数据价值的能力。

2.“事为先、人为重“,炎凰数据是最合适的团队

如果要选出国内异构数据分析赛道最优秀的团队,炎凰数据必定是其中之一。这家成立于2020年7月的大数据公司,核心团队成员都来自于美国明星大数据公司Splunk的前中国研发中心,团队在异构数据分析领域有着深厚的技术和经验积累。

2019年底,在美国逐渐对中国进行技术上的封锁打击,以及中国市场环境变得更加复杂等背景下,Splunk宣布将研发中心迁出中国,这也给炎凰数据的成立提供了一个契机。曾担任Splunk全球副总裁、中国研发中心总经理,现为炎凰数据董事长的何宁表示:“在那样一个时间点上,我和我的创始团队,出于技术人的理想,希望利用自身的专长为业内提供一个灵活好用的分析工具,同时也为了打破国外公司的技术垄断,在读时建模和异构数据分析领域,打造自主可控的国产解决方案。”

带着这样的初衷和愿景,何宁与曾为Splunk中国研发中心核心研发成员的叶晓路、王国栋,倪跃,以及多位前Splunk的资深工程师,创立了炎凰数据。

在访谈中,随着话题的深入,我们愈加发现,这支团队身上有着诸多优势,才让炎凰数据在成立仅三年间,产品已打磨相对完善,并且也收获了一批行业头部客户,如众安保险、上海电力、知识星球等,从而顺利在国内市场打开了局面。

图3:炎凰数据创始团队(从左至右:倪跃、叶晓路、何宁、王国栋)
在这里插入图片描述

目前,炎凰数据主要的研发人员都来自Splunk。

首先,这让炎凰数据得以迅速组建起了一支成熟的团队,形成完整的研发能力,并且这支团队在Splunk时期已经经过了充分的磨合,保证了在整个产品研发流程中能够高效顺畅的合作。

其次,在Splunk这样全球一流的大数据公司深耕异构数据分析产品技术的研发,让团队建立了对这个领域的客户需求、市场环境,以及关键技术的深刻理解。

最后,服务于多家国外顶级软件产品公司的经历,让炎凰数据的团队非常熟悉大数据产品的开发流程、架构设计、技术选型等,这些经验有助于公司持续开发一款好的软件产品。

当然,随着公司的发展,炎凰数据也逐渐吸纳了一批在市场、商务等方面有专长的优秀人士加入,让整个团队的能力更完善,更能应对市场竞争和环境变化。

3.紧贴市场需求变化,持续打造一款好用的数据平台产品

凭借着团队在读时建模技术,以及异构数据分析平台开发等方面的积累,炎凰数据在成立后,很快开发和打磨出了一个涵盖主要功能的异构数据即时分析平台产品。

然而,由于近年来企业数字化建设持续深入,以及中国企业用户需求的特殊性,完全复刻Splunk的产品技术已经不能满足今天的中国市场的需求。

因此,炎凰数据在最近两年持续洞察用户需求,并不断进行产品升级,希望为企业用户提供好用、易用的数据平台产品。总结起来,炎凰数据主要从以下四个层面,对异构数据即时分析平台产品不断进行优化和创新。

  • 坚持走产品化路线

对于很多企业用户而言,异构数据处理和分析难度很高,如果需要自行考虑和解决大数据技术栈之间的搭建问题,往往效果不佳,同时也耗费了很多额外的精力。

因此,炎凰数据提供了一站式的数据平台产品,提供了从数据导入、数据集成、数据建模、数据存储、数据分析、数据服务、数据可视化等端到端的能力,使用户可以开箱即用,免去在基础设施构建和配置上的复杂工作。

而在标准化的产品之外,炎凰数据也充分考虑了国内很多大型企业潜在的定制化需求。

具体而言,炎凰数据采取的策略是,将一个完整的数据平台上80%属于用户共性需求的功能设计为标准化的产品,而对剩余20%左右不同客户可能存在的个性化需求,炎凰数据则将相关能力进行封装,并构建了一个合作伙伴生态,由这些合作伙伴利用自身的专长充分理解客户的特殊需求,并完成相应的功能开发。从而既满足了客户需求,也让炎凰数据可以专注于产品的持续打磨和升级。

  • 持续优化底层计算引擎

尽管读时建模为异构数据的即时分析提供了一个有效的解决方案,但读时建模也有着一个较明显的短板,即读时建模的算力开销较大,这在数据规模较大时,如不对引擎进行深入优化,将会显著影响数据查询的性能。

针对这一问题,炎凰数据持续在自研的大数据计算引擎上进行了大量优化工作。包括在向量化计算、即时编译,基于列式存储的数据压缩,并发任务安排等多方面做了大量精巧的设计与优化,以加快运算速度,提高数据吞吐量,降低算力消耗,从而可以在绝大部分场景中实现相对即时的分析结果。

  • 采用全新的基础架构

区别于Splunk时代,今天的企业对于数据分析的计算环境、数据规模都比以往有着很大的不同。一方面,一些企业的很多业务系统和数据平台都部署在云上,同时对于资源使用的灵活性有着很高要求;另一方面,随着企业数据规模的不断提高,如何应对高吞吐、大规模数据的分析,也成为了企业迫切需要解决的问题。

炎凰数据也敏锐的察觉到了这些变化,因此很早就开始规划和进行平台基础架构上的升级,引入云原生和分布式架构和技术。

在云原生方面,炎凰数据平台基于全新的云原生架构而设计,无论在云端还是私有化部署,都能够通过存算分离,为用户带来存储和计算资源的弹性扩展能力,从而可以有效应对高峰期的查询需求,并大幅降低运维和实施部署的成本。

在分布式方面,炎凰数据于今年6月发布新版本的数据平台产品,采用了分布式架构,提升了对于大规模,高并发数据的处理性能。

  • 注重平台易用性

数据平台的易用性往往也是企业用户在选择产品时会重点考虑的因素,通过减少繁琐的操作,用户可以专注于数据分析工作,获取洞察。因此,炎凰数据一直注重提升数据平台的易用性。

首先是查询语言方面,区别于业内同类的异构数据分析平台通常采用定制的搜索语言,如SPL、Elastic query DSL等,炎凰数据平台支持用户使用标准SQL语言进行数据查询,除了支持过滤,映射,去重,聚合,排序,关联等基本SQL查询能力之外,还提供了大量标准函数和表函数的扩展,同时也支持用户自定义函数,极大降低了用户的学习门槛。

其次,炎凰数据平台提供了丰富的仪表板功能,基于平台集成的可视化图库echarts,用户可以使用各类常见的可视化解决方案,并将数据分析方法和分析结果保存在其中,加速企业内部数据价值的分享和传递。

深入应用场景,用数据提升客户业务效益

数据平台最终还是需要在具体的应用场景中,为用户的业务提供洞察,提升业务效益。总体而言,炎凰数据的产品可以作为企业数字化转型的数据平台和效能工具,在运维、安全、生产制造等多种真实场景中,为用户提供快速分析和解决业务问题的能力。

图4:炎凰数据平台产品定位
在这里插入图片描述

  • 跨领域数据分析,提升企业IT治理水平

在IT运维领域,炎凰数据的异构数据即时分析平台可提供关联多源日志数据的能力,帮助用户在IT基础平台运维、业务系统质量分析等场景高效洞察和定位问题。

企业IT基础平台运维:炎凰数据平台可以帮助企业用户整合基础平台多种产品日志,并通过一站式的工具组合,提供企业级的巡检、监控、统计、报表、统一视图、用量透视、辅助规划能力,企业的IT平台运行状况因此可以一目了然。

业务系统质量度量与分析:炎凰数据平台具备便捷接入各类来源数据的能力,可以快速关联分析多个应用系统的日志数据,提供全流程业务质量度量,通过描画应用调用链,精准定位系统的业务故障。

  • 兼顾效率与灵活,保障网络完全防护

随着企业数字化的深入,大中型企业在网络安全方面,也会面临着更高的威胁。炎凰数据平台对于异构数据的即时分析能力可以帮助企业在网络安全领域建立安全运营中心(SOC)。通过配合企业的安全设备,平台能够持续分析威胁数据,清晰探查攻击链路,并准确定位攻击源;同时,平台也能够对多安全系统进行跨域关联分析,提供定期的统计与报表,实现高效的安全告警。

广泛连接异构数据,助力企业生产

在制造业,领先的生产型企业在设备上有大量传感器在持续不断地收集各类IoT数据,不同传感器收集的数据可能存在数据格式和标准不一致的问题,这使得多传感器数据的关联分析具备较高难度。而炎凰数据平台可以轻松实现对各类型产线传感器数据进行关联和综合分析,为产品设计、产线调优等场景提供精准洞察,提升制造业企业的生产效率。

5.异构数据潜力巨大,价值有待进一步深挖

与异构数据庞大的数据规模及潜在价值相比,国内企业当前对于异构数据的挖掘利用整体还处于较初级的水平。随着以炎凰数据为代表的异构数据即时分析平台在功能、性能、易用性上的不断完善,以及企业对于异构数据价值的认识逐渐提高,预期国内企业将会在各类业务场景中加强对于异构数据探索分析。

为了加速这一进程,帮助业内企业用好分析工具,拓宽应用场景,炎凰数据近期推出了免费的社区版一站式异构数据分析平台产品——鸿鹄,并提供相应的交流平台,旨在帮助广大开发者可以灵活地管理海量多源异构数据,快速地分析数据特征,助力用户轻松实现数据驱动业务。

截至当前,鸿鹄社区已经汇集了众多来自字节跳动、中金所、平安、阿里、移动、公安部研究所、电信等知名企业机构的研发人员、数据分析师、数据科学家等人员,并产生了多个创新性的应用案例。

如在公安部第三研究所“网络安全态势感知系统”应用案例中,用户提出了一种基于鸿鹄数据平台的网络安全态势感知系统,系统借助鸿鹄数据平台读时建模、时序处理、数据搜索等高效灵活的超大数据存储和分析处理能力,以安全大数据为基础,从全局角度提升对安全威胁的发现识别、理解分析、响应处置能力,最终实现网络安全态势感知能力的落地。

在上海耀乘科技“微服务应用的可观测性平台”应用案例中,用户基于鸿鹄自主研发的读时建模引擎,可以快速导入和存储异构数据,支持动态调整数据模型和分析参数,无需固化模型和分析流程。当业务分析场景有变化时,只需调整SQL分析语句,快速响应,符合搭建可观测性场景的需求。因此保障了在微服务应用中,当请求跨越多个微服务时,每一个微服务都具有透明性和可观测性,从而使工程人员能够及时准确地观测和诊断问题。

可见,异构数据分析正不断在多个业务领域创造出重要价值,相信在不久的将来,异构数据分析即时平台将成为企业的必备基础设施。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/837040.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

.Net6 Web Core API --- AOP -- log4net 封装 -- MySQL -- txt

目录 一、引入 NuGet 包 二、配置log4net.config 三、编写Log4net封装类 四、编写日志记录类 五、AOP -- 拦截器 -- 封装 六、案例编写 七、结果展示 一、引入 NuGet 包 log4net Microsoft.Extensions.Logging.Log4Net.AspNetCore MySql.Data ---- MySQL…

好用的智能ai绘画文字转绘画软件大揭秘

在一个平凡的小镇上,有一位名叫李彤的年轻画家。她对绘画充满了热爱和渴望。但因为经济条件有限,无法承担昂贵的绘画软件费用。然而,就在她感到困惑和单调的文字转换为令人惊叹的绘画作品,让每一位渴望艺术表达的人都能轻松实现自…

css实现卡片的左上角有一个三角形的遮盖效果

需求: 卡片的左上角有一个绿色的三角形标签,用来区分状态 实现: .vCard{position: relative;overflow: hidden; } .vCard::before {content: "";position: absolute;top: 0;left: 0;width: 0;height: 0;border-bottom: 20px solid transparent;border-left: 20px …

直线模组在机械手中的应用

机械手是一种能模仿人手和臂的某些动作功能,用以按固定程序抓取、搬运物件或操作工具的自动操作装置,可代替人的繁重劳动以实现生产的机械化和自动化,能在有害环境下操作以保护人身安全,因而广泛应用于机械制造、冶金、电子、轻工…

创新赛制,顶尖赛题!| 2023第二届粤港澳大湾区(黄埔)国际算法算例大赛十赛道虚位以待!

2023 第二届“粤港澳大湾区(黄埔)国际算法算例大赛”(以下简称“大赛”)于 2023 年 7 月 15 日正式开赛。大赛面向全球,诚邀有创新精神,并有较好的AI算法算例基础的高校学生、AI领域相关企业和研究院所的从…

硬件串口通信协议学习(UART、IIC、SPI、CAN)

0.前言 学习资料:江协科技的个人空间-江协科技个人主页-哔哩哔哩视频 通信的目的:将一个设备的数据传送到另一个设备,扩展硬件系统通信协议:制定通信的规则,通信双方按照协议规则进行数据收发 全双工:通信…

寄件管理系统设置教程

“企业寄件管理系统”或许是个小众词汇,但是“企业寄件”却是各家公司都不陌生的词汇。在经济和快递发展的双重影响之下,企业寄件早已成为企业运转的日常事项之一,企业寄件管理也越发被企业管理者所重视。我们对企业管理系统并不陌生&#xf…

go 基本语法(简单案例)

!注: go中 对变量申明很是严格,申明了,在没有使用的情况下,也会产生编译错误 1.行分隔符 一行就是代码,无;分割,如果需要在一行展示,需要以;分割,…

短信端口和端口短信的概念

什么是端口短信 端口短信是针对点到点短信来说的,点到点即手机直接发给手机的,端口就是使用软件发给手机的。软件是移动运营商合作的内容提供商开发的,遵守运营商的规范,有端口号。 短信端口是什么意思? 是针对点到点短信来说的,点对点即手机直接发给手机的,端口就是使用软…

C# PaddleDetection 版面分析

效果 项目 代码 using OpenCvSharp; using OpenCvSharp.Extensions; using Sdcb.PaddleDetection; using Sdcb.PaddleInference; using System; using System.Collections.Generic; using System.ComponentModel; using System.Data; using System.Drawing; using System.Lin…

java:JUnit单元测试

背景 一般软件测试分为白盒测试和黑盒测试 黑盒测试:就是现在一般测试人员的工作点点点,只要功能正常就行白盒测试:需要关注代码的具体执行过程,是需要写代码的 JUnit 框架是进行白盒测试使用的。 不使用单元测试框架 没有单…

看一家头部实干派互娱公司如何玩转DataOps?

DataOps的概念自首次被提出至今已有8年,并在2018年被Gartner纳入数据管理技术成熟度曲线。从实施上看,当下DataOps仍处在发展初期,鲜少企业或团队能据此真正沉淀一套方法论或技术产品的体系。不过,随着越来越多的企业开启DataOps实…

【flink】使用flink-web-ui提交作业报错

使用WebUI提交作业出现错误。 错误截图: 弹框信息: Server Response Message: org.apache.flink.runtime.rest.handler.RestHandlerException: Could not execute application.at org.apache.flink.runtime.webmonitor.handlers.JarRunHandler.lambda$h…

行业追踪,2023-08-04

自动复盘 2023-08-04 凡所有相,皆是虚妄。若见诸相非相,即见如来。 k 线图是最好的老师,每天持续发布板块的rps排名,追踪板块,板块来开仓,板块去清仓,丢弃自以为是的想法,板块去留让…

idea使用protobuf

本文参考:https://blog.csdn.net/m0_37695902/article/details/129438549 再次感谢分享 什么是 protobuf ? Protocal Buffers(简称protobuf)是谷歌的一项技术,用于结构化的数据序列化、反序列化。 由于protobuf是跨语言的,所以用…

进程与线程、线程创建、线程周期、多线程安全和线程池(ThreadPoolExecutor)

目录 进程与线程线程和进程的区别是什么?线程分两种:用户线程和守护线程线程创建四种方式run()和start()方法区别:为什么调用 start() 方法时会执行 run() 方法,为什么不能直接调用 run() 方法?Runnable接口和Callable…

最强实战,接口自动化测试Python3+Requests+Unittest+ddt框架封装(详细)

目录:导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结(尾部小惊喜) 前言 接口自动化测试框…

RDP远程桌面服务的RD授权过期解决方法

RDP远程桌面服务的RD授权过期解决方法 一、打开远程桌面会话主机配置二、打开远程桌面授权模式属性三、选择远程桌面授权模式四、添加许可证服务器五、选择确定保存设置六、RD授权设置成功七、查看“授权诊断” 一、打开远程桌面会话主机配置 二、打开远程桌面授权模式属性 双…

35岁,不是体能衰老的分界线!

35岁,不是体能衰老的分界线 1. 35岁以上求职者同比增长14.9%,体能下滑成为35岁以上年龄群体的标签。 2. 35岁人群开始感觉经常失眠、腰背痛和肥胖,体力不济可能是常年累积的不规律作息和饮食习惯导致。 3. 35岁以后体能下滑,无法高…

视频添加字幕

1、依靠ffmpeg 命令 package zimu;import java.io.IOException;public class TestSrt {public static void main(String[] args) {String videoFile "/test/test1.mp4";String subtitleFile "/test/test1.SRT";String outputFile "/test/testout13…