组织管理其数据基础设施的方式正在发生重大转变。越来越多的公司认识到存储和计算分离的优势,从而获得更好的性能、成本节约和可扩展性。这一趋势是由 AI 和 ML 工作负载日益复杂所推动的,这些工作负载需要灵活、高性能的系统。Databricks 首席执行官 Ali Ghodsi 是这一转变的杰出倡导者。在最近的一次演讲中,他强调了组织控制自己的数据的重要性。他鼓励公司停止依赖 Snowflake 和 Databricks 等供应商来管理他们的数据,而是使用基于对象存储构建的数据湖。好处?更多控制、更低的成本以及扩展数据基础设施以满足不断增长的需求的能力。Ghodsi 的信息是供应商构建、销售和倡导更具成本效益和灵活性的数据架构的更广泛运动的一部分。事实证明,存储和计算紧密集成的传统系统不足以处理 AI 和 ML 的海量数据量和处理需求。像 Databricks 这样的供应商比以往任何时候都更加投入计算,并将存储留给一流的对象存储软件。这种策略的峰值实现是在现代数据湖中,通常称为湖仓一体。现代数据湖将数据湖的灵活性与数据仓库的性能相结合。在 Databricks 等供应商的支持下,存储和计算的这种解耦标志着数据架构的关键转变,使组织能够构建高度灵活且可扩展的数据基础架构,以满足 AI 和 ML 工作负载的需求,同时最大限度地提高控制力并最大限度地降低成本。
Decoupling: 为什么它会改变游戏规则
在整个行业中,许多人都认识到,过去的单体系统已经不再适用。由 MinIO 等对象存储提供支持的现代数据湖正在成为面向未来的基础设施的标准。这种转变不仅仅是为了节省资金,尽管它确实如此,它还是为了让组织能够处理未来的数据需求,同时与当今的 AI/ML 系统、模型和工具合作。在数据呈指数级增长且 AI/ML 工作负载越来越普遍的世界中,对灵活、经济高效的基础设施的需求至关重要。传统的数据平台(如 Hadoop)通常集成了存储和计算,这在理论上听起来很高效,但在实践中会导致效率低下。使用这些传统架构,您最终需要为闲置的计算资源或未充分利用的存储付费。借助解耦架构,您可以独立扩展存储和计算。对于 AI 和机器学习来说,这是一个巨大的优势:可以有效地存储海量数据集,并且可以动态分配计算资源用于模型训练、数据处理或分析。
使用 Object Storage Anywhere 构建现代数据湖
如果您希望构建能够处理 AI 和 ML 需求的现代数据湖,那么高性能对象存储是必不可少的。例如,MinIO 提供针对大规模数据优化的企业级对象存储。通过使用像 MinIO 这样的系统,组织可以确保其现代数据湖具有高度可扩展性、可靠性和高性能,这三点在处理大型 AI/ML 数据集时至关重要。MinIO 可以部署在本地、私有云、公共云、colos、边缘或工作负载需要的任何地方。全部使用易于获取的商用硬件。这就是现代数据湖的魔力真正发挥作用的地方:您可以将对象存储用于数据湖,同时在任何需要的地方享受数据仓库的性能优势,而不会被数据饥渴的供应商提供的昂贵专有解决方案所束缚,这些供应商希望创建人工围墙花园来困住您。实际上,这意味着您的数据科学家和机器学习工程师可以直接从对象存储查询和访问大量数据以训练模型,无论数据需要在哪里。这就是真正控制自己的数据的意义所在。
保障未来
随着组织重新考虑其数据架构,确保大量数据的安全性比以往任何时候都更加重要。MinIO 的企业对象存储密钥管理服务器 (KMS) 为管理数十亿个加密密钥提供了可扩展、高度可用的解决方案,这对于在对象级别加密数据至关重要。KMS 与硬件安全模块 (HSM) 和基于云的 HSM 无缝集成,为加密操作提供了强大的信任基础,无论是在云中、本地还是边缘。MinIO 还支持多租户,允许组织通过加密区域隔离不同的团队或部门,确保敏感数据受到保护并保持对 GDPR 和 HIPAA 等法规要求的合规性。结合身份和访问管理 (IAM)、服务器端加密和审计日志记录,MinIO 确保您的数据在现代数据湖架构的每一层都得到保护
构建未来
为了在 AI 和 ML 时代保持竞争力,组织必须重新考虑其数据战略。Lakehouse 模型正迅速成为现代、可扩展数据环境的黄金标准。通过采用灵活的高性能存储解决方案,而不是随意将数据移交给供应商,企业可以确保他们有能力处理当今的数据需求和未来的挑战。