人工智能的进步可能是2024年的主要推动力,也凸显出大数据的挑战——如何存储、管理、管理和使用大数据——从未如此紧迫。,因为如果作为基石的数据失控,人工智能就没有意义了。当然反之亦然。
人工智能的进步可能是2024年的主要推动力,也凸显出大数据的挑战——如何存储、管理、管理和使用大数据——从未如此紧迫。,因为如果作为基石的数据失控,人工智能就没有意义了。当然反之亦然。
在新的一年里,大数据会给我们带来什么?尽管科技发展很难预测,行业专家仍然试图通过对大数据领域的预测,为我们揭示未来。
数据库提供商Percona的技术传道者Dave Stokes表示,人们对矢量数据库的兴趣将会激增。然而,它无法“独当一面”。
Stokes预测:“矢量数据库将成为许多人讨论的热门新领域,但几年后最终将被关系数据库所吸收。”“每隔10年左右,就会有一种‘新’数据库技术被宣布为关系数据库,开发人员也会加入这一潮流,结果却发现关系模型非常灵活,关系数据库供应商可以轻松地将新技术应用到他们的产品中。
不同数据孤岛的存在一直是数据工程师的眼中钉。但据Hammerspace的营销高级副总裁Molly Presley称,2024年将带来一线希望,因为一种集中式的数据编排形式将占据中心位置。
“组织将开始从‘存储和复制’转向数据编排的世界。”Presley说,“在人工智能进步的推动下,现在存在强大的工具来分析数据并梳理出可操作的见解。然而,文件存储基础设施并没有跟上这些进步的步伐。与试图通过将文件副本从一个地方移动到另一个地方来管理存储筒仓和分布式环境的解决方案不同,数据编排帮助组织将来自不同筒仓和位置的数据集成到单个命名空间中,并在最有价值的时间和地点自动放置数据,从而更容易分析和获得见解。”
我们存储的大多数数据都是非结构化的。MinIO的联合创始人兼首席执行官Periasamy表示,随着数据的堆积,管理起来真的是一个挑战,但2024年将带来新的管理方法。
“到2024年,随着人工智能应用的飞速发展,我们将看到企业真正的非结构化数据(音频、视频、会议记录、演讲、演示)出现爆炸式增长。从人工智能的角度来看,这是高度‘可学习’的内容,将其收集到人工智能数据湖中将大大提高整个企业的智能能力,但它也带来了独特的挑战。” Periasamy说,“保持数十PB数据的性能存在明显的挑战。这些问题通常不能用传统的SAN/NAS解决方案解决——它们需要现代的、高性能的对象存储的属性。这就是为什么大多数AI/ML技术(如OpenAI、Anthropic、Kubeflow)都利用对象存储,以及为什么大多数数据库都转向以对象存储为中心。”
根据Forrester的研究,企业管理的非结构化数据将在2024年翻一番,为人工智能开辟了潜在的有利可图的新选择。
该分析集团表示:“全球数据和分析决策者表示,他们组织管理的数据中只有27%是非结构化的。”随着公司为客户和员工推出更多的对话体验,生成式人工智能将使这一数字翻一番。企业将争相存储、分析和理解这些大量的非结构化数据。这一趋势将出现在数据管道领域,到2024年,80%的新数据管道将用于获取、处理和存储非结构化数据。
Faction技术和运营副总裁Jeff Heller表示,到2024年,全球许多企业将实施数据优先架构,以简化其数据管理策略。
“公司正在经历范式转变:他们要么选择一种云,要么选择另一种架构来满足他们的需求。” Heller说,“到2024年,企业将需要考虑哪种云计算最适合他们,以充分利用他们的数据。基于短期目标而非长期增长的决策将导致数据锁定。为了及时做出决策,数据需要准确和可访问。对于组织来说,管理数据正变得越来越复杂。对高效数据管理策略的需求是至关重要的。企业将转向提供从所有云的首选位置访问单个数据集的解决方案,以确保数据准确性和提高效率。”
数据管道公司Matillion的首席产品官Ciaran Dynes表示,人工智能革命正在触及生活的方方面面,包括大数据管理。
“在过去的十年里,数据工程师的角色已经从根本上扩展了。” Dynes说,“未来12个月将是科技公司让数据工程师的工作变得更简单的一年。新工具将进入市场,集成到现有的平台中,从而能够将生成式人工智能添加到现有的数据管道中,并能够在内部部署这些模型,这样用户就可以像使用ChatGPT一样与这些模型进行实时交互。不管市场上的工具是什么,明年对数据工程师的重新培训也将是巨大的需求,以掌握提示工程,如何微调这些模型,如何大规模提高他们的生产力。明年,数据工程师的生活将变得更加有趣。”
你有多看重数据工程师?据Snowflake公司产品管理总监Jeff Hollan说,到2024年,它们的价值将会更高。
Hollan说:“有很多人认为,人工智能革命将取代数据工程师的角色。事实并非如此,事实上,他们的数据专业知识将比以往任何时候都更加重要,只是以一种新的、不同的方式。为了跟上不断变化的形势,数据工程师需要了解生成式人工智能如何增加价值。由数据工程师构建和管理的数据管道可能是连接大型语言模型的第一个地方,以便组织释放价值。数据工程师将是那些了解如何使用模型并将其插入数据管道以自动提取价值的人。他们还需要监督和理解人工智能的工作。”
当数据由云中的第三方管理时,您可能会觉得数据失去了控制。Ngrok的首席技术官 Peter Shafton预测,2024年将是你开始重新掌控自己数据的一年。
Shafton说:“2024年的数据管理将显著转向更易于访问和控制。”“虽然过去十年见证了基于云计算的数据解决方案的热潮,但钟摆又回到了更多的自我管理。这种转变背后的原因有两个:隐私和成本效益。数据泄露的持续威胁以及对更严格的访问控制的需求使企业对仅依赖外部云平台持谨慎态度。此外,云数据存储和处理成本的不可预测性促使组织寻求更具可预测性和成本效益的解决方案。可访问且用户友好的数据管理工具的激增也促进了这一趋势,这些工具通常源于Uber、Netflix和Airbnb等科技巨头开创的开源解决方案。
“数据智能”这个术语已经发展了几年,指的是组织对其数据使用的各种数据管理工具。Nasuni的首席创新官Jim Liddle表示,未来12个月将是这个概念成败的关键。
Liddle说:“数量惊人的公司存储大量数据,仅仅是因为他们不知道数据中有什么,也不知道他们是否需要这些数据。”“数据是准确的和最新的吗?是否正确分类和“可搜索”?它是否兼容?它是否包含个人身份信息(PII)、受保护的健康信息(PHI)或其他敏感信息?它是按需提供还是存档?在未来的一年里,所有公司都将被迫接受人工智能的数据质量、治理、访问和存储要求,然后才能推进数字化转型或改进计划,以获得所需的竞争优势。”
Coalesce的首席执行官兼联合创始人Armon Petrossian表示,如果不能保持数据的质量和完整性,那么你就可以和2024年的GenAI计划说再见了。
他说:“到2024年,随着数据从有价值的资产演变为蓬勃发展的企业的命脉,技术领域将见证一场变革。”“忽视数据质量、完整性和血统的组织将面临挑战,不仅要做出明智的决策,还要实现生成式人工智能、法学硕士和机器学习应用程序和用例的全部潜力。随着今年的发展,我预测,那些忽视建立强大的数据基础和战略的组织将发现,在快速发展的科技行业中保持生存越来越具有挑战性。那些不能适应和优先考虑数据基础的公司将难以超越竞争对手,甚至可能面临在这个竞争激烈的环境中生存的风险。”
数据沿袭构成了一个持续的挑战。altair云计算总工程师Yeshwant Mummaneni预测,2024年,区块链将伸出援手。
Mummaneni说:“由于人工智能/机器学习模型在关键决策中发挥着关键作用,无论是由人类监督还是以完全自主的方式,模型的来源/血统变得至关重要。”“为区块链提供记录、数字身份、签名和利用密码学验证的不变性的基础技术,将成为企业人工智能提供防篡改模型来源的关键方面。”
另一个大数据趋势将像2024年寒冷冬夜的冰晶一样增长:合成数据。这是SAS公司高级分析产品经理斯Potamitis说的。
Potamitis表示:“随着组织面临更严格的监管,以及跨境共享敏感数据变得更具挑战性,合成数据将获得很大的吸引力。”“合成数据可以高精度地捕获原始数据源的统计属性,从而克服监管障碍,为组织开启创新之门。”
ALTR首席执行官Beecham表示,虽然你的大数据存储库感觉不错,但2024年将是数据治理“向左移动”的一年。
Beecham说:“组织将在数据传输的早期实施数据治理和安全措施,在云数据仓库的左侧,这不仅可以保护敏感信息,还可以提高所收集数据的整体质量。”“随着有关数据隐私和安全的法规越来越多,早期优先考虑数据治理和安全的公司将更好地遵守这些法规。到2024年,预计将有大量公司优先考虑数据治理和安全的转移,使他们能够在云数据仓库和湖屋上启动强大的数据访问治理和数据安全功能,并在数据离开源系统时将其扩展到数据。”
在2023年,数据网格在其他技术趋势中退居次要地位(主要风头在于GenAI),但在2024年,数据网格的好处将变得非常明显,不容忽视,Denodo的首席执行官Angel Viña说。
Viña表示:“2024年将是数据网格崛起的关键一年,它包含了数据固有的分布式特性。”“在数据网格中,IT的角色转变为为数据域提供基础以完成其工作,即在整个企业中创建和分发数据产品。转折点将是认识到数据产品应与任何其他产品同等重要。在这个以数据为中心的时代,仅仅包装数据是不够的,企业需要提升终端用户的整体体验。”