作者
Matt Bornstein、Jennifer Li和Martin Casado
摘要
现代机器学习基础设施2.0新架构: http://bit.ly/3AVBpV6 这个图概括了机器学习基础设施2.0的主要组成部分。它涵盖了从数据转换到模型集成的全过程。每个阶段的具体工具和技术也在括号中列出。
结构解读
以下是对这个图的大致解读:
1、数据转换:这是机器学习的第一步,涉及对原始数据的预处理和标注。这个阶段使用的工具包括Snorkel和Sagemaker等。
2、模型训练和开发:这个阶段涉及到模型诊断和扩展。使用的工具包括Nucleus和Aquarium。
3、模型推理:这个阶段涉及到模型的实际应用。它可能会使用各种预训练模型库,如Hugging Face和ModelZoo,以及一些机器学习框架,如Scikit-learn、XGBoost和MLlib等。
4、集成:这个阶段包括将模型集成到实际应用中,可能需要使用各种应用框架,如Flask、Streamlit和Rasa等。
基础设施组件
此外,这个图还提到了一些其他关键的机器学习基础设施组件,包括:
•数据源:原始数据的来源。
•工作流管理器:用于协调和管理机器学习工作流的工具,如Airflow、Prefect、Pachyderm等。
•查询引擎:用于查询和处理数据的工具,如Presto和Hive等。
•特征存储和服务器:用于存储和管理机器学习模型所需特征的工具,如Tecton、Feast和Databricks等。
•低代码机器学习:一些提供简单用户界面的工具,使非专业人员也能进行机器学习,如AutoML、H2O等。
最后,图中还提到了一些与监控、审计、实验跟踪和分布式处理等相关的工具。这些都是机器学习基础设施的重要组成部分。
原文:现代数据基础架构的新兴架构 |安德森·霍洛维茨