机器学习的基本做法是将数据转移到模型的环境中进行训练。由于今天的数据库比机器学习模型大好多个数量级,所以PostgresML的思路是,如果我们将模型引入数据集不是会容易得多吗?
PostgresML 是一个建立在流行的 PostgreSQL 数据库之上的综合机器学习平台。它引入了一种称为“数据库内”机器学习的新范式,允许您在 SQL 中执行许多 ML 任务,而无需在每个步骤中使用单独的工具。
PostgresML 支持来自 Scikit-learn、XGBoost、LGBM、PyTorch 和 TensorFlow 的 50 多种算法。这使您能够直接从数据库在许多监督学习任务上训练和部署 ML 模型。
由于 PostgresML 本质上是一个数据库,因此您可以在任何支持 Postgres 的环境中(基本上在任何地方)与其进行交互。并且该平台还提供适用于 16 种语言的 SDK(最好支持 JavaScript、Python 和 Rust)。
不过天下没有免费的午餐,需要一路注册、安装该数据库,然后举个例子,可以使用 Kaggle 的Diamonds 数据集创建一个表。
之前需要用vscode创建个项目,安装并连接数据库等操作,这里不叙述了。
下面的代码就是创建表,插入数据等
import seaborn as sns
diamonds = sns.load_dataset("