想转行AI大模型开发但不知如何下手？看这篇就够了！

news2025/4/15 12:24:13

原创

最近有很多小伙伴问我，之前从事的其他领域的编程，现在想要学习AI大模型开发的相关技能，不知道从哪下手，应该学习些什么，下面四个是我认为从事大模型开发，必须掌握的四个开源工具，大家可以作为参考：

1、Hugging Face（抱抱脸）

Hugging Face是现在最大的AI开源社区，里面提供了很多的预训练模型，是一个模型库，很多人会把自己训练好的模型上传上去，大家可以免费下载使用。下载下来之后，我们就可以在此基础之上，进行微调或者推理，不用从0去训练一个大模型。并且大家可能都知道，微调模型时，数据的准备是一件费时费力的事，而在Hugging Face上也有很多的数据集，可供大家下载使用。所以Hugging Face也被人称作：AI领域的GitHub。

2、PyTorch

现在你从Hugging Face下载了一个模型之后，下一步要开始微调了，此时就需要用到PyTorch了。PyTorch是一个基于Python的开源机器学习库，可以说现在已经成为最流行的机器学习和深度学习框架了，它提供了一套简洁且强大的API，使得模型的构建和操作更加直观，你只需通过几行代码就可以构建自己的大模型。

3、DeepSpeed

通过上面两步的操作，你已经从Hugging Face上下载了一个模型，用PyTorch写好了微调的代码，现在准备要在服务器上进行训练或微调了，这时候我们就需要用到下面的这个工具了：DeepSpeed。因为大模型在服务器上进行训练或微调时，不可能只在一台服务器上，而DeepSpeed的作用是可以将你的模型快速放在多台服务器上进行并行化的训练或推理，所以你还需要继续完善代码，添加对DeepSpeed的支持。

上面的步骤都完成之后，你可以真正的在服务器上去训练或微调你的大模型了。最后你会得到一个训练或微调后的大模型文件，自己可以推理测试下，看看被你用于微调的数据集，是不是可以被推理出来。

4、LangChain

大模型被训练后，主要的作用是要用来进行推理。而我们可以开发一些AI应用，去调用大模型完成推理，例如去构建一个结合RAG+LLM的企业内部知识库系统，去开发一个基于AI的聚合搜索引擎，去开发某个领域的AI智能体应用等等。这时候，我们需要用到这个框架：LangChain。LangChain的定位是一个用于构建基于LLM驱动的应用程序开源框架，方便我们快速构建基于LLM的应用程序。里面内置很多API，简化了对大模型的操作。所以如果要基于大模型去开发应用程序，LangChain必不可少。

------------------

通过上面介绍的四款开源工具，我们可以从0去构建一个大模型了，并且还可以在此基础上去开发应用程序。我相信，上面这四款工具，现在已经成为了从事AI领域开发从业人员必备的4件套了。

但是上面的四款工具，如果你不是搞大模型的，只是单纯的开发大模型应用程序，掌握LangChain就可以了，无需掌握其他三个。