一、写在前面
人们普遍认为GPT有潜力颠覆教育行业,然而这种颠覆会以何种方式呈现呢?
在刘慈欣的科幻世界中,三体人拥有知识遗传的能力,这使得他们的技术迭代成本降至最低。然而,我们人类并未具备这样的特性,每个新生命从出生之初就需要接受全新的教育。作为一名肩负教育职责的科研工作者,每一次面对新生群体,都意味着重新开始的教学过程。无论在实验还是跑代码的过程中,都会有一些常见的坑,我会看着一届又一届的学生走进这些坑,然后尽力引导他们找到出路。这个过程不断重复,不仅耗费巨大的精力,也严重影响了教育效率。
因此,如果存在一个全天候在线的智能问答机器人,它能极大地提升教育效率。然而,当前的GPT在专业领域的表现仍然较弱。例如,我的一个研究领域是马尔尼菲篮状菌,这是一种在某些区域高发的艾滋病的机会性感染源,但GPT对此几乎一无所知。
我一直在蹲一个便宜的、好用的、是那么一回事的知识库建立平台,最近蹲到了一个大佬开发的平台:Mucloud(慕云社)。
简单测试了一下,还不错:
二、尝鲜
(1)语料准备:
由于是简单测试,我就选取马尔尼菲篮状菌的最新最权威的综述,里面的一段来作为训练。
但是需要整理一个格式,SCI的版面经过排版,一小段的排列,如下图:
可以看到,右边都是留白,说明存在断行符,可能会影响文本的拆分。同时,论文中存在参考文献,需要去掉。这里我使用GPT来处理:
咒语:请整理下面{段落},要求去掉换行符,以及参考文献;
段落为:{XXXX};
参考文献格式为:(数字)。
GPT-4输出了干净清爽的word文本:
(2)开始建立知识库:
(a)打开网址:https://mucloudgroup.cn;点击“MucloudGPT”
(b)点击“立即开始”,完成注册,点击登录;
(c)点击“知识库”,新建一个知识库;
(d)导入你的知识库;
注意:支持 .txt,.doc,.docx,.pdf,.md 文件。Gpt会自动对文本进行QA拆分,需要较长训练时间,拆分需要消耗tokens,账号余额不足时,未拆分的数据会被删除。一个1个文本。
(d)经过等待后,导入成功。为了保险,我又手动添加了一些信息:Talaromyces marneffei的中文名称是马尔尼菲篮状菌,简称为T. marneffei,或者TM,或者Tm。造成的疾病叫做马尔尼菲篮状菌病,英文为talaromycosis。以及 马尔尼菲篮状菌属于篮状菌属,英文为Talaromyce。
(f)简单的测试:
输入一个问题:什么是马尔尼菲篮状菌?点击测试,就会从知识库里自动匹配出相关信息,检查一下是否匹配正确。若不正确,需要进行知识的补充。
(g)关联知识库:
点击“调整搜索参数”,进行设置“相似度”和“单词搜索数量”:
(g)立即对话:
还阔以,马马虎虎。毕竟学习资料只有一段话。
(f)看看收费情况:
其实我倒腾了挺久了,20次多账单记录,一共是花费了1.2RMB吧,也还好。
三、总结
这或许揭示了未来教学机器人的发展初期模型和思路。预见到各专业领域都将拥有专属于自己的辅助机器人,并在多模态数据的融合下,其功能将日益强大。
然而,也必须承认其存在的不足。首要的挑战在于需要大量高质量的语料库进行训练,这将直接导致Token使用费用的显著增长。简而言之,实现这一目标仍需要投入大量的资金。