文章目录
- 基础任务
- 作业记录
- 1. 环境准备
- 2. 模型准备
- 3. 修改配置文件
- 4. 知识库创建
- 6. 启动茴香豆webui
基础任务
在 InternStudio 中利用 Internlm2-7b 搭建标准版茴香豆知识助手,并使用 Gradio 界面完成 2 轮问答(问题不可与教程重复,作业截图需包括 gradio 界面问题和茴香豆回答)。知识库可根据根据自己工作、学习或感兴趣的内容调整,如金融、医疗、法律、音乐、动漫等。
作业记录
web版使用
这里需要添加知识库对应的名称及密码(如果没有相当于新建一个),这里我选择了关于一个关于医疗器械的文档作为我的知识库构建的材料。
然后可以尝试添加正反例。
结果展示(反例):
开发机本地部署版
1. 环境准备
首先可以使用开发机内置的conda环境,如下所示
# 创建conda环境
studio-conda -o internlm-base -t huixiangdou
conda activate huixiangdou
# 拉取茴香豆源码
cd /root
# 克隆代码仓库
git clone https://github.com/internlm/huixiangdou && cd huixiangdou
git checkout 79fa810
然后我们还需要安装茴香豆的相关依赖
conda activate huixiangdou
# parsing `word` format requirements
apt update
apt install python-dev libxml2-dev libxslt1-dev antiword unrtf poppler-utils pstotext tesseract-ocr flac ffmpeg lame libmad0 libsox-fmt-mp3 sox libjpeg-dev swig libpulse-dev
# python requirements
pip install BCEmbedding==0.15 cmake==3.30.2 lit==18.1.8 sentencepiece==0.2.0 protobuf==5.27.3 accelerate==0.33.0
pip install -r requirements.txt
2. 模型准备
# 创建模型文件夹
cd /root && mkdir models
# 复制BCE模型
ln -s /root/share/new_models/maidalun1020/bce-embedding-base_v1 /root/models/bce-embedding-base_v1
ln -s /root/share/new_models/maidalun1020/bce-reranker-base_v1 /root/models/bce-reranker-base_v1
# 复制LLM文件
ln -s /root/share/new_models/Shanghai_AI_Laboratory/internlm2-chat-7b /root/models/internlm2-chat-7b
3. 修改配置文件
sed -i '9s#.*#embedding_model_path = "/root/models/bce-embedding-base_v1"#' /root/huixiangdou/config.ini
sed -i '15s#.*#reranker_model_path = "/root/models/bce-reranker-base_v1"#' /root/huixiangdou/config.ini
sed -i '43s#.*#local_llm_path = "/root/models/internlm2-chat-7b"#' /root/huixiangdou/config.ini
4. 知识库创建
我通过创建了一个关于医疗器械方面的txt文件,用来作为对应的知识库,同时还调整了一下正例,操作如下所示
# 创建文件
# 然后输入对应的内容
touch common_sense.txt
python3 -m huixiangdou.service.feature_store
6. 启动茴香豆webui
conda activate huixiangdou
cd /root/huixiangdou
python3 -m huixiangdou.gradio
webui展示,问题是医疗器械产品分为哪几类
:
后台记录:
webui展示,问题是什么是医疗器械
:
后台信息:
参考资料:https://github.com/InternLM/Tutorial/