环境
系统:CentOS-7
CPU: 14C28T
内存:32G
显卡:Tesla P40 24G
驱动: 515
CUDA: 11.7
cuDNN: 8.9.2.26
Ollama: 0.4.1
下载
ollama run qwen2.5-coder:32b
10G文件需要下一点时间
运行监控速度
ollama run qwen2.5-coder:32b --verbose
CPU
100% 高 28T
内存
2G+
GPU
| N/A 34C P0 167W / 250W | 21446MiB / 23040MiB | 96% Default |
GPU进行计算
速度指标
total duration: 2m30.314195167s
load duration: 47.770638ms
prompt eval count: 1168 token(s)
prompt eval duration: 388ms
prompt eval rate: 3010.31 tokens/s
eval count: 1241 token(s)
eval duration: 2m29.776s
eval rate: 8.29 tokens/s
速度还是很不错的
总结
Tesla-P40下Qwen2.5-Coder-32B还是可以用用的,目前看Qwen2.5-Coder-32B性能还要再试试。