【llm】——香橙派AIPRO跑qwen2.5-0.5B

news2025/7/15 18:47:27

代码/模型：https://github.com/chenjun2hao/qwen-ascend-llm

香橙派AIPRO：http://www.orangepi.cn/html/hardWare/computerAndMicrocontrollers/details/Orange-Pi-AIpro.html
CANN8.0（自己手动安装的，参考：https://www.hiascend.com/forum/thread-0295148017012941005-1-1.html）
64GB内存卡（最好是更大，不然几个模型就满载了）
其他一些疑问可参考原始项目readme
kv_cache_length改为1024了

npu推理采用ACL调用npu，float16的npu模型会比float32的onnx模型会更快。npu模型下载, 提取码: mbbq
请添加图片描述

onnx推理采用onnxruntime作为推理引擎。onnxruntime采用float32推理会比float16更快（原因未知）。修改node之后的float16 onnx模型下载连接提取码: mbbq
请添加图片描述

最初的onnx需要导出为float16，如果导出为float32会有问题。onnx float32，“–precision_mode=must_keep_origin_dtype”, “–precision_mode_v2=origin”,都试过，转换出来的om文件推理都不正确。

欢迎使用Qwen聊天机器人，输入exit或者quit退出，输入clear清空历史记录
Input: hello
Output: 日起草一份周恩爱证罪数集除公共舞台是时候会显示界面会报错乘集选二取二二三丿同义警告示板卡。为人民服务是

1.因为要用kvcache，看起来用python来进行部署会更快，后续尝试c++的部署方式，看速度是否更快

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2254533.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！