01
2025
04
15:25:06

比 Ollama 更简单的方式部署 DeepSeek-R1 模型

本文使用 llama.cpp 本地部署 DeepSeek-R1 模型。

llama.cpp 介绍


使用纯 C/C++推理 Meta 的LLaMA模型(及其他模型)。主要目标llama.cpp是在各种硬件(本地和云端)上以最少的设置和最先进的性能实现 LLM 推理。

  • 纯 C/C++ 实现,无任何依赖项

  • Apple 芯片是一流的——通过 ARM NEON、Accelerate 和 Metal 框架进行了优化

  • AVX、AVX2、AVX512 和 AMX 支持 x86 架构

  • 1.5 位、2 位、3 位、4 位、5 位、6 位和 8 位整数量化,可加快推理速度并减少内存使用

  • 用于在 NVIDIA GPU 上运行 LLM 的自定义 CUDA 内核(通过 HIP 支持 AMD GPU,通过 MUSA 支持 Moore Threads MTT GPU)

  • Vulkan 和 SYCL 后端支持

  • CPU+GPU 混合推理,部分加速大于 VRAM 总容量的模型



Github 地址:https://github.com/ggerganov/llama.cpp
下载地址:https://github.com/ggerganov/llama.cpp/releases

下载 llama.cpp

首先,根据自己电脑硬件配置下载相应版本的 llama.cpp 软件,如下图:

比 Ollama 更简单的方式部署 DeepSeek-R1 模型

AVX 支持 256 位宽的操作。
AVX2 也支持 256 位宽的操作,但增加了对整数操作的支持以及一些额外的指令。
AVX-512 支持 512 位宽的操作,提供了更高的并行度和性能,特别是在处理大量数据或浮点运算时。

我电脑是纯 CPU 运行,并且支持 avx512 指令集,所以下载“”版本,下载地址:https://github.com/ggerganov/llama.cpp/releases/download/b4658/llama-b4658-bin-win-avx512-x64.zip,下载完成后,解压到 D:\llama-b4658-bin-win-avx512-x64 目录。

下载 DeepSeek-R1 模型

下载地址:https://hf-mirror.com/lmstudio-community/DeepSeek-R1-Distill-Qwen-1.5B-GGUF/tree/main,本文以“DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.gguf”为例。

根据自己配置下载即可。量化级别越高,文件越大,模型精度越高。

llama.cpp 部署 DeepSeek-R1 模型

在 DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.gguf 文件目录下面执行如下命令:

  1. chcp 65001

  2. set PATH=D:\llama-b4658-bin-win-avx512-x64;%PATH%

  3. llama-server -m DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.gguf --port 8080

如下图:

比 Ollama 更简单的方式部署 DeepSeek-R1 模型

使用浏览器打开 http://127.0.0.1:8080/ 地址进行测试,如下图:

比 Ollama 更简单的方式部署 DeepSeek-R1 模型

附上运行参数配置:https://github.com/ggerganov/llama.cpp/tree/master/examples/server




推荐本站淘宝优惠价购买喜欢的宝贝:

比 Ollama 更简单的方式部署 DeepSeek-R1 模型

本文链接:https://hqyman.cn/post/10008.html 非本站原创文章欢迎转载,原创文章需保留本站地址!

分享到:
打赏





休息一下~~


« 上一篇 下一篇 »

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

请先 登录 再评论,若不是会员请先 注册

您的IP地址是: