25
2025
02
17:00:07

Ollma和vLLM简单对比

Ollma和vLLM简单对比


AI应用开发中最常见两个大模型推理框架Ollama和vLLM. 在应用开发过程中,开发者通常会从多方面进行比较来选定适合的推理框架,尤其是在对接本地大模型时,考虑因素包括本地资源配置,本地安全性要求,成本计算,响应要求等多个方面。下面针对这两个常见框架,做一个简要的对比:

Ollama



1. 说明

  • Ollama是一个开源的大模型服务工具,可以让你在不写代码的情况下,在本地通过命令运行需要的大模型。

  • Ollama会根据用户的资源配置,自动选择GPU或CPU运行,运行速度取决于你的资源配置,只使用CPU运行会比较慢。

2. 安装和配置

  • Ollama可以使用Docker容器部署,几条命令,完成安装;

  • 当前Ollama支持多种操作系统(包括Windows、Mac和Linux),提供标准化的API接口。

  • 支持从huggingface/modelscope等平台下载的模型文件。

3. 使用表现

  • 使用GPU的相应速度明显高于使用CPU;

  • 新版Ollma默认支持多并发模式。

  • 提供有限的模型库,自己管理模型,你不能重用自己的模型,无法调整选项来运行LLM。

  • 安装简单易用。

  • 新版本据说已经支持Windows。

  • 在模型加载过程中,占用显存量较低,适合于在资源受限的环境中运行;

  • 支持多种大模型,如Llama 3、Gemma 2、Mistral、Moondream 2、Neural Chat等,国内可选Qwen2.5等。



4. 部署成本

本地部署,需要本地机器硬件支持,成本取决于硬件配置。


vLLM



1. 说明

LLM(Visual Large Language Model)是一个快速且易于使用的LLM(Large Language Model)推理和服务的开源的大模型推理加速框架,通过PagedAttention高效地管理attention中缓存的张量,实现了比HuggingFace Transformers高14-24倍的吞吐量。它兼容OpenAI的接口服务,并与HuggingFace模型无缝集成。


2. 安装和配置

  • 需要安装Python环境和相关依赖,对技术要求较高(也支持Docker);

  • 支持从huggingface/modelscope等平台下载的模型文件。

3. 使用表现

  • 采用PagedAttention技术,提高内存利用率,支持高并发处理;

  • 高效的服务吞吐量:vLLM可以快速处理大量的并发请求。支持模型种类多。

  • 内存高效:vLLM使用了一种名为PagedAttention的技术,可以高效地管理注意力键和值的内存文本生成的速度:

  • 实验多次,发现vLLM的推理速度是最快的;在高负载情况下测试,vLLM官方给出的吞吐量比HuggingFace Transformers高出24倍,比Text Generation Inference高出3.5倍。

  • 高吞吐量服务:支持各种解码算法,比如parallel sampling, beam search等;与OpenAI API兼容:如果使用OpenAI API,只需要替换端点的URL即可.

  • 虽然可以合并自己的模型,但如果模型没有使用与vLLM中现有模型类似的架构,则过程会变得更加复杂。

  • 模型加载常驻显存,显存占用相对较高,例如单卡16GB显存可能不足以运行Qwen2.5:7b模型;

  • 总体说来,对资源要求较高,不建议使用虚拟机运行,建议在高性能物理机上运行。

4. 部署成本

本地部署,需要本地机器硬件支持,成本取决于硬件配置。

大规模部署情况下的性能对比

进行大规模使用时时,尤其是在多机,分布是部署时,Ollama和vLLM的对比如下:

1. 部署对比

  • vLLM提供了原生的多机多卡分布式支持,可以轻松地在多台机器上部署大模型,并且每台机器可以使用多个GPU进行推理。vLLM通过PagedAttention技术有效管理内存,显著提升推理效率;

  • Ollama虽然也支持多GPU环境,但其分布式部署能力相对较弱,可能需要额外的配置和优化来实现多机多卡的高效运行。

2. 性能对比:

  • vLLM在GPU上的推理速度显著提升,使用PagedAttention技术实现了比HuggingFace Transformers高14-24倍的吞吐量;

  • Ollama在GPU上的推理速度也非常快,新版本Ollama已经默认支持多并发处理,但在多机多卡环境下,vLLM的性能优势可能更加明显。





推荐本站淘宝优惠价购买喜欢的宝贝:

image.png

本文链接:https://hqyman.cn/post/9150.html 非本站原创文章欢迎转载,原创文章需保留本站地址!

分享到:
打赏





休息一下~~


« 上一篇 下一篇 »

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

请先 登录 再评论,若不是会员请先 注册

您的IP地址是: