Ollama高并发测试-HQY 一个和谐有爱的空间

28

2025
02
15:33:56

Ollama高并发测试

本文主要来测试一下ollama的高并发能力。

具体配置如下：

一、Ollama默认参数执行

我们打开4个窗口，然后分别让DeepSeek “给我讲一个笑话” ，看下不同窗口的答题顺序。

通过答题顺序可以看到，在不进行参数设置时，模型是一个一个执行。这样就说明，默认参数下，Ollama并不支持高并发，它会逐个回复我们的请求。

二、调整Ollama高并发参数

在ollama内，有两个参数与高并发有关分别是：

OLLAMA_MAX_LOADED_MODELS：每个模型将同时处理的最大并行请求数，也就是能同时响应几个LLM。

至于应用场景的话，就是我们可以同时在聊天页面调用两个LLM同时聊天，看看不同的LLM会有怎样不同的响应。

当然，这样设置后，不同的用户也可以在同一时间请求不同的模型。

OLLAMA_NUM_PARALLEL：每个模型将同时处理的最大并行请求数，也就是能同时回复多少个LLM。

这个参数对于高并发非常重要，如果你部署好了Ollama，假如有10个人同时请求了你的LLM，如果一个一个回答，每个模型回复10秒钟，那轮到第10个人将会在1分多种后，对于第10个人来说是不可接受的。

以上两个参数应根据自己的硬件条件自行设置。

高并发测试：

我们将以上两个参数添加到电脑的环境变量内，均设置为4。

OLLAMA_MAX_LOADED_MODELS  4OLLAMA_NUM_PARALLEL 4

设置好后，确认环境变量并重启Ollama，我们来看一下效果。

可以看到，在设置并发数为4之后，模型就能同时响应4个用户的请求。

一般来说，对于中小型的部署，可以采用Ollam当作底座，只需要部署多个服务器，通过反向代理与负载均衡即可实现。

如果要面对更多的并发请求，不建议使用Ollama当作底座，应采用VLLM进行部署。

推荐本站淘宝优惠价购买喜欢的宝贝:

本文链接：https://hqyman.cn/post/9328.html 非本站原创文章欢迎转载，原创文章需保留本站地址！

分享到：

打赏

休息一下~~

作者:hqy | 分类:编程&AI | 浏览:555 | 评论:0

发表评论:

◎欢迎参与讨论，请在这里发表您的看法、交流您的观点。

« 2025年6月 »
一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

本站推荐小工具: MSDN ISO 磁力地址版本1

MSDN ISO 磁力地址版本2

Windows系统下载仓储站

微软原版软件官方镜像下载列表

Windows kms激活

Office kms激活

VMware ESXi8.0 补丁免费下载

Vmpatch镜像站

领淘宝优惠券

在线小工具

BING精品壁纸图片

360精品4K壁纸图片，每日词霸

Unlock Music 音乐解锁 (React)

在线查IP |WhatIsMyIPAddress

在线下载测速

百家姓暗号

在线fc小游戏

圈住猫的游戏

2048的游戏

找色差小游戏

今天吃什么呢

毒鸡汤网页

每日笑话精选

在线查QQ价值

在线it-tools工具箱

在线it-tools工具箱(备站)

微软密钥在线检测

在线WinXP虚拟机

whois在线查询

开发者资源的宝库

Linux工具箱一键脚本

Linux工具箱

城通网盘

宝塔服务器面板

阿里云特价VPS服务器

腾讯云特价VPS服务器

华为云特价VPS服务器

京东云特价VPS服务器

cloudcone特价VPS服务器

racknerd特价VPS服务器

恒创VPS特价服务器

简云免费虚拟云主机

PrivacyPolicy

控制面板: 您好，欢迎到访网站！
登录后台查看权限
个人中心修改密码

随心随性: 沧海月明珠有泪，蓝田日暖玉生烟。

网站分类

搜索

最新留言

文章归档

网站收藏

一个和谐有爱的空间

友情链接

孙悟空

HQY 一个和谐有爱的空间

HQY

28

20250215:33:56