12
2025
02
21:51:47

AI平权!清华团队发布AI加速神器,单卡双U轻松驾驭671B大模型!

全民大炼AI的时代来了!运行Deepseek R1/V3的满血Q4_K_M 版本,仅需 14GB 显存和 382GB 内存。

清华大学的kvcache.ai团队发布的ktransformer大模型加载框架v0.3 Preview,提升本地加载满血deepseek 671b的运行效率。

预填充速度性能指标27.79 倍于llama.cpp

cpu数
tokens/s
备注
32 核
54.21

2×32 核


74.362

255.26
 基于优化的 AMX 混合专家内核,仅 V0.3 版本
286.55
选择性使用 6 个专家,仅 V0.3 版本

解码速度3倍于llama.cpp

cpu数
tokens/s
备注
32 核
8.73

2×32 核


11.26

13.69
选择性使用 6 个专家,仅 V0.3 版本


图片


github链接:

https://github.com/kvcache-ai/ktransformers

https://github.com/kvcache-ai/ktransformers/blob/main/doc/en/DeepseekR1_V3_tutorial.md





推荐本站淘宝优惠价购买喜欢的宝贝:

image.png

本文链接:https://hqyman.cn/post/9025.html 非本站原创文章欢迎转载,原创文章需保留本站地址!

分享到:
打赏





休息一下~~


« 上一篇 下一篇 »

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

请先 登录 再评论,若不是会员请先 注册

您的IP地址是: