置顶 技术文章
为公司省钱往往省不到自己身上
hqy 发表于2023-03-24 浏览5996 评论1

编程&AI
基于DeepSeek的 企业内部知识、工作流平台, 允许私有化部署,允许商业化
hqy 发表于2025-02-25 浏览97 评论0
开源!基于DeepSeek的本地化企业内部知识库和工作流平台, 允许商业化源代码http://www.gitpp.com/sciences/deepseek-localweb-ragDeepSeek本地知识管理平台:全面、安全、高效的智能解决方案在当前数字化和信息化的浪潮中,企业和机构对于高效、安全的知识管理和智能服务需求日益增长。DeepSeek本地知识管理平台应运而生,它基于DeepSeek这一开源且性能卓越的大模型,旨在为企业和机构提供一套功能全面、安全高效的智能解决方案。一、文档智能功能
编程&AI
Pascal架构GPU在vllm下的模型推理优化
hqy 发表于2025-02-25 浏览80 评论0
Pascal架构GPU在vllm下的模型推理优化ChatGPT生成的文章摘要这篇博客记录了作者在家中使用Pascal显卡运行大型模型时遇到的挑战和解决方案。随着本地大型模型性能的提升,作者选择使用vllm库进行推理。然而,作者遇到了多个技术难题,需要自行编译vllm和PyTorch,以支持Pascal架构的显卡。编译过程中,作者深入研究了显卡不支持的问题,特别是在量化矩阵乘法计算中发现性能瓶颈。最终,解决了性能问题,让性能提升了43倍。这次技术探索不仅解决了具体问题,还为作者提供了深入学习和扩展

编程&AI
传统Pcie与NVLink
hqy 发表于2025-02-25 浏览77 评论0
0x01 传统Pcie与NVLink1. PCIe(Peripheral Component Interconnect Express):它是一种计算机总线标准,用于在计算机内部连接各种设备和组件(例如显卡、存储设备、扩展卡等)。PCIe接口以串行方式传输数据,具有较高的通信带宽,适用于连接各种设备。然而,由于其基于总线结构,同时连接多个设备时可能会受到带宽的限制。2. NVLink(Nvidia Link):它是由NVIDIA开发的一种高速、低延迟的专有连接技术,主要用于连接NVIDIA图形处

编程&AI
本地部署deepseek大模型必备工具:Ollama与三大竞品对比
hqy 发表于2025-02-25 浏览110 评论0
在人工智能和大型语言模型(LLMs)领域,Ollama作为一款专注于简化大型语言模型在本地部署和运行的开源框架,受到了广泛关注。然而,Ollama并非唯一的选择,市场上还有许多其他同类型的工具,为开发者提供了多样化的选项。本文将盘点与Ollama同类型的大模型框架工具,帮助用户更好地了解这一领域的技术生态。一、Ollama框架简介Ollama是一个专注于简化大型语言模型(LLM)在本地部署和运行的开源框架。它支持多种大型语言模型,如Llama 2、Code Llama、Mistral、Gemma

编程&AI
Ollma和vLLM简单对比
hqy 发表于2025-02-25 浏览116 评论0
Ollma和vLLM简单对比AI应用开发中最常见两个大模型推理框架Ollama和vLLM. 在应用开发过程中,开发者通常会从多方面进行比较来选定适合的推理框架,尤其是在对接本地大模型时,考虑因素包括本地资源配置,本地安全性要求,成本计算,响应要求等多个方面。下面针对这两个常见框架,做一个简要的对比:Ollama1. 说明:Ollama是一个开源的大模型服务工具,可以让你在不写代码的情况下,在本地通过命令运行需要的大模型。Ollama会根据用户的资源配置,自动选择GPU或CPU运行,运行速度取决于

编程&AI
vLLM框架:认识大模型推理框架
hqy 发表于2025-02-25 浏览104 评论0
这两年是大模型盛行的黄金时代,各大优秀的大模型诸如GPT、LLM、QWen、Deepseek等层出不穷,不断刷新我们的认知;但是大模型都有一个共同的特点,都拥有非常惊人的参数量,小的都有上十亿的参数,大的更是可以有几千亿的参数,这么大的参数量就会带来一个新的问题,就是推理效率不如传统的深度学习模型,再有就是目前的大模型基本上都是基于transformer进行开发的,最大限制上下文token数会导致模型在显存的利用率上会有很大的缺陷,基于此,专

编程&AI
vLLM框架:使用大模型推理框架
hqy 发表于2025-02-25 浏览168 评论0
vLLM 专为高效部署大规模语言模型设计,尤其适合高并发推理场景,关于对vLLM的介绍请看这篇博文。以下从 安装配置、基础推理、高级功能、服务化部署 到 多模态扩展 逐步讲解。 1. 环境安装与配置1.1 硬件要求GPU: 支持 CUDA 11.8 及以上(推荐 NVIDIA A100/H100,RTX 4090 等消费级卡需注意显存限制)显存: 至少 20GB(运行 7B 模型),推荐 40

技术文章
联想服务器组件PCIe 转接卡
hqy 发表于2025-02-25 浏览71 评论0
https://pubs.lenovo.com/sr860/zh-CN/pcie_riser_cardPCIe 转接卡按以下信息查找可选 PCIe 转接卡上的接口。x8/x8/x8 PCIe FH 转接卡组合件图 1. x8/x8/x8 PCIe FH 转接卡组合件表 1. x8/x8/x8 PCIe FH 转接卡组合件的组件1 PCIe 全高型转接卡架3 PCI Express 3.0 x8(插槽 6)2 PCI Express 3.0 x8(
技术文章
SR630或者SR650资料上面提了两个技术:1.AnyBay, 2.ML2能详细说说这两个技术的原理和功能吗?
hqy 发表于2025-02-25 浏览105 评论0
anybay是指支持新的u.2 nvme ssd的插槽,同时兼容sas sata。ML2 适配器只能安装在ML2 插槽3 中,x8 ML2 适配器安装在x8 ML2 插槽中,x16 ML2 适配器安装在x16。
编程&AI
大模型框架:vLLM
hqy 发表于2025-02-25 浏览80 评论0
大模型框架:vLLM目录一、vLLM 介绍二、安装 vLLM2.1 使用 GPU 进行安装2.2 使用CPU进行安装2.3 相关配置三、使用 vLLM3.1 离线推理3.2 适配OpenAI-API的API服务一、vLLM 介绍 vLLM是伯克利大学LMSYS组织开源的大语言模型高速推理框架。它利用了全新的注意力算法「PagedAttention」,提供易用、快速、便宜的LLM服务。二、安装

技术文章
深入了解 GPU 互联技术——NVLINK
hqy 发表于2025-02-25 浏览106 评论0
随着人工智能和图形处理需求的不断增长,多 GPU 并行计算已成为一种趋势。对于多 GPU 系统而言,一个关键的挑战是如何实现 GPU 之间的高速数据传输和协同工作。然而,传统的 PCIe 总线由于带宽限制和延迟问题,已无法满足 GPU 之间通信的需求。为了解决这个问题,NVIDIA 于 2018 年推出了 NVLINK,以提高 GPU 之间的通信效率。了解 NVLINKNVLINK 是一种专门设计用于连接 NVIDIA GPU 的高速互联技术。它允许 GPU 之间以点对点方式进行通信,绕过传统的

编程&AI
NVIDIA Tesla P100 世界首款 AI 超级计算数据中心 GPU
hqy 发表于2025-02-25 浏览86 评论0
https://www.nvidia.cn/data-center/tesla-p100/ NVIDIA Tesla P100世界首款 AI 超级计算数据中心 GPU超强计算能力助力现代数据中心当今的数据中心有赖于大量互连的通用计算节点,这限制了高性能计算 (HPC) 和超大规模工作负载。NVIDIA® Tesla® P100 运用 NVIDIA Pascal™ GPU 架构提供统一的平台,以加速 HPC 和 AI 发展,大幅提升吞吐量,同时降低成本。应用

编程&AI
【AI系统】NVLink 原理剖析
hqy 发表于2025-02-25 浏览87 评论0
随着 AI 技术的飞速发展,大模型的参数量已经从亿级跃升至万亿级,这一变化不仅标志着 AI 的显著提升,也对支持这些庞大模型训练的底层硬件和网络架构提出了前所未有的挑战。为了有效地训练这些复杂的模型,需要依赖于大规模的 GPU 服务器集群,它们通过高速网络相互连接,以便进行快速、高效的数据交换。但是,即便是最先进的 GPU 也可能因为网络瓶颈而无法充分发挥其计算潜力,导致整个算力集群的性能大打折扣。这一现象凸显了在构建大规模 GPU 集群时,仅仅增加 GPU 数量并不能线性增加集群的总体算力。相

技术文章
FreePBX-17 仍然通过ISO镜像安装支持
hqy 发表于2025-02-25 浏览71 评论0
FreePBX是目前世界上使用最多的开源IPPBX电话系统。FreePBX项目维护的一举一动导致很多的用户关注。去年FreePBX官方宣布freepbx17不再对FreePBX开源项目提供ISO镜像安装支持,用户可以通过脚本进行安装。但是,通过去年一年的用户反馈,发现很多用户仍然linux基本技能,仍然依赖于ISO镜像安装。为了更好服务用户,除了脚本安装以外,官方宣布将再次提供FreePBX 17的镜像安装方式,以后用户可以下载安装镜像,就像过去版本的安装方式一样进行镜像安装。不久官方将通过具体

金蝶
采购入库单的收料组织选择为空如何处理
hqy 发表于2025-02-24 浏览80 评论0
[操作步骤]1、检查需要选取的组织是否已经审核完成; 首先(系统管理员)登录,在[系统管理]-[组织机构]中查看该组织的数据状态是否为已审核,只有已审核的组织才能进行选取;2、检查需要选取的组织的[业务组织职能]; 双击打开该组织,查看业务组织中是否勾选[库存职能],只有勾选 [库存职能] ,才能在出入库单据上选择到该组织。3、需要使用检查组织有无启用库存管理并结束初始化4、需要登录administrator

技术文章
轻解读AI算力要求 英伟达特斯拉P100双显卡实测
hqy 发表于2025-02-24 浏览148 评论0
买了俩特斯拉,不过不是开的那个,是算的那个。 没错,开的那个和算的那个都叫tesla,算的那个是英伟达家的,不少人都没听过。但是他们都用一样的名字,这个名字很多科技公司都喜欢,这个名字的故事背后还有段野史,说的是大神特斯拉、爱迪生、摩根大通三个男人一生相爱相杀的三角关系,有兴趣可以搜索一下。大家好,这里是极客买,这一期我们买了两张英伟达计算卡特斯拉P100-16G回来玩玩。先介绍一下特斯拉计算卡,这个是英伟达用于科学计算解决方案的GPU,基本都是没有显示输出接口的,纯粹用来做计算,相对普通的RT

技术文章
单卡 AI画图炼丹性价比之王,超大HBM2显存【Mizuiro-Aqua】
hqy 发表于2025-02-24 浏览75 评论0
之前我曾经推荐过英伟达的Tesla M40计算卡,当时我说了,它唯一的卖点就是大显存,24GB显存可以出大图(虽然原版SD直出高分辨率图容易出鬼图,这方面还是建议用SDXL),其他方面这张卡都很废,算力就是现在的中端游戏卡水平,架构也是老旧的Maxwell,28nm功耗老高,尤其是AI,当年AI还没有这么流行,所以没有半精度加速,玩游戏性能也一般。就是这样一张只卖显存的卡,竟然还涨价了,原来24GB显存版的M40只要400,现在已经涨到600多了,这价格都能买RTX2060了,至少RTX2060

技术文章
「超详细」window安装配置英伟达Tesla p100教程
hqy 发表于2025-02-24 浏览91 评论0
以下并非详尽的教程,而是我个人在实践中遇到的一些问题及其解决流程的总结。谈及装机,tesla p100显卡拥有一个8pin接口,其额定功率为600w。在安装前,请务必确认电源功率是否足够支持。另外,这款显卡需要双8pin供电,即需要一个转接线,以便连接两个8pin电源。安装时,将其插入PCIEX16卡槽,并固定好。启动电脑后,建议首次进入BIOS进行一些必要的检查和设置。部分主板的BIOS中可能包含'Above 4G'设置选项,请将其设置为True。此外,根据主板型号,您可能还需

编程&AI
PVE下ubuntu22.04部署Stable Diffusion教程(使用NVIDIA P100显卡)
hqy 发表于2025-02-24 浏览84 评论0
PVE下ubuntu22.04部署Stable Diffusion教程(使用NVIDIA P100显卡)可能有很多人和我有同样的想法,想把Stable Diffusion部署到Ubuntu等Linux服务器上,然后开放端口到外网,这样就可以在任何有网络的地方来进行访问,不必局限于在家的局域网内。下面咱们就用嘴简单的方式进行部署一下。一、下载Stable DiffusionB站大佬秋葉aaaki的Stable Diffusion版本,不但可以在Windows11上部署,在Ubuntu22.04上也

编程&AI
我本运维,却用Cursor为公司开发了两套系统
hqy 发表于2025-02-24 浏览90 评论0
我本运维,却用Cursor为公司开发了两套系统距离第一次给大家介绍这款编辑器,已经过去两年了,不知道大家有没有用起来呢?基于ChatGPT 的自动编程工具-cursor新体验cursor近期又发布了新功能,所以,再次推荐给大家使用。它不仅能帮你自动生成代码,还能像其他大模型一样,用于日常提问聊天。什么是Cursor?Cursor是一款基于AI的代码编辑器,内置了GPT-4、Claude等先进的大语言模型,能够通过自然语言指令生成、修改和优化代码。它基于VSCode开发,界面和操作方式与VSCod