LLaMA在CPU架构上优化
CPU架构LLaMA.cpp安装 支持基于CPU的优化,探索这项技术主要目标:
利用廉价的(二手淘汰服务器)CPU和大内存来实现基本能够运行的大模型
学习如何优化大模型运行的基础设施部署
我初步完成 本地化部署DeepSeek-R1 CPU架构(LFS环境) ,能够在廉价二手硬件上运行"满血" DeepSeek R1大模型之后,得到的性能结果却差强人意:
完成一个简单的 Bash 脚本问答需要花费50分钟时间甚至更久
速率只有可怜的
0.637 token/s
( 另一个在标准 Debian 12上部署的 本地化部署DeepSeek-R1 CPU架构 也只有0.66 token/s
),几乎没有实用价值
所以,我尝试通过不同软硬件手段来提高推理速度:
不增加或很少增加硬件投入来提高推理速度
每一个优化步骤分步进行,并记录提升百分比,同时学习优化的原理
同步学习业界的经验和技能
备注
Intel 公司提供了一种针对CPU优化的方法, Optimizing and Running LLaMA2 on Intel CPU 采用了最新的 AVX_VNNI
(矢量神经网络指令),并且得到了 llama.cpp
支持( Add AVX_VNNI support for intel x86 processors #4301 ),可以加速LLM运行。不过,需要特定的CPU支持,简单来说就是 2019/2020年之后的 Intel 处理器才可能支持( AVX-512 Vector Neural Network Instructions (VNNI) - x86 )