LLaMA在CPU架构上优化

CPU架构LLaMA.cpp安装 支持基于CPU的优化,探索这项技术主要目标:

  • 利用廉价的(二手淘汰服务器)CPU和大内存来实现基本能够运行的大模型

  • 学习如何优化大模型运行的基础设施部署

我初步完成 本地化部署DeepSeek-R1 CPU架构(LFS环境) ,能够在廉价二手硬件上运行"满血" DeepSeek R1大模型之后,得到的性能结果却差强人意:

  • 完成一个简单的 Bash 脚本问答需要花费50分钟时间甚至更久

  • 速率只有可怜的 0.637 token/s ( 另一个在标准 Debian 12上部署的 本地化部署DeepSeek-R1 CPU架构 也只有 0.66 token/s ),几乎没有实用价值

所以,我尝试通过不同软硬件手段来提高推理速度:

  • 不增加或很少增加硬件投入来提高推理速度

  • 每一个优化步骤分步进行,并记录提升百分比,同时学习优化的原理

  • 同步学习业界的经验和技能

备注

Intel 公司提供了一种针对CPU优化的方法, Optimizing and Running LLaMA2 on Intel CPU 采用了最新的 AVX_VNNI (矢量神经网络指令),并且得到了 llama.cpp 支持( Add AVX_VNNI support for intel x86 processors #4301 ),可以加速LLM运行。不过,需要特定的CPU支持,简单来说就是 2019/2020年之后的 Intel 处理器才可能支持( AVX-512 Vector Neural Network Instructions (VNNI) - x86 )