LLaMA在CPU架构上优化

CPU架构LLaMA.cpp安装支持基于CPU的优化，探索这项技术主要目标:

我初步完成本地化部署DeepSeek-R1 CPU架构(LFS环境) ，能够在廉价二手硬件上运行"满血" DeepSeek R1大模型之后，得到的性能结果却差强人意:

完成一个简单的 Bash 脚本问答需要花费50分钟时间甚至更久
速率只有可怜的 0.637 token/s （另一个在标准 Debian 12上部署的本地化部署DeepSeek-R1 CPU架构也只有 0.66 token/s )，几乎没有实用价值

所以，我尝试通过不同软硬件手段来提高推理速度:

备注

Intel 公司提供了一种针对CPU优化的方法， Optimizing and Running LLaMA2 on Intel CPU 采用了最新的 AVX_VNNI (矢量神经网络指令)，并且得到了 llama.cpp 支持( Add AVX_VNNI support for intel x86 processors #4301 )，可以加速LLM运行。不过，需要特定的CPU支持，简单来说就是 2019/2020年之后的 Intel 处理器才可能支持( AVX-512 Vector Neural Network Instructions (VNNI) - x86 )