.. _llama_cpu_optimize: ========================= LLaMA在CPU架构上优化 ========================= :ref:`install_llama.cpp_cpu` 支持基于CPU的优化,探索这项技术主要目标: - 利用廉价的(二手淘汰服务器)CPU和大内存来实现基本能够运行的大模型 - 学习如何优化大模型运行的基础设施部署 我初步完成 :ref:`deploy_deepseek-r1_locally_cpu_arch_lfs` ,能够在廉价二手硬件上运行"满血" DeepSeek R1大模型之后,得到的性能结果却差强人意: - 完成一个简单的 :ref:`bash` 脚本问答需要花费50分钟时间甚至更久 - 速率只有可怜的 ``0.637 token/s`` ( 另一个在标准 :ref:`debian` 12上部署的 :ref:`deploy_deepseek-r1_locally_cpu_arch` 也只有 ``0.66 token/s`` ),几乎没有实用价值 所以,我尝试通过不同软硬件手段来提高推理速度: - 不增加或很少增加硬件投入来提高推理速度 - 每一个优化步骤分步进行,并记录提升百分比,同时学习优化的原理 - 同步学习业界的经验和技能 .. toctree:: :maxdepth: 1 llama_tunning_disable_ht llama_tunning_disable_numa.rst .. only:: subproject and html Indices ======= * :ref:`genindex` .. note:: Intel 公司提供了一种针对CPU优化的方法, `Optimizing and Running LLaMA2 on Intel CPU `_ 采用了最新的 ``AVX_VNNI`` (矢量神经网络指令),并且得到了 ``llama.cpp`` 支持( `Add AVX_VNNI support for intel x86 processors #4301 `_ ),可以加速LLM运行。不过,需要特定的CPU支持,简单来说就是 2019/2020年之后的 Intel 处理器才可能支持( `AVX-512 Vector Neural Network Instructions (VNNI) - x86 `_ )