.. _llama_tunning_disable_ht:

===================================
关闭CPU超线程(HT)优化LLaMA推理速度
===================================

结论
======

- 我在 :ref:`hpe_dl380_gen9` 上关闭超线程HT对比测试，很遗憾没有看到推理性能的明显提高( ``0.66~0.7 token/s`` )
- 但是感觉整个答复过程时间缩短，消耗的token减少了(why?)

----

- DeepSeek R1的推理确实厉害，特别是重复创意的文字类

  - 玄幻小说套路明显，对于训练后的结果就比较符合既定风格，没有漏洞
  - 影评类验证准确，看起来训练文本覆盖到了之后就能成功"推理"( ``概率`` )，那么如果给DeepSeek看一个全新从未见过的电影，能总结影评么?

实践
=====

在网上曾经看到过不少人提及CPU超线程会拖累基于CPU的LLM推理速度，所以我关闭了 :ref:`hpe_dl380_gen9` BIOS中CPU超线程成功能进行对比。运行命令和测试命令不变:

.. literalinclude:: llama_tunning_disable_ht/run_model
   :caption: 运行LLaMA
   :emphasize-lines: 5

这里使用了指定线程数量 ``24`` ，是指定运行 ``llama.cpp`` 的使用CPU数量?对运行有影响么?

从运行提示来看:

.. literalinclude:: llama_tunning_disable_ht/run_model_parameter
   :caption: ``llama.cpp`` 运行参数显示
   :emphasize-lines: 3

``llama.cpp`` 激活了CPU运行的硬件加速: 

- ``SSE3`` 
- ``SSSE3`` 
- ``AVX`` 
- ``AVX2`` 
- ``F16C`` 
- ``FMA`` 
- ``LLAMAFILE``
- ``OPENMP``
- ``AARCH64_REPACK``

完整的server端启动信息

.. literalinclude:: llama_tunning_disable_ht/run_llama_console
   :caption: 完整 ``llama.cpp`` 服务端控制台信息

运行1
============

**比较奇怪** 这次关闭了超线程之后同样的问题，返回的结果中少了开头一大段所谓"思考过程"，简洁了很多: 消耗了更少的token就返回了结果。也就是说，答复的时间大为缩短(只用了15分钟)，虽然速度变化不大()。

- 运行结果:

.. literalinclude:: llama_tunning_disable_ht/run_llama_console_result
   :caption: 完整 ``llama.cpp`` 服务端控制台信息显示的统计结果
   :emphasize-lines: 10

可以看到推理速度是 ``0.707token/s``

运行1返回结果
--------------

.. include:: llama_tunning_disable_ht/result1.md
   :parser: myst_parser.sphinx_

运行2
===========

- 运行2问题:

.. literalinclude:: llama_tunning_disable_ht/question2
   :caption: 运行2问题

- 运行2控制台统计:

.. literalinclude:: llama_tunning_disable_ht/run_llama_console_result2
   :caption: ``llama.cpp`` 服务端控制台统计结果
   :emphasize-lines: 11

推理速率是 ``0.711 token/s``

运行2返回结果
---------------

.. include:: llama_tunning_disable_ht/result2.md
   :parser: myst_parser.sphinx_

这里回答夏威夷州花 "木槿" 看来是对的，我在网上查了，夏威夷州花是 「黃色扶桑花」(Hibiscus) ，又稱「木槿」的扶桑花。

运行3
===========

- 运行3问题:

.. literalinclude:: llama_tunning_disable_ht/question3
   :caption: 运行3问题


- 运行3控制台统计:

.. literalinclude:: llama_tunning_disable_ht/run_llama_console_result3
   :caption: ``llama.cpp`` 服务端控制台统计结果
   :emphasize-lines: 10

推理速率是 ``0.659 token/s``

这个影评结果写得很好，但我不知道这是从哪些影评中提炼出来的

运行3返回结果
---------------

.. include:: llama_tunning_disable_ht/result3.md
   :parser: myst_parser.sphinx_

运行4
==========

- 运行4问题:

.. literalinclude:: llama_tunning_disable_ht/question4
   :caption: 运行4问题

- 运行4控制台统计:

.. literalinclude:: llama_tunning_disable_ht/run_llama_console_result4
   :caption: ``llama.cpp`` 服务端控制台统计结果
   :emphasize-lines: 10

推理速率是 ``0.666 token/s``

运行4返回结果
---------------

.. include:: llama_tunning_disable_ht/result4.md
   :parser: myst_parser.sphinx_