C++/Linux高性能的技术我之前整理了一些,包括SIMD/CUDA之类的技术,但是和deepseek确认了一下它说SIMD/CUDA不适合高频交易,假设它说的是对的,那我就随便说说其它的可选技术。
我们做了相关性能测试。对于Q4_K_M模型,使⽤如下命令进行: 这⾥使⽤numactl来指定使⽤单路CPU (0-127, 6980P有128核),以及这⼀路CPU的内存节点(numa0),避免跨numa传输以获取最佳性能。 llama.cpp是本地编译的,编译的时候使⽤Intel oneAPI可以有效提升它的性能。