在自己的电脑上运行大模型应用

1.llama.cpp简介

llama.cpp是c/c++开发的大模型推理库，其底层使用了ggml机器学习库。其不仅支持使用GPU计算推理，还可以用CPU进行推理。其能够从huggingface上下载模型资源，但是需要其特定的GGUF格式。 llama.cpp最重要特点是可以在各种设备上进行模型推理。

编译不同平台上，不同计算库，不同计算硬件，都需要提前了解，但是都在在编译CPU基础上进行设置，因此先提供使用CPU进行推理的步骤：

2.2.进入源码根目录并生成编译文件： cd llama.cpp && cmake -B build

2.3.编译llama-server: cmake —build build -j —target llama-server

同时还支持很多计算库：BLAS、Metal、SYCL、CUDA、MUSA、HIP、Vulkan、CANN、KleidiAI、OpenCL、WebGPU等，通过cmake就能配置编译。

在huggingface上寻找库时，其有GGUF和llama.cpp的筛选选项：

github和huggingface都需要科学上网才能下载，如果您只是下载很少的资源，同时不需要长时间科学上网，那么这个服务您可以看看。