logo

苒芃

首页
关于
不需要泄漏资料就能使用大模型来提高工作效率。

在自己的电脑上运行大模型应用

Sat Sep 20 2025 08:00:00 GMT+0800 (China Standard Time)

1.llama.cpp简介

llama.cpp是c/c++开发的大模型推理库, 其底层使用了ggml机器学习库。 其不仅支持使用GPU计算推理,还可以用CPU进行推理。 其能够从huggingface上下载模型资源,但是需要其特定的GGUF格式。 llama.cpp最重要特点是可以在各种设备上进行模型推理。

2.编译llama.cpp

编译不同平台上,不同计算库,不同计算硬件,都需要提前了解,但是都在在编译CPU基础上进行设置, 因此先提供使用CPU进行推理的步骤:

2.1.下载源码:git clone https://github.com/ggerganov/llama.cpp.git

2.2.进入源码根目录并生成编译文件: cd llama.cpp && cmake -B build

2.3.编译llama-server: cmake —build build -j —target llama-server

同时还支持很多计算库:BLAS、Metal、SYCL、CUDA、MUSA、HIP、Vulkan、CANN、KleidiAI、OpenCL、WebGPU等, 通过cmake就能配置编译。

3.下载GGUF模型库

huggingface上寻找库时,其有GGUF和llama.cpp的筛选选项: huggingface

githubhuggingface都需要科学上网才能下载, 如果您只是下载很少的资源,同时不需要长时间科学上网, 那么这个服务您可以看看。