Ollama 是目前最流行的本地大模型运行工具,支持在个人电脑或服务器上一键部署和运行各种开源大模型。随着国产大模型的快速发展,现在 Ollama 已经支持 Kimi-K2.5、GLM-5、Qwen3、DeepSeek 等最新模型,站长和开发者可以在本地零成本体验这些模型。
安装 Ollama
Linux
curl -fsSL https://ollama.com/install.sh | sh
macOS
从 ollama.com/download 下载安装包,或者使用 Homebrew:
brew install ollama
验证安装
ollama --version
下载和运行国产模型
安装完成后,可以通过简单的命令下载和运行模型:
# Kimi K2.5(Moonshot 最新模型)
ollama pull kimi-k2.5
ollama run kimi-k2.5
# GLM-5(智谱最新模型)
ollama pull glm5
ollama run glm5
# Qwen3(通义千问最新模型)
ollama pull qwen3:latest
ollama run qwen3
# DeepSeek V3
ollama pull deepseek-v3
ollama run deepseek-v3
每个模型的下载大小不同,从几 GB 到几十 GB 不等。建议根据服务器磁盘空间和内存选择合适的模型大小。
各模型适用场景对比
| 模型 | 特点 | 适合场景 | 内存需求 |
|---|---|---|---|
| Kimi K2.5 | 长上下文能力强 | 文档分析、长文总结 | 16GB+ |
| GLM-5 | 中文理解好 | 中文对话、文案写作 | 16GB+ |
| Qwen3 | 综合能力强 | 通用对话、代码生成 | 8GB+ |
| DeepSeek V3 | 代码和推理能力强 | 编程辅助、数学推理 | 32GB+ |
API 调用方式
Ollama 启动后会自动提供兼容 OpenAI 格式的 API 服务:
# 默认端口 11434
curl http://localhost:11434/v1/chat/completions -H "Content-Type: application/json" -d '{
"model": "qwen3",
"messages": [{"role": "user", "content": "你好,介绍一下自己"}]
}'
这意味着你可以直接把 Ollama 的 API 接入任何支持 OpenAI 格式的工具和平台,比如 Open WebUI、ChatBox、LobeChat 等。
服务器部署注意事项
- GPU 加速:如果有 NVIDIA GPU,Ollama 会自动使用 CUDA 加速,推理速度大幅提升
- 内存要求:模型越大需要的内存越多,7B 模型约需 8GB,70B 模型需要 64GB+
- 安全配置:默认只监听 localhost,如果需要远程访问,设置
OLLAMA_HOST=0.0.0.0 - 开机自启:Linux 安装后会自动创建 systemd 服务
搭配 Open WebUI 使用
想要一个更好看的 Web 界面?可以同时部署 Open WebUI:
docker run -d -p 3000:8080 -e OLLAMA_BASE_URL=http://host.docker.internal:11434 --name open-webui ghcr.io/open-webui/open-webui:main
访问 http://localhost:3000 就能看到类似 ChatGPT 的对话界面,支持选择不同的本地模型。
Ollama 让本地运行大模型变得非常简单,对于注重数据隐私、想节省 API 费用或者想测试不同模型的站长来说,是目前最好的选择之一。















GitHub – TauricResearch/TradingAgents


暂无评论内容