Ollama本地运行Kimi-K2.5、GLM-5等国产大模型教程

Ollama 是目前最流行的本地大模型运行工具,支持在个人电脑或服务器上一键部署和运行各种开源大模型。随着国产大模型的快速发展,现在 Ollama 已经支持 Kimi-K2.5、GLM-5、Qwen3、DeepSeek 等最新模型,站长和开发者可以在本地零成本体验这些模型。

安装 Ollama

Linux

curl -fsSL https://ollama.com/install.sh | sh

macOS

ollama.com/download 下载安装包,或者使用 Homebrew:

brew install ollama

验证安装

ollama --version

下载和运行国产模型

安装完成后,可以通过简单的命令下载和运行模型:

# Kimi K2.5(Moonshot 最新模型)
ollama pull kimi-k2.5
ollama run kimi-k2.5

# GLM-5(智谱最新模型)
ollama pull glm5
ollama run glm5

# Qwen3(通义千问最新模型)
ollama pull qwen3:latest
ollama run qwen3

# DeepSeek V3
ollama pull deepseek-v3
ollama run deepseek-v3

每个模型的下载大小不同,从几 GB 到几十 GB 不等。建议根据服务器磁盘空间和内存选择合适的模型大小。

各模型适用场景对比

模型 特点 适合场景 内存需求
Kimi K2.5 长上下文能力强 文档分析、长文总结 16GB+
GLM-5 中文理解好 中文对话、文案写作 16GB+
Qwen3 综合能力强 通用对话、代码生成 8GB+
DeepSeek V3 代码和推理能力强 编程辅助、数学推理 32GB+

API 调用方式

Ollama 启动后会自动提供兼容 OpenAI 格式的 API 服务:

# 默认端口 11434
curl http://localhost:11434/v1/chat/completions   -H "Content-Type: application/json"   -d '{
    "model": "qwen3",
    "messages": [{"role": "user", "content": "你好,介绍一下自己"}]
  }'

这意味着你可以直接把 Ollama 的 API 接入任何支持 OpenAI 格式的工具和平台,比如 Open WebUI、ChatBox、LobeChat 等。

服务器部署注意事项

  • GPU 加速:如果有 NVIDIA GPU,Ollama 会自动使用 CUDA 加速,推理速度大幅提升
  • 内存要求:模型越大需要的内存越多,7B 模型约需 8GB,70B 模型需要 64GB+
  • 安全配置:默认只监听 localhost,如果需要远程访问,设置 OLLAMA_HOST=0.0.0.0
  • 开机自启:Linux 安装后会自动创建 systemd 服务

搭配 Open WebUI 使用

想要一个更好看的 Web 界面?可以同时部署 Open WebUI:

docker run -d -p 3000:8080   -e OLLAMA_BASE_URL=http://host.docker.internal:11434   --name open-webui   ghcr.io/open-webui/open-webui:main

访问 http://localhost:3000 就能看到类似 ChatGPT 的对话界面,支持选择不同的本地模型。

Ollama 让本地运行大模型变得非常简单,对于注重数据隐私、想节省 API 费用或者想测试不同模型的站长来说,是目前最好的选择之一。

来源:GitHub – ollama/ollama | ollama.com

© 版权声明
THE END
喜欢就支持一下吧
点赞6 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容