whichllm：根据你的硬件自动推荐最佳本地AI模型的开源工具

想在本地跑AI大模型，但不知道自己的电脑能跑哪个模型？开源工具whichllm可以自动检测你的GPU、CPU和内存，然后从HuggingFace上筛选出最适合你硬件的模型，按真实基准测试成绩排名推荐。

为什么需要whichllm

本地部署AI大模型已经成为很多开发者和站长的选择。相比使用云端API，本地运行有隐私保护、无网络依赖、长期成本低等优势。但问题是：HuggingFace上有成千上万的模型，到底哪个适合你的电脑？

很多人选模型的方式是”看参数量”——24GB显存就找能塞进去的最大的模型。但这种方式有两个问题：

参数量大不等于效果好，新架构的小模型可能比旧架构的大模型表现更好
不同量化格式（Q4、Q5、Q6等）对速度和质量的影响很大，需要综合考虑

whichllm就是为了解决这个问题而生的。它不只是告诉你”哪些模型能跑”，而是告诉你”哪个模型在你的硬件上表现最好”。

安装方法

whichllm是一个Python命令行工具，安装非常简单：

pip install whichllm

需要Python 3.11或更高版本。安装完成后，直接在命令行使用即可。

基本用法

自动检测硬件

最简单的用法是让whichllm自动检测你的硬件配置：

whichllm

它会自动识别你的GPU型号、显存大小、CPU型号和系统内存，然后给出推荐。

模拟指定硬件

如果你想看看某个显卡能跑什么模型（比如买显卡之前做功课），可以用--gpu参数：

whichllm --gpu "RTX 4090"

输出示例：

#1  Qwen/Qwen3.6-27B     27.8B  Q5_K_M   score 92.8    27 t/s
#2  Qwen/Qwen3-32B       32.0B  Q4_K_M   score 83.0    31 t/s
#3  Qwen/Qwen3-30B-A3B   30.0B  Q5_K_M   score 82.7   102 t/s

可以看到，whichllm不只列出能跑的模型，还给出了基准测试分数（score）和预估推理速度（t/s）。

不同硬件的推荐参考

以下是whichllm在2026年5月对常见硬件的推荐（实际结果会随HuggingFace数据实时更新）：

RTX 5090 (32GB)：Qwen3.6-27B Q6_K，约40 t/s
RTX 4090/3090 (24GB)：Qwen3.6-27B Q5_K_M，约27 t/s
RTX 4060 (8GB)：Qwen3-14B Q3_K_M，约22 t/s
Apple M3 Max (36GB)：Qwen3.6-27B Q5_K_M，约9 t/s
纯CPU：gpt-oss-20b（MoE）Q4_K_M，约6 t/s

适合谁使用

本地AI新手：不知道自己的电脑能跑什么模型，用whichllm一键查询
准备买显卡的开发者：用--gpu模拟不同显卡，看看哪个性价比最高
Ollama/llama.cpp用户：想找比默认推荐更好的模型选择
AI站长：为服务器选择合适的本地推理模型

注意事项

whichllm的数据来自HuggingFace，需要网络连接获取最新模型信息
基准测试分数仅供参考，实际使用体验可能因任务类型不同而有差异
MoE模型虽然推理速度快，但在某些特定任务上可能不如密集模型
量化会损失一定的模型质量，Q4以下的量化格式质量下降较明显

项目地址

whichllm是一个MIT许可的开源项目，托管在GitHub上：

https://github.com/Andyyyy64/whichllm

如果你觉得这个工具对你有帮助，可以去GitHub给个Star支持一下作者。

本文参考来源：whichllm – GitHub | Hacker News讨论

文章版权声明 1、本网站名称：枫选
2、本站永久网址：https://feng.cx
3、本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长进行删除处理。
4、本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5、本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报
6、本站资源大多存储在云盘，如发现链接失效，请联系我们我们会第一时间更新。

THE END