想在本地跑AI大模型,但不知道自己的电脑能跑哪个模型?开源工具whichllm可以自动检测你的GPU、CPU和内存,然后从HuggingFace上筛选出最适合你硬件的模型,按真实基准测试成绩排名推荐。
为什么需要whichllm
本地部署AI大模型已经成为很多开发者和站长的选择。相比使用云端API,本地运行有隐私保护、无网络依赖、长期成本低等优势。但问题是:HuggingFace上有成千上万的模型,到底哪个适合你的电脑?
很多人选模型的方式是”看参数量”——24GB显存就找能塞进去的最大的模型。但这种方式有两个问题:
- 参数量大不等于效果好,新架构的小模型可能比旧架构的大模型表现更好
- 不同量化格式(Q4、Q5、Q6等)对速度和质量的影响很大,需要综合考虑
whichllm就是为了解决这个问题而生的。它不只是告诉你”哪些模型能跑”,而是告诉你”哪个模型在你的硬件上表现最好”。
安装方法
whichllm是一个Python命令行工具,安装非常简单:
pip install whichllm
需要Python 3.11或更高版本。安装完成后,直接在命令行使用即可。
基本用法
自动检测硬件
最简单的用法是让whichllm自动检测你的硬件配置:
whichllm
它会自动识别你的GPU型号、显存大小、CPU型号和系统内存,然后给出推荐。
模拟指定硬件
如果你想看看某个显卡能跑什么模型(比如买显卡之前做功课),可以用--gpu参数:
whichllm --gpu "RTX 4090"
输出示例:
#1 Qwen/Qwen3.6-27B 27.8B Q5_K_M score 92.8 27 t/s
#2 Qwen/Qwen3-32B 32.0B Q4_K_M score 83.0 31 t/s
#3 Qwen/Qwen3-30B-A3B 30.0B Q5_K_M score 82.7 102 t/s
可以看到,whichllm不只列出能跑的模型,还给出了基准测试分数(score)和预估推理速度(t/s)。
推荐逻辑解析
whichllm的推荐逻辑和简单的”能装进去就行”有本质区别:
- 基于真实基准测试:综合了LiveBench、Artificial Analysis、Aider、Chatbot Arena ELO等多个权威基准的数据
- 时效性考虑:旧模型的基准分数会随时间衰减,新架构的模型即使参数少也会获得更高排名
- 区分总参数和活跃参数:对于MoE(混合专家)模型,速度按活跃参数计算,质量按总参数评估
- GGUF量化优化:自动选择最优的量化格式,在显存限制内最大化模型质量
以输出中的第3个结果为例,Qwen3-30B-A3B是一个MoE模型,总参数30B但活跃参数只有3B,所以推理速度高达102 t/s,但质量评分仍然不低。
不同硬件的推荐参考
以下是whichllm在2026年5月对常见硬件的推荐(实际结果会随HuggingFace数据实时更新):
- RTX 5090 (32GB):Qwen3.6-27B Q6_K,约40 t/s
- RTX 4090/3090 (24GB):Qwen3.6-27B Q5_K_M,约27 t/s
- RTX 4060 (8GB):Qwen3-14B Q3_K_M,约22 t/s
- Apple M3 Max (36GB):Qwen3.6-27B Q5_K_M,约9 t/s
- 纯CPU:gpt-oss-20b(MoE)Q4_K_M,约6 t/s
适合谁使用
- 本地AI新手:不知道自己的电脑能跑什么模型,用whichllm一键查询
- 准备买显卡的开发者:用
--gpu模拟不同显卡,看看哪个性价比最高 - Ollama/llama.cpp用户:想找比默认推荐更好的模型选择
- AI站长:为服务器选择合适的本地推理模型
注意事项
- whichllm的数据来自HuggingFace,需要网络连接获取最新模型信息
- 基准测试分数仅供参考,实际使用体验可能因任务类型不同而有差异
- MoE模型虽然推理速度快,但在某些特定任务上可能不如密集模型
- 量化会损失一定的模型质量,Q4以下的量化格式质量下降较明显
项目地址
whichllm是一个MIT许可的开源项目,托管在GitHub上:
https://github.com/Andyyyy64/whichllm
如果你觉得这个工具对你有帮助,可以去GitHub给个Star支持一下作者。
本文参考来源:whichllm – GitHub | Hacker News讨论















暂无评论内容