Unsloth 与 NVIDIA 合作:LLM 微调速度提升 25%,支持 Qwen3 和 Llama 4

Unsloth 是一个非常受欢迎的开源 LLM 微调工具,以”2-5x 更快、减少 70% 显存占用”著称。近日,Unsloth 官方宣布与 NVIDIA 达成合作,训练速度进一步提升 25%,同时新增了对 Qwen3、Llama 4、Gemma 3 等最新模型的支持。

项目地址

与 NVIDIA 合作的意义

训练速度提升 25%

Unsloth 此前已经比原生 PyTorch 训练快 2-5 倍,这次与 NVIDIA 的合作进一步优化了底层计算:

  • 针对 NVIDIA GPU 的 CUDA 内核优化
  • 更好的内存管理和数据流水线
  • 利用 NVIDIA 的 Tensor Core 加速
  • 减少训练过程中的内存碎片

对于已经在用 NVIDIA GPU(尤其是 4090、A100、H100)的用户来说,这次更新意味着同样的硬件可以更快地完成微调任务。

新增模型支持

Unsloth 现在支持以下最新模型:

  • Qwen3:通义千问最新一代开源模型
  • Llama 4:Meta 最新发布的开源大模型
  • Gemma 3:Google 最新开源模型
  • DeepSeek:深度求索系列模型
  • Mistral:法国 AI 公司的开源模型

支持的微调方法包括 LoRA、QLoRA、全量微调(full fine-tuning)。

快速上手

安装

# 推荐使用 pip 安装
pip install unsloth

# 或者从 GitHub 安装最新版
pip install git+https://github.com/unslothai/unsloth.git

基本用法

from unsloth import FastLanguageModel

# 加载模型(4-bit 量化,节省显存)
model, tokenizer = FastLanguageModel.from_pretrained(
    model_name="unsloth/Qwen3-8B-bnb-4bit",
    max_seq_length=2048,
    dtype=None,  # 自动检测
    load_in_4bit=True,
)

# 添加 LoRA 适配器
model = FastLanguageModel.get_peft_model(
    model,
    r=16,
    target_modules=["q_proj", "k_proj", "v_proj", "o_proj",
                     "gate_proj", "up_proj", "down_proj"],
    lora_alpha=16,
    lora_dropout=0,
    bias="none",
    use_gradient_checkpointing="unsloth",
    random_state=3407,
)

训练

from trl import SFTTrainer
from transformers import TrainingArguments

trainer = SFTTrainer(
    model=model,
    tokenizer=tokenizer,
    train_dataset=dataset,
    dataset_text_field="text",
    max_seq_length=2048,
    args=TrainingArguments(
        per_device_train_batch_size=2,
        gradient_accumulation_steps=4,
        warmup_steps=5,
        max_steps=60,
        learning_rate=2e-4,
        fp16=not torch.cuda.is_bf16_supported(),
        bf16=torch.cuda.is_bf16_supported(),
        logging_steps=1,
        output_dir="outputs",
    ),
)

trainer.train()

适合谁用?

  • AI 应用开发者:需要微调模型来适配特定任务
  • 站长和开发者:想训练自己的 AI 客服、知识库助手
  • 数据科学家:需要在特定领域数据上微调模型
  • AI 爱好者:想在消费级显卡上体验 LLM 微调

硬件要求

微调方式 最低显存 推荐显卡
QLoRA (4-bit) 6GB RTX 3060、RTX 4060
LoRA (16-bit) 16GB RTX 4090、A100
全量微调 24GB+ A100、H100

注意事项

  • Unsloth 目前主要支持 NVIDIA GPU,AMD GPU 的支持还在开发中
  • QLoRA 微调对显存要求低,但效果可能不如全量微调
  • 微调数据的质量比数量更重要——少量高质量数据往往比大量低质量数据效果好
  • 微调后的模型记得保存和备份,避免丢失训练成果
  • 具体支持的模型列表和参数以官方文档为准

简评

Unsloth 是目前开源 LLM 微调工具中最好用的之一。它把复杂的 CUDA 优化和内存管理封装成了简单的 API,让普通开发者也能在消费级显卡上微调大模型。这次与 NVIDIA 的合作进一步提升了性能,值得关注。

如果你有微调 LLM 的需求(比如训练自己的 AI 客服、特定领域的知识库助手),Unsloth 绝对是首选工具。

来源

© 版权声明
THE END
喜欢就支持一下吧
点赞11 分享
相关推荐
<p>菲尔兹奖得主、剑桥大学数学家Timothy Gowers近日在个人博客上分享了他使用ChatGPT 5.5 Pro的体验。令他惊讶的是,这款模型在一小时内连续攻克了多个博士级别的数学难题,展现出远超前代的推理能力。</p>

<h2>菲尔兹奖得主的实测</h2>

<p>Timothy Gowers是当代最有影响力的数学家之一,1998年获得菲尔兹奖,在组合数学和泛函分析领域有重要贡献。他在5月8日发布了一篇详细的博文,记录了自己测试ChatGPT 5.5 Pro推理能力的过程。</p>

<p>据Gowers描述,他给ChatGPT 5.5 Pro提出了多个需要深度推理的数学问题,这些问题的难度大致相当于数学博士资格考试或研究级别。让他印象深刻的是,模型不仅能够给出正确答案,还能提供完整的推理过程,包括:</p>

<ul>
<li>对问题的准确理解</li>
<li>合理的解题策略选择</li>
<li>严密的逻辑推导链</li>
<li>对特殊情况的处理</li>
</ul>

<h2>与前代模型的对比</h2>

<p>Gowers在博文中提到,之前版本的ChatGPT在处理类似难度的数学问题时,经常出现以下问题:</p>

<ul>
<li>推理链中途断裂,得出错误结论</li>
<li>混淆不同数学概念</li>
<li>在计算步骤中出错</li>
<li>无法识别问题的关键约束条件</li>
</ul>

<p>而ChatGPT 5.5 Pro在这些方面有了显著提升。Gowers认为,这一代模型的数学推理能力已经达到了”可以辅助专业数学研究”的水平。</p>

<h2>对普通用户意味着什么</h2>

<p>虽然菲尔兹奖级别的数学测试看起来离普通人很远,但ChatGPT 5.5 Pro展现出的推理能力提升,对日常使用也有实际影响:</p>

<ul>
<li><strong>编程辅助</strong>:更强的逻辑推理能力意味着在代码调试、算法设计等场景下能给出更准确的建议。</li>
<li><strong>数据分析</strong>:处理复杂的数据分析任务时,模型能更好地理解数据关系和统计方法。</li>
<li><strong>技术文档</strong>:在撰写技术文档、API文档等需要严密逻辑的内容时,输出质量更高。</li>
<li><strong>教育辅导</strong>:作为学习辅助工具,能提供更准确的解题思路和步骤讲解。</li>
</ul>

<h2>AI数学能力的里程碑</h2>

<p>ChatGPT 5.5 Pro的表现引发了AI社区的广泛讨论。有观点认为,这标志着大语言模型在形式推理领域取得了重要突破。也有研究者持谨慎态度,指出:</p>

<ul>
<li>单一数学家的主观测试不能替代系统性基准评估</li>
<li>模型可能在训练数据中见过类似题目</li>
<li>真正的数学创新(如提出新定理、发现新证明)仍然是AI的短板</li>
</ul>

<p>无论如何,AI在数学推理方面的进步速度是实实在在的。对于站长和开发者来说,善用AI的推理能力来辅助技术工作,已经是一个切实可行的选择。</p>

<blockquote>
<p><strong>来源:</strong></p>
<ul>
<li><a href=Timothy Gowers Blog – A Recent Experience with ChatGPT 5.5 Pro
  • OSCHINA – ChatGPT 5.5 Pro一小时攻克博士级数学难题
  • -枫选">

    菲尔兹奖得主、剑桥大学数学家Timothy Gowers近日在个人博客上分享了他使用ChatGPT 5.5 Pro的体验。令他惊讶的是,这款模型在一小时内连续攻克了多个博士级别的数学难题,展现出远超前代的推理能力。

    菲尔兹奖得主的实测

    Timothy Gowers是当代最有影响力的数学家之一,1998年获得菲尔兹奖,在组合数学和泛函分析领域有重要贡献。他在5月8日发布了一篇详细的博文,记录了自己测试ChatGPT 5.5 Pro推理能力的过程。

    据Gowers描述,他给ChatGPT 5.5 Pro提出了多个需要深度推理的数学问题,这些问题的难度大致相当于数学博士资格考试或研究级别。让他印象深刻的是,模型不仅能够给出正确答案,还能提供完整的推理过程,包括:

    • 对问题的准确理解
    • 合理的解题策略选择
    • 严密的逻辑推导链
    • 对特殊情况的处理

    与前代模型的对比

    Gowers在博文中提到,之前版本的ChatGPT在处理类似难度的数学问题时,经常出现以下问题:

    • 推理链中途断裂,得出错误结论
    • 混淆不同数学概念
    • 在计算步骤中出错
    • 无法识别问题的关键约束条件

    而ChatGPT 5.5 Pro在这些方面有了显著提升。Gowers认为,这一代模型的数学推理能力已经达到了”可以辅助专业数学研究”的水平。

    对普通用户意味着什么

    虽然菲尔兹奖级别的数学测试看起来离普通人很远,但ChatGPT 5.5 Pro展现出的推理能力提升,对日常使用也有实际影响:

    • 编程辅助:更强的逻辑推理能力意味着在代码调试、算法设计等场景下能给出更准确的建议。
    • 数据分析:处理复杂的数据分析任务时,模型能更好地理解数据关系和统计方法。
    • 技术文档:在撰写技术文档、API文档等需要严密逻辑的内容时,输出质量更高。
    • 教育辅导:作为学习辅助工具,能提供更准确的解题思路和步骤讲解。

    AI数学能力的里程碑

    ChatGPT 5.5 Pro的表现引发了AI社区的广泛讨论。有观点认为,这标志着大语言模型在形式推理领域取得了重要突破。也有研究者持谨慎态度,指出:

    • 单一数学家的主观测试不能替代系统性基准评估
    • 模型可能在训练数据中见过类似题目
    • 真正的数学创新(如提出新定理、发现新证明)仍然是AI的短板

    无论如何,AI在数学推理方面的进步速度是实实在在的。对于站长和开发者来说,善用AI的推理能力来辅助技术工作,已经是一个切实可行的选择。

    来源:

    菲尔兹奖得主、剑桥大学数学家Timothy Gowers近日在个人博客上分享了他使用ChatGPT 5.5 Pro的...

    3天前 54
    评论 抢沙发

    请登录后发表评论

      暂无评论内容