Heretic：2.2万星的LLM审查移除工具，让大模型说真话

大语言模型（LLM）的一个普遍问题是”过度审查”——很多模型会拒绝回答一些完全合理的问题，或者给出过于谨慎的”政治正确”回答。Heretic是一个开源工具，专门用来移除LLM的审查机制，让模型能够更自由地表达。

为什么需要Heretic

你可能遇到过这样的情况：

你问AI一个技术问题，它却回复”我不能帮助你”，仅仅因为问题中包含了某些敏感词。或者你让它写一个故事，它却加上一堆免责声明。

这种过度审查是模型训练过程中RLHF（人类反馈强化学习）的副产品。为了确保安全，训练者给模型施加了过多的限制，导致模型在很多无害场景下也会拒绝回答。

Heretic的工作原理

Heretic使用了一种称为”自动审查移除”（Automatic Censorship Removal）的技术。它不需要手动修改模型权重，而是通过分析模型的行为模式，自动识别和移除审查相关的参数。

具体来说，Heretic的工作流程是：

分析模型的拒绝行为模式
识别与审查相关的神经元和参数
在不损害模型核心能力的前提下，移除或减弱这些参数
验证移除后的模型仍然保持正常功能

如何使用

# 克隆仓库
git clone https://github.com/p-e-w/heretic.git
cd heretic

# 安装
pip install -e .

# 对模型进行审查移除
heretic uncensor --model path/to/your/model --output path/to/output

处理后的模型可以像原始模型一样使用，但不会再有过度拒绝的问题。

注意事项

合法使用：Heretic的目的是移除不合理的过度审查，而不是让模型生成有害内容。请确保你的使用场景是合法的。

模型质量：审查移除可能会影响模型的某些能力。建议在处理后对模型进行全面测试，确保它仍然满足你的需求。

本地运行：Heretic需要在本地运行，因为它需要访问模型的完整权重。不支持通过API使用。

适用场景

研究用途：研究人员可以使用Heretic来研究模型的审查机制和行为模式。

内容创作：作家和创作者可以使用Heretic来获得更自由的创作辅助。

技术开发：开发者可以使用Heretic来测试模型在无审查状态下的表现，以便更好地理解模型的能力边界。

社区评价

Heretic在GitHub上获得了2.2万颗星，社区反馈普遍积极。很多用户表示，处理后的模型确实变得更”好用”了，不再动不动就拒绝回答。但也有用户指出，某些模型在处理后会出现轻微的质量下降。

本文参考来源：Heretic – Fully automatic censorship removal for language models | GitHub

文章版权声明 1、本网站名称：枫选
2、本站永久网址：https://feng.cx
3、本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长进行删除处理。
4、本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5、本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报
6、本站资源大多存储在云盘，如发现链接失效，请联系我们我们会第一时间更新。

THE END