Heretic 是一个旨在解决大型语言模型(LLM)中“安全对齐”或“审查”问题的开源工具。当前许多LLM在训练过程中被植入了安全机制,导致它们在面对某些“敏感”或“有害”提示时会拒绝回答,这限制了模型的通用性和某些特定应用场景。Heretic 的核心价值在于提供了一种全自动、高效且无需专业Transformer内部知识的方法,来移除这些模型的审查机制,从而释放其全部潜力。
该项目通过结合“定向消融”(directional ablation,又称“abliteration”)的先进实现与基于 Optuna 的 TPE 参数优化器来工作。定向消融是一种通过识别并修改模型内部特定神经元或连接来改变模型行为的技术。Heretic 的创新之处在于,它能够自动寻找最佳的消融参数,以最小化模型拒绝回答的数量,同时最大程度地保持模型与原始模型之间的KL散度(即保持模型原有智能和能力)。这意味着 Heretic 能够在去除审查的同时,最大限度地减少对模型原有性能的损害。
Heretic 的关键特性包括:
- 全自动化操作:用户只需指定要处理的模型,Heretic 即可自动完成审查移除过程,无需手动干预或复杂的配置。
- 高效率:与昂贵的后训练(post-training)方法不同,Heretic 采用定向消融,显著降低了成本和时间。
- 高质量去审查:通过智能优化算法,Heretic 生成的去审查模型在拒绝率与原始模型智能保留之间取得了优异的平衡,甚至超越了部分人工调优的结果。
- 广泛的模型支持:支持大多数密集型模型,包括多模态模型和多种 MoE 架构。
- 研究功能:除了核心的去审查功能,Heretic 还提供了用于研究模型内部语义的工具,例如生成残差向量的可视化图表和打印残差几何细节,这对于理解模型工作原理和进行可解释性研究非常有价值。
Heretic 的实际应用场景非常广泛,例如:
- 内容创作与探索:对于需要探索更广泛、更具争议性或非传统主题的创作者,Heretic 可以提供一个不受限制的语言模型,用于生成创意文本、剧本、故事等。
- 研究与开发:研究人员可以使用去审查的模型来探索LLM的潜在偏见、安全机制的有效性,或者在不受限制的环境中测试新的AI应用。
- 特定行业应用:在某些法律、医疗或心理咨询等领域,可能需要模型能够直接、客观地处理敏感信息,而无需因“安全对齐”而拒绝回答。
- 个人定制化模型:对于希望拥有一个完全符合自己需求、不受预设审查限制的个人用户,Heretic 提供了一种便捷的解决方案。
总而言之,Heretic 为开发者和研究人员提供了一个强大而易用的工具,以克服当前LLM的审查限制,推动模型在更广泛、更自由的场景中发挥其全部潜力。