目前,微调对齐方法如RLHF和DPO已经在文本模态的大模型上取得了显著效果。经过对齐后的模型在指令跟随(Instruction-Following)、安全性、复杂推理等多个方面都有显著提升。然而,除了文本模态的大模型之外,其他模型,如文本生成视频模型等,在对齐算法的设计上仍然缺乏深入探索。此外,RLHF这类微调算法高度依赖工程和算力,包含了大量的工程技巧,将这类算法推广到其他模态(例如图文生成(T+I → T)、文本生成图像(T → I)、文本生成视频(T → V))存在极大的工程挑战。
目前在开源社区内,还没有一个框架能够支持任意模态的微调。Align-Anything框架希望通过设计一个接口统一的任意模态的对齐框架设计来填补这一空白,为社区在设计任意模态的对齐算法时提供一个统一、通用的对齐框架。
目前Align-Anything已经实现了如下的功能:
(算法)Align-Anything具有高度的模态与算法扩展性,目前已实现了涵盖文本、图像、音频与视频等4种全输入输出模态、SFT、DPO、PPO、SimPO等超过6种对齐算法。研究者可以轻易地在任意至任意的模态上扩展新的对齐算法。举例而言,我们基于Align-Anything进行了如下实现:
Align-Anything的可扩展性还体现在对多种模型与数据集的支持上。我们设计了便于用户定制化的template机制,并支持了超过61种涵盖不同模型与数据集的template,极大地扩展了Align-Anything的算法支持范围。
**(数据集)**实现了多种模态输入、多种模态输出的指令跟随和偏好数据集,具体如下:
我们相信,Align-Anything这一系列的数据集将会大大促进社区的多模态对齐研究;
**(评估)**搭建了基于vLLM和Deepspeed的多模态评估框架,具体如下:
通过精细的函数接口API设计以及高度可读性的代码,Align-Anything旨在设计一个通用有效的对齐框架来促进任意模态的对齐算法设计。
一、高质量SFT的英文指令跟随数据集Align-Anything-Instruction-100K
PKU-Alignment/Align-Anything-Instruction-100K · Datasets at Hugging Face
我们提供了一个高质量的指令跟随数据集,其中包含了100K的QA对,每个QA对都经过GPT4的完善。我们的问题来自于多个公共数据集,如PKU-SafeRLHF, DialogueSum, Empathetic Dataset, Alpaca 52K 和 InstructionWild 数据集。每个问题都在专家示范和特定指导下由GPT4进行细化,随后由GPT4标注回答。这一套全面且细致的流程产生了一个高质量的指令跟随数据集。
要点
比较实验:
我们可视化出我们的问题分布图,如图所示我们的问题涵盖范围更广、种类更多,更具备多样性。