目前,微调对齐方法如RLHF和DPO已经在文本模态的大模型上取得了显著效果。经过对齐后的模型在指令跟随(Instruction-Following)、安全性、复杂推理等多个方面都有显著提升。然而,除了文本模态的大模型之外,其他模型,如文本生成视频模型等,在对齐算法的设计上仍然缺乏深入探索。此外,RLHF这类微调算法高度依赖工程和算力,包含了大量的工程技巧,将这类算法推广到其他模态(例如图文生成(T+I → T)、文本生成图像(T → I)、文本生成视频(T → V))存在极大的工程挑战。

目前在开源社区内,还没有一个框架能够支持任意模态的微调。Align-Anything框架希望通过设计一个接口统一的任意模态的对齐框架设计来填补这一空白,为社区在设计任意模态的对齐算法时提供一个统一、通用的对齐框架。

目前Align-Anything已经实现了如下的功能:

  1. (算法)Align-Anything具有高度的模态与算法扩展性,目前已实现了涵盖文本、图像、音频与视频等4种全输入输出模态、SFT、DPO、PPO、SimPO等超过6种对齐算法。研究者可以轻易地在任意至任意的模态上扩展新的对齐算法。举例而言,我们基于Align-Anything进行了如下实现:

    1. 文本→文本模态下的SFT、DPO、PPO、ORPO、SimPO、KTO微调
    2. 文本+图像→文本、文本→图像、文本→音频、文本→视频 模态的SFT微调
    3. 文本+图像→文本、文本→图像、文本→音频、文本→视频 模态的DPO微调
    4. 文本+图像→文本 模态的PPO微调

    Align-Anything的可扩展性还体现在对多种模型与数据集的支持上。我们设计了便于用户定制化的template机制,并支持了超过61种涵盖不同模型与数据集的template,极大地扩展了Align-Anything的算法支持范围。

  2. **(数据集)**实现了多种模态输入、多种模态输出的指令跟随和偏好数据集,具体如下:

    1. 我们发布了输入为文本模态,输出为文本模态的指令跟随数据集(英文版与中文版):Align-Anything-Instruction-100KAlign-Anything-Instruction-100K-zh
    2. 我们即将发布输入为多种模态(图片、音频、视频),输出为文本模态的指令跟随和偏好数据集,该系列数据集将为增强模型多模态理解能力提供充分支持;
    3. 我们即将发布输入为文本模态,输出为为多种模态(图片、音频、视频)的指令跟随和偏好数据集;
    4. 我们即将发布输入为任何混合模态,输出为任何混合模态的指令跟随和偏好数据集;

    我们相信,Align-Anything这一系列的数据集将会大大促进社区的多模态对齐研究;

  3. **(评估)**搭建了基于vLLM和Deepspeed的多模态评估框架,具体如下:

    1. 整理并标准化处理了25个不同评估维度的文本→文本基准测试数据集,便于标准化测试;
    2. 实现了文本→文本模态的evaluation框架;
    3. 正在扩展兼容多种模态混合输入输出的evaluation pipeline;
    4. 正在实现并扩展多模态的API Evaluation,能够调用OpenAI, Claude等主流在线API进行定制化prompt评测,同时兼容使用本地模型及Reward Model进行评测;

通过精细的函数接口API设计以及高度可读性的代码,Align-Anything旨在设计一个通用有效的对齐框架来促进任意模态的对齐算法设计。

1、数据(Data)

1.1 T2T文生文模态

1.1.1 微调数据集(Align-Anything-100k

一、高质量SFT的英文指令跟随数据集Align-Anything-Instruction-100K

PKU-Alignment/Align-Anything-Instruction-100K · Datasets at Hugging Face

我们提供了一个高质量的指令跟随数据集,其中包含了100K的QA对,每个QA对都经过GPT4的完善。我们的问题来自于多个公共数据集,如PKU-SafeRLHF, DialogueSum, Empathetic Dataset, Alpaca 52K 和 InstructionWild 数据集。每个问题都在专家示范和特定指导下由GPT4进行细化,随后由GPT4标注回答。这一套全面且细致的流程产生了一个高质量的指令跟随数据集。

要点

比较实验:

我们可视化出我们的问题分布图,如图所示我们的问题涵盖范围更广、种类更多,更具备多样性。