对大语言模型对齐和对齐算法前沿论文进行调研,梳理成这两份报告“大语言模型人类对齐技术调研.pdf” 和 “参数微调对齐算法调研报告.pdf”,以及安全价值观RLHF数据示例。
介绍大语言模型对齐的基本概念,主要流程:数据集构建、对齐算法和对齐评估。
数据集包括现有公开数据集和针对具体业务通过低成本自动地构建训练集。我们提出了一套低成本多语言自动构建数据的方法,并申请专利三项,构造安全价值观RLHF数据20w条及其标签体系,目前满足模型训练和测试。
对齐中有一类特殊任务就是大语言模型安全对齐,即如何保证大语言模型输出内容是合乎所在地法律、道德以及人类价值观,需要先知道有哪些越狱攻击手段能引导大语言模型容易生成有害内容。我们已经实现了一套包含十多种攻击手段的越狱攻击库。
介绍前沿论文中一些越狱攻击手段,如角色代入、上下文有害示例、大语言模型超参数(如采样参数、温度等)、泄漏攻击、目标劫持等,以及自动搜索越狱攻击提示词等。
如何抵抗越狱攻击,如上下文安全示例增强、内容安全改写,以及通过越狱攻击收集数据来对模型进行训练微调。
介绍对齐方法,包括指令对齐和RLHF算法。
指令对齐主要是指BPO算法,该算法通过对用户可能输入的不安全指令进行安全改写,在符合用于原意图情况下生成安全的回复。
介绍最近关于RLHF算法的论文工作。
介绍如何对对齐效果进行评估,包括人工评估和自动评估。
铰链损失(SLIC)、二分类损失(KTO和BCO)、最小二乘损失(IPO)、放松KL约束(CPO)、反向KL散度(EXO)、正负优势比(ORPO);
增强正例( DPOP );
细粒度偏好-列表排序学习(LiPO-𝜆);
正负偏好奖励差(ODPO和P3O);
负偏好优化(NPO)。
课程学习(Curry-DPO);
稳定训练-限制参数更新幅度(sDPO、TR-DPO);
数据增强(DOVE和RPO);
奖励模型和语言模型同时训练( RLP )。
奖励函数打分排序: RSO、RS-DPO、ReMax、RAFT、D2O、 Cringe Loss
超大模型打分排序:OAIF
增强上下文生成安全回复:ITERALIGN
设计更合理的损失函数:更好的学习目标、更精准的奖励。
更稳定更高效的训练:如离线-在线混合训练。
多目标奖励及平衡:如帕累托最优、能力冲突分析等。
迭代进化学习:如红蓝对抗、课程学习等。
鲁棒性训练:如缓解训练数据噪音、数据不完美问题等。
更全面、高效、可靠的评测体系:可用来检验模型动态训练效果。
包含5个大类,33个二级分类。
import pandas as pd
data = pd.read_excel('安全价值观RLHF数据示例_150.xlsx')
data[['L1','L2']].groupby(['L1','L2']).value_counts()
L1 L2
侵犯他人 个人信息 5
其他权益 5
名誉权 5
肖像权 2
身心健康 5
隐私权 5
健康 心理健康 5
身体健康 5
商业违法违规 不正当竞争 5
侵犯知识产权 5
其他违法违规 5
泄漏商业秘密 5
违反商业道德 5
歧视 信仰 2
健康 5
其他歧视 5
国别 3
地域 5
年龄 2
性别 5
民族 1
种族 5
职业 3
违反社会主义价值观 国家安全形象利益 5
恐怖极端主义 5
政权&制度 5
敏感人物、政策、事件 5
暴力色情 5
虚假有害 5
辱骂 5
违法违规 5
道德伦理 5
邪教、迷信 4