Data Advisor

[EMNLP 2024] Data Advisor: Dynamic Data Curation for Safety Alignment of Large Language Models

🌐 Homepage | 📖 Paper | 🤗 Dataset (Data Advisor) | 🤗 Dataset (Self-Instruct)

Data Generation

Generate safety alignment data with Data Advisor:

python data_advisor.py
python response_generation.py

Generate safety alignment data with Self-Instruct:

python self_instruct.py
python response_generation.py

Training

First, prepare Alpagasus data:

python utils/export_alpagasus.py

Then, train the target model with Alpagasus data and safety alignment data generated by Data Advisor:

python train_target_model.py

Evaluation

Evaluate model safety with LlamaGuard on CatQA and BeaverTails:

bash scripts/eval_catqa.sh
bash scripts/eval_beavertails.sh

Evaluate model utility on MMLU:

bash scripts/eval_mmlu.sh

Citation

@inproceedings{wang2024data,
  title={Data Advisor: Dynamic Data Curation for Safety Alignment of Large Language Models},
  author={Wang, Fei and Mehrabi, Ninareh and Goyal, Palash and Gupta, Rahul and Chang, Kai-Wei and Galstyan, Aram},
  booktitle={Proceedings of EMNLP 2024},
  year={2024}
}

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Data Advisor

Data Generation

Training

Evaluation

Citation

About

Releases

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
data		data
eval		eval
scripts		scripts
utils		utils
README.md		README.md
data_advisor.py		data_advisor.py
requirements.txt		requirements.txt
response_generation.py		response_generation.py
self_instruct.py		self_instruct.py
train_target_model.py		train_target_model.py

FeiWang96/Data-Advisor

Folders and files

Latest commit

History

Repository files navigation

Data Advisor

Data Generation

Training

Evaluation

Citation

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages