Safety Alignment Comparison Hub

A novel approach to mitigate overrefusal in safety alignment for large language models, enhancing their usability in real-world applications.

A reinforcement learning framework improving LLM safety through role-based self-play.

MOSAIC introduces a modular framework for compositional safety alignment in large language models using learnable control tokens.

Reference Surfaces