Transformer Interpretability Comparison Hub

3 papers - avg viability 4.7

Reference Surfaces

Interpretable-by-Design Transformers via Architectural Stream Independence(7.0)
The Late Fusion Architecture (LFA) enforces interpretability in transformers by maintaining independent token and semantic streams, enabling functional modularity and improved learning mechanisms, making it easier to understand and control transformer behavior.
Low-Dimensional Execution Manifolds in Transformer Learning Dynamics: Evidence from Modular Arithmetic Tasks(4.0)
Develop a geometric framework for transformer interpretability on modular tasks using low-dimensional manifolds.
What Helps -- and What Hurts: Bidirectional Explanations for Vision Transformers(3.0)
Develop a tool for generating bidirectional explanations for Vision Transformers using BiCAM, enhancing interpretability and adversarial detection.