Transformer Interpretability

Trending

3papers

4.7viability

+100%30d

Papers

1–3 of 3

Research Paper·Mar 8, 2026

Interpretable-by-Design Transformers via Architectural Stream Independence

While transformers achieve strong performance, their internal decision-making processes remain opaque. We investigate whether architectural constraints can enforce interpretability by design through a...

7.0 viability

Research Paper·Feb 11, 2026

Low-Dimensional Execution Manifolds in Transformer Learning Dynamics: Evidence from Modular Arithmetic Tasks

We investigate the geometric structure of learning dynamics in overparameterized transformer models through carefully controlled modular arithmetic tasks. Our primary finding is that despite operating...

4.0 viability

Research Paper·Mar 2, 2026

What Helps -- and What Hurts: Bidirectional Explanations for Vision Transformers

Vision Transformers (ViTs) achieve strong performance in visual recognition, yet their decision-making remains difficult to interpret. We propose BiCAM, a bidirectional class activation mapping method...

3.0 viability

Transformer Interpretability

Papers

Interpretable-by-Design Transformers via Architectural Stream Independence

Low-Dimensional Execution Manifolds in Transformer Learning Dynamics: Evidence from Modular Arithmetic Tasks

What Helps -- and What Hurts: Bidirectional Explanations for Vision Transformers

Filters