AI Diagnostics Comparison Hub

3 papers - avg viability 5.3

Reference Surfaces

Diagnosing Generalization Failures in Fine-Tuned LLMs: A Cross-Architectural Study on Phishing Detection(6.0)
A diagnostic tool for improving generalization in fine-tuned LLMs for phishing detection leveraging architecture and data diversity.
"I May Not Have Articulated Myself Clearly": Diagnosing Dynamic Instability in LLM Reasoning at Inference Time(3.0)
Diagnostic method for predicting reasoning failure in LLMs using inference-time signals.