Recapitulación honesta: lo que se ha encontrado, lo que no se ha podido demostrar, y por dónde seguir.
An honest recap: what was found, what couldn't be demonstrated, and where to go next.
01 · Contribuciones
01 · Contributions
Tres hallazgos sustantivos
Three substantive findings
Arquitectura funcional de tres niveles. Las capas tempranas hacen señal léxica cruda; L0 sola absorbe el 61 % de la separabilidad final del modelo. Las medias computan una transición que el probing ve subir pero la cabeza de clasificación no sabe todavía leer. Las tardías hacen la rotación final, y restaurar sólo la FFN de la capa 11 ya recupera el 100 % del F1 desde un colapso total. No hace falta toda la capa: hace falta ese sub-componente concreto.
A three-level functional architecture. The early layers do raw lexical work, with L0 alone absorbing 61 % of the model's final separability. The middle layers compute a transition that probing sees rise but the classifier head can't yet read. The late ones do the final rotation, and restoring just the FFN of layer 11 already recovers 100 % of F1 from total collapse. You don't need the whole layer; you need that specific sub-component.
Sensibilidad muy desigual entre componentes. Q a rango 128 conserva el 99,4 % del F1; la FFN Intermediate al mismo rango cae al 6,9 %. Catorce veces más de retención absoluta, setenta y dos veces si se normaliza por parámetros eliminados. La compresión uniforme cae por un acantilado entre rango 384 y 256, y por debajo de 128 el F1 es exactamente cero. Que yo sepa, este factor de 14×–72× no estaba cuantificado en la literatura previa de SVD sobre Transformers.
Wildly uneven sensitivity across components. Q at rank 128 keeps 99.4 % of F1; FFN Intermediate at the same rank drops to 6.9 %. Fourteen times the absolute retention, seventy-two times once you normalise by parameters eliminated. Uniform compression falls off a cliff between rank 384 and 256, and below 128 F1 is exactly zero. As far as I'm aware, this 14×–72× factor wasn't quantified in the prior literature on SVD for Transformers.
El algoritmo greedy se queda con 8 de los 9 puntos Pareto-óptimos. Al 80 % de parámetros retiene el 87 % del F1, frente al 43 % de la compresión uniforme al mismo ratio. Y descubre la jerarquía que la interpretabilidad había encontrado por otra vía: comprime Q y K primero, no toca la FFN Intermediate de las capas tardías. Tras tres épocas de fine-tuning, el modelo comprimido al 86,4 % de parámetros llega a F1 0,591 — por encima del baseline (0,577). La ganancia se concentra en emociones infrarrepresentadas: embarrassment pasa de 0,267 a 0,509.
The greedy algorithm takes 8 of the 9 Pareto-optimal points. At 80 % parameters it keeps 87 % of F1, versus 43 % for uniform at the same ratio. And it rediscovers the hierarchy that interpretability had found from a different angle: compress Q and K first, never touch the FFN Intermediate of the late layers. After three epochs of fine-tuning, the compressed model at 86.4 % of parameters reaches F1 0.591 — above the baseline (0.577). The gain concentrates on underrepresented emotions: embarrassment goes from 0.267 to 0.509.
02 · Limitaciones
02 · Limitations
Lo que no se ha podido demostrar
What couldn't be demonstrated
Un modelo, una tarea. Todo lo que aparece aquí se ejecuta sobre BERT-base y GoEmotions. Que la arquitectura sea encoder-only puede estar favoreciendo la concentración tardía que documentamos; con BERT-large, RoBERTa, GPT-2 o LLaMA podría no replicar igual. Es la prioridad número uno del trabajo futuro, pero hoy no está verificada.
One model, one task. Everything in here runs on BERT-base and GoEmotions. The encoder-only architecture might be helping the late-layer concentration we documented; with BERT-large, RoBERTa, GPT-2 or LLaMA it might not replicate the same. It's the top item on the future-work list, but as of today it's not verified.
Compresión post-hoc, no durante el entrenamiento. La SVD entra cuando el modelo ya está fine-tuneado. Otros caminos (pruning estructurado, cuantización, destilación) interactúan de forma distinta y no se evalúan en combinación. Lo razonable sería un pipeline que los apile, pero queda fuera del alcance.
Post-hoc compression, not during training. SVD comes in once the model is already fine-tuned. Other paths (structured pruning, quantisation, distillation) interact differently and aren't evaluated in combination. The reasonable next step is a pipeline that stacks them, but it's out of scope here.
Potencia estadística limitada. Las correlaciones se calculan sobre n = 23 emociones; eso da confianza para detectar efectos grandes (ρ > 0,556) pero no efectos moderados. La regularización que se observa al fine-tunear el modelo comprimido (+90 % en embarrassment) carece de grupo de control con épocas extra sobre el baseline sin comprimir, así que se reporta como observación consistente con la hipótesis y no como causalidad establecida.
Limited statistical power. Correlations are computed over n = 23 emotions; that gives confidence for detecting large effects (ρ > 0.556) but not moderate ones. The regularisation observed when fine-tuning the compressed model (+90 % on embarrassment) doesn't have a control with extra epochs on the uncompressed baseline, so it's reported as an observation consistent with the hypothesis rather than established causation.
Distorsión espectral, no ruido neutral. El activation patching parte de una corrupción estructurada (SVD a rango 64), no de ruido gaussiano como en el causal tracing original de Meng et al. Las conclusiones que se sacan son funcionales —qué componentes bastan para revivir el modelo desde el colapso— más que estrictamente causales en el sentido de Pearl. Es una distinción que conviene tener clara.
Spectral distortion, not neutral noise. Activation patching starts from a structured corruption (SVD to rank 64), not Gaussian noise as in Meng et al.'s original causal tracing. What you can conclude is functional — which components are enough to revive the model from collapse — rather than strictly causal in Pearl's sense. Worth keeping that distinction in mind.
03 · Trabajo futuro
03 · Future work
Predicciones falsables
Falsifiable predictions
Generalización a otros modelos y tareas. La predicción concreta: el ratio de compresibilidad espectral k₉₅(Q)/k₉₅(FFN) en BERT-large debería caer en el rango [0,55, 0,75]. En BERT-base es 0,64. En decoder-only la restauración por activation patching debería repartirse entre varias capas tardías en lugar de concentrarse tanto en L11. Si no replica, hay que matizar la hipótesis de la jerarquía funcional.
Generalisation to other models and tasks. The concrete prediction: the spectral compressibility ratio k₉₅(Q)/k₉₅(FFN) in BERT-large should land in [0.55, 0.75]. BERT-base sits at 0.64. In decoder-only models, activation-patching restoration should spread across several late layers instead of concentrating so much on L11. If it doesn't replicate, the functional-hierarchy claim needs softening.
Verificar causalmente la regularización por compresión. Tres condiciones: (i) baseline con 3 épocas adicionales, (ii) baseline + greedy + 3 épocas (lo de aquí), (iii) baseline + 3 épocas con dropout y weight-decay subidos. Si (ii) supera a (i) y (iii) en F1 macro y, sobre todo, en emociones infrarrepresentadas, la hipótesis de regularización implícita queda bien apoyada.
Causally verifying the regularisation-from-compression effect. Three conditions: (i) baseline with 3 extra epochs, (ii) baseline + greedy + 3 epochs (this work), (iii) baseline + 3 epochs with raised dropout and weight decay. If (ii) beats (i) and (iii) on macro F1 and especially on underrepresented emotions, the implicit-regularisation hypothesis stands on firmer ground.
Compresión por cabeza individual. Tenemos 38 cabezas prescindibles más 21 interferentes identificadas; son candidatas directas a eliminación. Apilar pruning de cabezas + greedy SVD + cuantización post-hoc + fine-tuning recovery podría componer reducciones multiplicativas sin perder F1. Es la línea más práctica.
Per-head compression granularity. We have 38 dispensable plus 21 interfering heads identified; those are direct elimination candidates. Stacking head pruning + greedy SVD + post-hoc quantisation + fine-tuning recovery could compose multiplicative reductions without losing F1. It's the most practical line of work.
Tuned lens y dinámica de entrenamiento. Aprender una transformación T_ℓ : ℝ^d → ℝ^d por capa que minimice la divergencia KL contra L11 y ver si el patrón en U sobrevive a esa calibración. Y monitorizar cristalización y especialización neuronal durante el fine-tuning, para saber en qué momento de la optimización aparece cada propiedad estructural.
Tuned lens and training dynamics. Learn a per-layer transformation T_ℓ : ℝ^d → ℝ^d that minimises KL divergence against L11 and check whether the U pattern survives that calibration. And track crystallisation and neural specialisation during fine-tuning itself, to find out at what point in optimisation each structural property shows up.
BERT no fue diseñado para clasificar emociones. La arquitectura funcional que aparece aquí — cristalización progresiva, dominio de la FFN tardía, la U del logit lens, los seis clusters con coherencia psicológica — no se programó. Salió sola. Lo que hace la interpretabilidad mecánica es documentar lo que el gradiente decidió, no lo que nadie prescribió.
Cómo está hecho · Stack y créditos
BERT wasn't designed for emotion classification. The functional architecture that shows up here — progressive crystallisation, late-FFN dominance, the logit-lens U, six clusters with psychological coherence — wasn't programmed. It came out on its own. What mechanistic interpretability does is document what gradient descent decided, not what anyone prescribed.
How it's built · Stack and credits
Comentarios
Comments
Si algo te ha llamado la atención, o discrepas, o quieres preguntar — abajo. Comentar requiere cuenta de GitHub.
If something caught your eye, or you disagree, or you'd like to ask — below. Commenting requires a GitHub account.