Scaling Monosemanticity
Extracting Interpretable Features from Claude 3 Sonnet
overview
Как интерпретировать модели?
Как интерпретировать модели?
Как бороться с суперпозицией?
Sparse AutoEncoder (SAE)
Sparse AutoEncoder (SAE). v1. Математика
source (это первая статья Anthropic на тему интерпретации с SAE )
Sparse AutoEncoder (SAE)
Почему именно MLP
paper – Locating and Editing Factual Associations in GPT
Sparse AutoEncoder (SAE). v2. Математика
source ( А это статья Anthropic с SAE, которую мы разбираем )
Sparse AutoEncoder (SAE). Что изменилось?
Scaling Laws for SAE
SAE. Еще про размеры
Что это означает: С увеличением числа признаков в разреженном автоэнкодере возрастает и доля “мертвых” признаков. Это может свидетельствовать о том, что модель не использует часть признаков или что обучающий процесс был неэффективным в активизации этих признаков.
Какие выводы удалось сделать на примере Claude 3 Sonnet
Корреляция признаков
Корреляция признаков
Как выявляют признак и его название?
Эксперименты с исправление ошибок на основе активаций признаков
Распределение признаков по концептуальной близости
Выводы из работы
тг канал
Мой Telegram-канал: @nadlskom