2 of 20

Как интерпретировать модели?

Почему мы просто не можем посмотреть на активацию нейронов и проанализировать?

– Проблема заключается в том, что многие нейроны являются полисемантическими, то есть они реагируют на комбинации разнородных входных сигналов

3 of 20

Как интерпретировать модели?

Почему мы просто не можем посмотреть на активацию нейронов и проанализировать?

– Проблема заключается в том, что многие нейроны являются полисемантическими, то есть они реагируют на комбинации разнородных входных сигналов

По гипотезе Anthropic инженеров, одна из возможных причин полисемантичности – суперпозиция

Суперпозиция — это предполагаемое явление, при котором нейронная сеть способна представлять больше независимых “признаков” данных, чем у нее есть нейронов. Она делает это путем назначения каждому признаку своей линейной комбинации нейронов.
Читать больше по теме можно тут или тут

4 of 20

Как бороться с суперпозицией?

Создание моделей без суперпозиции за счет принуждения к разреженности активаций.

Один из вариантов – dictionary learning (читать про него тут и тут)

Использование метода словарного обучения для поиска линейного базиса признаков.
Комбинированные подходы, сочетающие эти методы.

5 of 20

Sparse AutoEncoder (SAE)

source

6 of 20

Sparse AutoEncoder (SAE). v1. Математика

source (это первая статья Anthropic на тему интерпретации с SAE )

7 of 20

Sparse AutoEncoder (SAE)

8 of 20

Почему именно MLP

paper – Locating and Editing Factual Associations in GPT

9 of 20

Sparse AutoEncoder (SAE). v2. Математика

source ( А это статья Anthropic с SAE, которую мы разбираем )

10 of 20

Sparse AutoEncoder (SAE). Что изменилось?

Добавлено смещение и масштабирование входных активаций перед ReLU
Включена норма декодера Wdec в регуляризацию, обеспечивая более интерпретируемые направления признаков.
Упор на интерпретацию признаков как линейных направлений (features directions) в пространстве активаций, а не только на разреженное представление.
Добавлены bias-термы

11 of 20

Scaling Laws for SAE

12 of 20

SAE. Еще про размеры

1M: Примерно 2% признаков оказались “мертвыми”.
4M: 35% оказались “мертвыми”.
34M: 65% признаков были “мертвыми”.

Что это означает: С увеличением числа признаков в разреженном автоэнкодере возрастает и доля “мертвых” признаков. Это может свидетельствовать о том, что модель не использует часть признаков или что обучающий процесс был неэффективным в активизации этих признаков.

13 of 20

Какие выводы удалось сделать на примере Claude 3 Sonnet

14 of 20

Корреляция признаков

15 of 20

Корреляция признаков

16 of 20

Как выявляют признак и его название?

Выбор текстов с максимальной активацией признака
Изучение текстовых фрагментов
Поиск общей темы или концепции
Использование автоматизированных методов интерпретации
Проверка специфичности и влияния

17 of 20

Эксперименты с исправление ошибок на основе активаций признаков

Подали на вход модели корректный (без ошибок) фрагмент кода и принудительно увеличили активацию определенного признака. В результате модель сгенерировала сообщение об ошибке, хотя в коде не было ошибок.
Подали на вход код, который действительно содержит ошибку, и уменьшили активацию этого же признака. В результате модель повела себя так, как будто ошибки не существовало
Добавили в конец подсказки “>>>” (что обычно указывает на начало новой строки кода) и снова уменьшили активацию признака до большого отрицательного значения. В этом случае модель не просто игнорировала ошибку, но действительно переписывала код так, чтобы ошибка была устранена.

18 of 20

Распределение признаков по концептуальной близости

19 of 20

Выводы из работы

Признаки активируются по смыслу (язык не влияет)
Модель может иметь гораздо больше признаков, которые еще не были обнаружены, и они могут быть выявлены с помощью еще более крупных SAE
Наличие признака, связанного с определенной концепцией, тесно связано с частотой упоминания этой концепции в обучающих данных. С увеличением размера модели SAE, порог частоты, необходимый для появления признака, снижается.
Авторы предполагают, что если концепция встречается в обучающих данных один раз на миллиард токенов, то для обнаружения уникального признака, представляющего эту концепцию, потребуется модель SAE с примерно миллиардом активных признаков.

1 of 20