1 of 20

Scaling Monosemanticity

Extracting Interpretable Features from Claude 3 Sonnet

overview

2 of 20

Как интерпретировать модели?

  • Почему мы просто не можем посмотреть на активацию нейронов и проанализировать?
    • – Проблема заключается в том, что многие нейроны являются полисемантическими, то есть они реагируют на комбинации разнородных входных сигналов

3 of 20

Как интерпретировать модели?

  • Почему мы просто не можем посмотреть на активацию нейронов и проанализировать?
    • – Проблема заключается в том, что многие нейроны являются полисемантическими, то есть они реагируют на комбинации разнородных входных сигналов

  • По гипотезе Anthropic инженеров, одна из возможных причин полисемантичности – суперпозиция
    • Суперпозиция — это предполагаемое явление, при котором нейронная сеть способна представлять больше независимых “признаков” данных, чем у нее есть нейронов. Она делает это путем назначения каждому признаку своей линейной комбинации нейронов.
    • Читать больше по теме можно тут или тут

4 of 20

Как бороться с суперпозицией?

  1. Создание моделей без суперпозиции за счет принуждения к разреженности активаций.
    1. Один из вариантов – dictionary learning (читать про него тут и тут)
  2. Использование метода словарного обучения для поиска линейного базиса признаков.
  3. Комбинированные подходы, сочетающие эти методы.

5 of 20

Sparse AutoEncoder (SAE)

6 of 20

Sparse AutoEncoder (SAE). v1. Математика

source (это первая статья Anthropic на тему интерпретации с SAE )

7 of 20

Sparse AutoEncoder (SAE)

8 of 20

Почему именно MLP

paper – Locating and Editing Factual Associations in GPT

9 of 20

Sparse AutoEncoder (SAE). v2. Математика

source ( А это статья Anthropic с SAE, которую мы разбираем )

10 of 20

Sparse AutoEncoder (SAE). Что изменилось?

  1. Добавлено смещение и масштабирование входных активаций перед ReLU
  2. Включена норма декодера Wdec в регуляризацию, обеспечивая более интерпретируемые направления признаков.
  3. Упор на интерпретацию признаков как линейных направлений (features directions) в пространстве активаций, а не только на разреженное представление.
  4. Добавлены bias-термы

11 of 20

Scaling Laws for SAE

12 of 20

SAE. Еще про размеры

  • 1M: Примерно 2% признаков оказались “мертвыми”.
  • 4M: 35% оказались “мертвыми”.
  • 34M: 65% признаков были “мертвыми”.

Что это означает: С увеличением числа признаков в разреженном автоэнкодере возрастает и доля “мертвых” признаков. Это может свидетельствовать о том, что модель не использует часть признаков или что обучающий процесс был неэффективным в активизации этих признаков.

13 of 20

Какие выводы удалось сделать на примере Claude 3 Sonnet

14 of 20

Корреляция признаков

15 of 20

Корреляция признаков

16 of 20

Как выявляют признак и его название?

  1. Выбор текстов с максимальной активацией признака
  2. Изучение текстовых фрагментов
  3. Поиск общей темы или концепции
  4. Использование автоматизированных методов интерпретации
  5. Проверка специфичности и влияния

17 of 20

Эксперименты с исправление ошибок на основе активаций признаков

  1. Подали на вход модели корректный (без ошибок) фрагмент кода и принудительно увеличили активацию определенного признака. В результате модель сгенерировала сообщение об ошибке, хотя в коде не было ошибок.
  2. Подали на вход код, который действительно содержит ошибку, и уменьшили активацию этого же признака. В результате модель повела себя так, как будто ошибки не существовало
  3. Добавили в конец подсказки “>>>” (что обычно указывает на начало новой строки кода) и снова уменьшили активацию признака до большого отрицательного значения. В этом случае модель не просто игнорировала ошибку, но действительно переписывала код так, чтобы ошибка была устранена.

18 of 20

Распределение признаков по концептуальной близости

19 of 20

Выводы из работы

  • Признаки активируются по смыслу (язык не влияет)
  • Модель может иметь гораздо больше признаков, которые еще не были обнаружены, и они могут быть выявлены с помощью еще более крупных SAE
  • Наличие признака, связанного с определенной концепцией, тесно связано с частотой упоминания этой концепции в обучающих данных. С увеличением размера модели SAE, порог частоты, необходимый для появления признака, снижается.
  • Авторы предполагают, что если концепция встречается в обучающих данных один раз на миллиард токенов, то для обнаружения уникального признака, представляющего эту концепцию, потребуется модель SAE с примерно миллиардом активных признаков.

20 of 20

тг канал

Мой Telegram-канал: @nadlskom