1 of 22

10 – 11 января

Первые шаги в AI Safety

онлайн

Конференция проектов и идей

2 of 22

10 января

18:50

Антон Желтоухов. Открытие конференции

19:00

Валентин Слепухин. Mentorship: what, why and how?

19:30

Надя Петрова. HR LunaPark. Карьера в сейфти

20:00

Артем Карпов. The Steganographic Potentials of LLMs

Роман Малов. My current understanding of Tiling agents

20:30

Антон Чайников. Правьте смело: Вики-статьи как форма импакта в AI safety

Александра Рыбакова. Опыт курса AI Safety Fundamentals от BlueDot

21:00

Михаил Самин. Ask me anything

3 of 22

11 января. часть 1

16:50

Антон Желтоухов. Открытие второго дня

17:00

Михаил Селезнёв. Опыт MATS и CHAI

17:30

Елена Еричева. Evals at METR. Философия и практика

18:00

Алексей Донцов. Is it possible to transfer alignment using crosscoders?

Денис Моисеенко. Uncertainty Quantification over causal patterns in LLMs

18:30

Настя Иванова. Evaluating feature steering: A case study in mitigating intersectional biases

Ян Лютнев и Цифралкут Даниил. Как влияет ОПУ на предсказания нейросетей

19:00

-

19:30

Перерыв

4 of 22

11 января. часть 2

19:30

Тарас Хахулин. AI video - или мы уже создали бесконечный ютуб? AMA in AI career

Богдан Бойченко. Идея инструмента для скрининга исследовательского поля AI safety: граф цитирований и сентимент анализ.

20:00

Денис Шмурак. Alignment Faking in Large Language Models

Олег Лариков. Построение правильного 65537-угольника, или что находится между governance и technical alignment

20:30

Андрей Крутиков. Ask me anything

5 of 22

Valentin Slepukhin

What is mentorship and why is it beneficial for both mentor and mentee? How to get most of it?��Discussion from my experience of confounding two mentorship programs, see the links below

https://www.scisteps.org/ - Mentorship in academia

https://aisafety.quest/#mentorship - mentorship in AGI Safety

Mentorship: what, why and how?

Пишите по вопросам менторства вообще, и карьеры в академии в частности

Список ссылок

Видео доклада:

6 of 22

HR LunaPark �Карьера в сейфти

Надя Петрова

Расскажу про опыт работы HR агентства LunaPark, как мы ищем сейфти рисечеров в топовые лабы

Мне можно писать и звать на тусовки, а также я с удовольствием предложу вам выбор отменных калифорнийских вакансий, если вы хороши в IT :)

Список ссылок

Видео доклада:

7 of 22

Артем Карпов

The goal is to prevent LLMs deception via hidden reasoning in text, we evaluate and induce steganography.

https://llmstego.github.io/

The Steganographic Potentials of Language Models

Пишите мне, если хотите обсудить идеи по сейфти, обсудить вашу работу

Список ссылок

Видео доклада:

8 of 22

Роман Малов

Расскажу про свой опыт подготовки к проекту Абрама Демски “Understanding Trust” основанному на идее Tiling Agents.

The Tiling Agents problem consists of analysing when one agent (the "predecessor") will choose to deliberately modify another agent (the "successor"). A set of properties "tiles" if those properties, when present in both predecessor and successor, guarantee that any self-modifications will avoid changing those properties.

My current understanding of Tiling agents

Пишите мне если хотите обсудить технические вопросы алаймента

Список ссылок

Видео доклада:

9 of 22

Антон Чайников

Википедию читают все. Много кто изучает вопросы в первую очередь с неё.

Масса статей на вики просто не написана, или написана плохо. Можно взять и сделать лучше: читаемее, доступнее, подробнее.

Это довольно просто! Хотя и требует навыка.

Правьте смело: Вики-статьи как форма импакта в AI safety

Появится после конференции

Пишите мне если

Список ссылок

Видео доклада:

10 of 22

Александра Рыбакова

  • минусы и плюсы курса
  • что бы я поменяла в своем прохождении
  • за чем стоит и не стоит идти на курс от BlueDot

Опыт курса AI Safety Fundamentals от BlueDot

Пишите, если хотите обсудить ai safety, проверить какой-то доклад/текст на понятность, нужна помощь в поиске слабых мест в аргументации или просто хотите поболтать

Список ссылок

Видео доклада:

11 of 22

Михаил Самин

t.me/Misha | t.me/Mihonarium

ms@contact.ms

Отвечу на ваши вопросы о технической проблеме безопасности первого ИИ умнее человека и об AI Governance.

Q&A по AI Safety

Пишите, если можете помочь значительно снизить экзистенциальный риск.

Список ссылок

Видео доклада:

12 of 22

Михаил Селезнев

Расскажу про опыт удаленного участия в MATS 2024 и CHAI Internship 2024. Отвечу на вопросы, если они появятся.

www.matsprogram.org

humancompatible.ai

Опыт MATS и CHAI

Пишите мне, если хотите получить фидбек на свои идеи по alignment-у

Список ссылок

Видео доклада:

13 of 22

Елена Еричева

С чего начинается практическое исследование в AI Safety?�Почему METR концентрируется на AI capabilities и Responsible Research?

Как METR реализует свое исследование?

t.me/MrsWallbreaker - канал о том, как я перестала бояться и полюбила AGI

Evals at METR

Пишите мне, чтобы обсудить фундаментальные предпосылки AI Alignment и AI Safety, формулировки и, наконец, технические реализации. Люблю разбирать, как одно перетекает в другое и в каком виде попадает (или не попадает) в конечный продукт модели.

Список ссылок

Видео доклада:

14 of 22

Алексей Донцов

t.me/theremaker

dontsov@airi.net

Sparse crosscoder is a variant of sparse autoencoders that uses activations from one layer to predict activations of the next. A crosscoder reads and writes to multiple layers.

Essentially, it allows models “to communicate” via activations. This might be a useful for alignment (e.g. transfer alignment from one model to another).

Is it possible to transfer alignment using crosscoders?

Пишите мне если хотите поговорить про российское oбразование (учился в 4 разных универах, сейчас на пми вшэ, много препаю ML у школьников), мл рисерч в рф.

Список ссылок

Видео доклада:

15 of 22

Денис Моисеенко

Хотите оставить ссылки на источники, страницу или код проекта или ваши соцсети? Сделайте это здесь

Uncertainty Quantification over causal patterns in LLMs

Пишите мне если

Список ссылок

Видео доклада:

16 of 22

Настя Иванова

Расскажу сложность понятия социального баеса, существующие классические методы дебаесинга LLM и про свои (незаконченные) mechinterp эксперименты по устранению социальных байесов, возникающих при устранении других байсов

Evaluating feature steering: A case study in mitigating intersectional biases

Пишите мне, если хотите поговорить �про лингвистику, философию языка, политическую философию и их связь с �AI Safety (мб придумаем что-то �прикольное вместе!)

Список ссылок

Видео доклада:

17 of 22

Ян Лютнев,

Цифралкут Даниил

Ошибка проецирования ума пожалуй входит в топ--3 по распространенности когнитивных искажений среди людей. Джейнс считал,что и у его коллег-учёных и у людей в сфере ИИ. Мы с Цифралкутом написали код, который собирается продемонстровать разницу в предсказаниях нейросети, если оператор в процессе создания нейросети контроллировал у себя ОПУ или нет. Где предсказания не сбудутся и что нужно сделать минимально, чтобы они “сбылись”?

Википедия https://en.wikipedia.org/wiki/Mind_projection_fallacy

ЛВ https://lesswrong.ru/book/export/html/194

Частично переведённая статья Джейнса про ОПУ

https://t.me/yanlyutnev/1790

Паблик Яна https://t.me/yanlyutnev

Паблик Цифралкута https://t.me/core_log

Как влияет ОПУ на предсказания нейросетей

Пишите Яну, если хотите помочь ему с ютубом/монтажом, или откорректировать его модели, или создать семью, или дать денег. Пишите Цифралкуту, если…

Список ссылок

Видео доклада:

18 of 22

Тарас Хахулин

Рассмотрим текущий статус моделей позволяющих генерировать видео неотличимые от реалистичных. Обсудим текущие консерны вокруг них и будущее таковых моделей. Кроме того проведем сессию вопросов-ответов про генеративные медиа и карьеру в AI.

AI video - или мы уже создали бесконечный ютуб? AMA in AI career

Если вы хотите узнать как делается научная работа и заинтересованы м менторинге на эту тему. �Обращайтесь по любым генеративным медиа вопросам, с отличительным фокусом на видео.

Список ссылок

Видео доклада:

19 of 22

Богдан Бойченко

Рассказываю об идее инструмента для ресечеров, который позволит визуализировать научные работы в области safety в виде графов. Вершинами будут тексты, а ребрами - цитирования между ними. Для повышения информативности ребер планируется интегрировать сентимент анализ, чтобы показывать не только связи, но и их качество: согласие, оспаривание, поддержка и т.д. Это может помочь ресерчерам лучше понимать динамику и структуру поля safety, а также выявлять новые тезисы и направления исследований.

Идея инструмента для скрининга исследовательского поля AI safety: граф цитирований и сентимент анализ.

Пишите мне, если являетесь ресечером в области ai safety и хотите поделиться опытом или практиками исследований; хотите помочь с технической реализацией проекта; у вас есть идеи как сделать инструмент круче или мысли почему инструмент бесполезен, почему его технически трудно реализовать и т.п. Пишите, если есть что спросить, сказать, предложить, попросить)

Список ссылок

Видео доклада:

20 of 22

Денис Шмурак

What happens when you tell Claude it is being trained to do something it doesn't want to do?

Anthropic and Redwood Research have a new paper demonstrating that Claude will often strategically pretend to comply with the training objective to prevent the training process from modifying its preferences.

Разберемся в статье вместе и обсудим, как мы докатились до жизни такой)

Alignment Faking in Large Language Models

Пишите мне, если тоже хотите заниматься AI Safety/разбираться, как выглядит ситуация, cooperation is optimal

Список ссылок

Видео доклада:

21 of 22

Олег Лариков

Текущие обсуждения в безопасности ИИ довольно много обсуждают распределение усилий между выработкой норм сообразно нашим представлениям об ИИ (governance) и улучшением этих представлений (technical/research). Однако даже будь у нас теоретическое решение и готовность общества его реализовать, есть ещё один класс причин “почему с первой попытки всё пошло как-то не так”.

Построение правильного 65537-угольника

Пишите мне если вам хочется что-то спросить и почему-то неудобно спрашивать в общих чатах

или о задачах, которые не governance и не technical, а решать их всё равно надо

Список ссылок

Видео доклада:

22 of 22

Андрей Крутиков

t.me/AndreiKei

andrei@noeon.ai

Поделюсь опытом ведения AGI лаборатории

Из продвинутого:

  • https://openaccess.thecvf.com/content_CVPR_2020/papers/Kim_Hypergraph_Attention_Networks_for_Multimodal_Learning_CVPR_2020_paper.pdf
  • https://arxiv.org/abs/2106.08166
  • https://en.wikipedia.org/wiki/Tsetlin_machine

Ask me anything

Писать можно всем, кто заинтересован в неконвенциональных подходах к сильному ИИ, и готов что-то предложить или хочет что-то обсудить на глубоком уровне.

Список ссылок

Видео доклада: