2 of 22

10 января

18:50	Антон Желтоухов. Открытие конференции
19:00	Валентин Слепухин. Mentorship: what, why and how?
19:30	Надя Петрова. HR LunaPark. Карьера в сейфти
20:00	Артем Карпов. The Steganographic Potentials of LLMs	Роман Малов. My current understanding of Tiling agents
20:30	Антон Чайников. Правьте смело: Вики-статьи как форма импакта в AI safety	Александра Рыбакова. Опыт курса AI Safety Fundamentals от BlueDot
21:00	Михаил Самин. Ask me anything

3 of 22

11 января. часть 1

16:50	Антон Желтоухов. Открытие второго дня
17:00	Михаил Селезнёв. Опыт MATS и CHAI
17:30	Елена Еричева. Evals at METR. Философия и практика
18:00	Алексей Донцов. Is it possible to transfer alignment using crosscoders?	Денис Моисеенко. Uncertainty Quantification over causal patterns in LLMs
18:30	Настя Иванова. Evaluating feature steering: A case study in mitigating intersectional biases	Ян Лютнев и Цифралкут Даниил. Как влияет ОПУ на предсказания нейросетей
19:00 - 19:30	Перерыв

4 of 22

11 января. часть 2

19:30	Тарас Хахулин. AI video - или мы уже создали бесконечный ютуб? AMA in AI career	Богдан Бойченко. Идея инструмента для скрининга исследовательского поля AI safety: граф цитирований и сентимент анализ.
20:00	Денис Шмурак. Alignment Faking in Large Language Models	Олег Лариков. Построение правильного 65537-угольника, или что находится между governance и technical alignment
20:30	Андрей Крутиков. Ask me anything

5 of 22

Valentin Slepukhin

t.me/ValentinS2023

What is mentorship and why is it beneficial for both mentor and mentee? How to get most of it?��Discussion from my experience of confounding two mentorship programs, see the links below

https://www.scisteps.org/ - Mentorship in academia

https://aisafety.quest/#mentorship - mentorship in AGI Safety

Mentorship: what, why and how?

https://youtu.be/6FC6FaNQ-b0?si=dvgMXP2UiEJ_UFZ7

Пишите по вопросам менторства вообще, и карьеры в академии в частности

Список ссылок

Видео доклада:

6 of 22

t.me/nadyapetrova

HR LunaPark �Карьера в сейфти

Надя Петрова

Расскажу про опыт работы HR агентства LunaPark, как мы ищем сейфти рисечеров в топовые лабы

https://youtu.be/AuMCfoCD9Kg?si=UbomOiFe5iRkKgl7�

Мне можно писать и звать на тусовки, а также я с удовольствием предложу вам выбор отменных калифорнийских вакансий, если вы хороши в IT :)

Блог:

vk.com/petrova

t.me/nadyathinks

Список ссылок

Видео доклада:

7 of 22

Артем Карпов

t.me/vpktra

www.artkpv.net

The goal is to prevent LLMs deception via hidden reasoning in text, we evaluate and induce steganography.

https://llmstego.github.io/

The Steganographic Potentials of Language Models

https://youtu.be/WB8uWosA-qk?si=vO1hSNxDocCtk4iF

Пишите мне, если хотите обсудить идеи по сейфти, обсудить вашу работу

Список ссылок

Видео доклада:

8 of 22

Роман Малов

t.me/newroman1

Расскажу про свой опыт подготовки к проекту Абрама Демски “Understanding Trust” основанному на идее Tiling Agents.

The Tiling Agents problem consists of analysing when one agent (the "predecessor") will choose to deliberately modify another agent (the "successor"). A set of properties "tiles" if those properties, when present in both predecessor and successor, guarantee that any self-modifications will avoid changing those properties.

Understanding Trust

My current understanding of Tiling agents

https://youtu.be/3I6XBxnZ0lE?si=4z_dvNJOwlwok-u_

Пишите мне если хотите обсудить технические вопросы алаймента

Список ссылок

Видео доклада:

9 of 22

Антон Чайников

t.me/mx_xun

Википедию читают все. Много кто изучает вопросы в первую очередь с неё.

Масса статей на вики просто не написана, или написана плохо. Можно взять и сделать лучше: читаемее, доступнее, подробнее.

Это довольно просто! Хотя и требует навыка.

How I got 4.2M YouTube views without making a single video

Правьте смело: Вики-статьи как форма импакта в AI safety

Появится после конференции

Пишите мне если

Список ссылок

Видео доклада:

10 of 22

Александра Рыбакова

t.me/sth_strange

минусы и плюсы курса
что бы я поменяла в своем прохождении
за чем стоит и не стоит идти на курс от BlueDot

https://aisafetyfundamentals.com/

Опыт курса AI Safety Fundamentals от BlueDot

https://youtu.be/uDh5ycqxu1c?si=jxUFJrYAiFlpUP7q

Пишите, если хотите обсудить ai safety, проверить какой-то доклад/текст на понятность, нужна помощь в поиске слабых мест в аргументации или просто хотите поболтать

Список ссылок

Видео доклада:

11 of 22

Михаил Самин

t.me/Misha | t.me/Mihonarium

ms@contact.ms

Отвечу на ваши вопросы о технической проблеме безопасности первого ИИ умнее человека и об AI Governance.

Eliezer Yudkowsky: AGI Ruin: A List of Lethalities

Metaculus: Date Weakly General AI is Publicly Known

BlueDot Impact: AI Safety Fundamentals

Q&A по AI Safety

https://youtu.be/2rWMVozaL8g?si=jOs0-ADE-COY9fLv

Пишите, если можете помочь значительно снизить экзистенциальный риск.

Список ссылок

Видео доклада:

12 of 22

Михаил Селезнев

t.me/exxxplainer

Расскажу про опыт удаленного участия в MATS 2024 и CHAI Internship 2024. Отвечу на вопросы, если они появятся.

www.matsprogram.org

humancompatible.ai

Опыт MATS и CHAI

https://youtu.be/4s5kJGG924g

Пишите мне, если хотите получить фидбек на свои идеи по alignment-у

Список ссылок

Видео доклада:

13 of 22

Елена Еричева

t.me/mrs_wallbreaker

t.me/MrsWallbreaker

С чего начинается практическое исследование в AI Safety?�Почему METR концентрируется на AI capabilities и Responsible Research?

Как METR реализует свое исследование?

t.me/MrsWallbreaker - канал о том, как я перестала бояться и полюбила AGI

Evals at METR

https://youtu.be/59ktvOiC4n0

Пишите мне, чтобы обсудить фундаментальные предпосылки AI Alignment и AI Safety, формулировки и, наконец, технические реализации. Люблю разбирать, как одно перетекает в другое и в каком виде попадает (или не попадает) в конечный продукт модели.

Список ссылок

Видео доклада:

14 of 22

Алексей Донцов

t.me/theremaker

dontsov@airi.net

Sparse crosscoder is a variant of sparse autoencoders that uses activations from one layer to predict activations of the next. A crosscoder reads and writes to multiple layers.

Essentially, it allows models “to communicate” via activations. This might be a useful for alignment (e.g. transfer alignment from one model to another).

Sparse Crosscoders for Cross-Layer Features and Model Diffing

Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training

Is it possible to transfer alignment using crosscoders?

https://youtu.be/AyfNX57Gj3Q

Пишите мне если хотите поговорить про российское oбразование (учился в 4 разных универах, сейчас на пми вшэ, много препаю ML у школьников), мл рисерч в рф.

Список ссылок

Видео доклада:

15 of 22

Денис Моисеенко

t.me/culpritgene

Хотите оставить ссылки на источники, страницу или код проекта или ваши соцсети? Сделайте это здесь

Uncertainty Quantification over causal patterns in LLMs

Пишите мне если

Список ссылок

Видео доклада:

16 of 22

Настя Иванова

t.me/freiheitttt

Расскажу сложность понятия социального баеса, существующие классические методы дебаесинга LLM и про свои (незаконченные) mechinterp эксперименты по устранению социальных байесов, возникающих при устранении других байсов

Evaluating feature steering: A case study in mitigating social biase s

Evaluating feature steering: A case study in mitigating intersectional biases

https://youtu.be/jcOQJ1bffX4

Пишите мне, если хотите поговорить �про лингвистику, философию языка, политическую философию и их связь с �AI Safety (мб придумаем что-то �прикольное вместе!)

Список ссылок

Видео доклада:

17 of 22

Ян Лютнев,

Цифралкут Даниил

t.me/yanskov

t.me/CyfralCoot

Ошибка проецирования ума пожалуй входит в топ--3 по распространенности когнитивных искажений среди людей. Джейнс считал,что и у его коллег-учёных и у людей в сфере ИИ. Мы с Цифралкутом написали код, который собирается продемонстровать разницу в предсказаниях нейросети, если оператор в процессе создания нейросети контроллировал у себя ОПУ или нет. Где предсказания не сбудутся и что нужно сделать минимально, чтобы они “сбылись”?

Википедия https://en.wikipedia.org/wiki/Mind_projection_fallacy

ЛВ https://lesswrong.ru/book/export/html/194

Частично переведённая статья Джейнса про ОПУ

https://t.me/yanlyutnev/1790

Паблик Яна https://t.me/yanlyutnev

Паблик Цифралкута https://t.me/core_log

Как влияет ОПУ на предсказания нейросетей

https://youtu.be/riwrYc7DkDY

Пишите Яну, если хотите помочь ему с ютубом/монтажом, или откорректировать его модели, или создать семью, или дать денег. Пишите Цифралкуту, если…

Список ссылок

Видео доклада:

18 of 22

Тарас Хахулин

t.me/vitaminotar

https://khakhulin.github.io/

Рассмотрим текущий статус моделей позволяющих генерировать видео неотличимые от реалистичных. Обсудим текущие консерны вокруг них и будущее таковых моделей. Кроме того проведем сессию вопросов-ответов про генеративные медиа и карьеру в AI.

AI video - или мы уже создали бесконечный ютуб? AMA in AI career

https://youtu.be/dYor1bAfgoU

Если вы хотите узнать как делается научная работа и заинтересованы м менторинге на эту тему. �Обращайтесь по любым генеративным медиа вопросам, с отличительным фокусом на видео.

Список ссылок

Видео доклада:

19 of 22

Богдан Бойченко

Контакты

https://t.me/BoychenkoBogdan

Рассказываю об идее инструмента для ресечеров, который позволит визуализировать научные работы в области safety в виде графов. Вершинами будут тексты, а ребрами - цитирования между ними. Для повышения информативности ребер планируется интегрировать сентимент анализ, чтобы показывать не только связи, но и их качество: согласие, оспаривание, поддержка и т.д. Это может помочь ресерчерам лучше понимать динамику и структуру поля safety, а также выявлять новые тезисы и направления исследований.

Идея проекта “на салфетке”: https://docs.google.com/document/d/13_qX9CPgHP8qlC3a-0Pvxc_w2VvL6CllOArQ2c3pIMk/edit?usp=sharing

Идея инструмента для скрининга исследовательского поля AI safety: граф цитирований и сентимент анализ.

https://youtu.be/JrXpl67ihck

Пишите мне, если являетесь ресечером в области ai safety и хотите поделиться опытом или практиками исследований; хотите помочь с технической реализацией проекта; у вас есть идеи как сделать инструмент круче или мысли почему инструмент бесполезен, почему его технически трудно реализовать и т.п. Пишите, если есть что спросить, сказать, предложить, попросить)

Список ссылок

Видео доклада:

20 of 22

t.me/ShmurakDeni s

Денис Шмурак

What happens when you tell Claude it is being trained to do something it doesn't want to do?

Anthropic and Redwood Research have a new paper demonstrating that Claude will often strategically pretend to comply with the training objective to prevent the training process from modifying its preferences.

Разберемся в статье вместе и обсудим, как мы докатились до жизни такой)

Alignment faking in large language models

Alignment Faking in Large Language Models

Пишите мне, если тоже хотите заниматься AI Safety/разбираться, как выглядит ситуация, cooperation is optimal

Список ссылок

Видео доклада:

21 of 22

Олег Лариков

t.me/absurdated

Текущие обсуждения в безопасности ИИ довольно много обсуждают распределение усилий между выработкой норм сообразно нашим представлениям об ИИ (governance) и улучшением этих представлений (technical/research). Однако даже будь у нас теоретическое решение и готовность общества его реализовать, есть ещё один класс причин “почему с первой попытки всё пошло как-то не так”.

Построение правильного 65537-угольника

https://youtu.be/BPar1e5OeJk

Пишите мне если вам хочется что-то спросить и почему-то неудобно спрашивать в общих чатах

или о задачах, которые не governance и не technical, а решать их всё равно надо

Список ссылок

Видео доклада:

22 of 22

Андрей Крутиков

t.me/AndreiKei

andrei@noeon.ai

Поделюсь опытом ведения AGI лаборатории

Из продвинутого:

https://openaccess.thecvf.com/content_CVPR_2020/papers/Kim_Hypergraph_Attention_Networks_for_Multimodal_Learning_CVPR_2020_paper.pdf
https://arxiv.org/abs/2106.08166
https://en.wikipedia.org/wiki/Tsetlin_machine

Ask me anything

https://youtu.be/AYRUHvllbLo

Писать можно всем, кто заинтересован в неконвенциональных подходах к сильному ИИ, и готов что-то предложить или хочет что-то обсудить на глубоком уровне.

Список ссылок

Видео доклада: