10 – 11 января
Первые шаги в AI Safety
онлайн
Конференция проектов и идей
10 января
18:50 | Антон Желтоухов. Открытие конференции | |
19:00 | Валентин Слепухин. Mentorship: what, why and how? | |
19:30 | Надя Петрова. HR LunaPark. Карьера в сейфти | |
20:00 | Артем Карпов. The Steganographic Potentials of LLMs | Роман Малов. My current understanding of Tiling agents |
20:30 | Антон Чайников. Правьте смело: Вики-статьи как форма импакта в AI safety | Александра Рыбакова. Опыт курса AI Safety Fundamentals от BlueDot |
21:00 | Михаил Самин. Ask me anything |
11 января. часть 1
16:50 | Антон Желтоухов. Открытие второго дня | |
17:00 | Михаил Селезнёв. Опыт MATS и CHAI | |
17:30 | Елена Еричева. Evals at METR. Философия и практика | |
18:00 | Алексей Донцов. Is it possible to transfer alignment using crosscoders? | Денис Моисеенко. Uncertainty Quantification over causal patterns in LLMs |
18:30 | Настя Иванова. Evaluating feature steering: A case study in mitigating intersectional biases | Ян Лютнев и Цифралкут Даниил. Как влияет ОПУ на предсказания нейросетей |
19:00 - 19:30 | Перерыв |
11 января. часть 2
19:30 | Тарас Хахулин. AI video - или мы уже создали бесконечный ютуб? AMA in AI career | Богдан Бойченко. Идея инструмента для скрининга исследовательского поля AI safety: граф цитирований и сентимент анализ. |
20:00 | Денис Шмурак. Alignment Faking in Large Language Models | Олег Лариков. Построение правильного 65537-угольника, или что находится между governance и technical alignment |
20:30 | Андрей Крутиков. Ask me anything |
Valentin Slepukhin
What is mentorship and why is it beneficial for both mentor and mentee? How to get most of it?��Discussion from my experience of confounding two mentorship programs, see the links below
https://www.scisteps.org/ - Mentorship in academia
https://aisafety.quest/#mentorship - mentorship in AGI Safety
Mentorship: what, why and how?
Пишите по вопросам менторства вообще, и карьеры в академии в частности
Список ссылок
Видео доклада:
HR LunaPark �Карьера в сейфти
Надя Петрова
Расскажу про опыт работы HR агентства LunaPark, как мы ищем сейфти рисечеров в топовые лабы
Мне можно писать и звать на тусовки, а также я с удовольствием предложу вам выбор отменных калифорнийских вакансий, если вы хороши в IT :)
Список ссылок
Видео доклада:
Артем Карпов
The goal is to prevent LLMs deception via hidden reasoning in text, we evaluate and induce steganography.
https://llmstego.github.io/
The Steganographic Potentials of Language Models
Пишите мне, если хотите обсудить идеи по сейфти, обсудить вашу работу
Список ссылок
Видео доклада:
Роман Малов
Расскажу про свой опыт подготовки к проекту Абрама Демски “Understanding Trust” основанному на идее Tiling Agents.
The Tiling Agents problem consists of analysing when one agent (the "predecessor") will choose to deliberately modify another agent (the "successor"). A set of properties "tiles" if those properties, when present in both predecessor and successor, guarantee that any self-modifications will avoid changing those properties.
My current understanding of Tiling agents
Пишите мне если хотите обсудить технические вопросы алаймента
Список ссылок
Видео доклада:
Антон Чайников
Википедию читают все. Много кто изучает вопросы в первую очередь с неё.
Масса статей на вики просто не написана, или написана плохо. Можно взять и сделать лучше: читаемее, доступнее, подробнее.
Это довольно просто! Хотя и требует навыка.
Правьте смело: Вики-статьи как форма импакта в AI safety
Появится после конференции
Пишите мне если
Список ссылок
Видео доклада:
Александра Рыбакова
Опыт курса AI Safety Fundamentals от BlueDot
Пишите, если хотите обсудить ai safety, проверить какой-то доклад/текст на понятность, нужна помощь в поиске слабых мест в аргументации или просто хотите поболтать
Список ссылок
Видео доклада:
Михаил Самин
ms@contact.ms
Отвечу на ваши вопросы о технической проблеме безопасности первого ИИ умнее человека и об AI Governance.
Eliezer Yudkowsky: AGI Ruin: A List of Lethalities
Q&A по AI Safety
Пишите, если можете помочь значительно снизить экзистенциальный риск.
Список ссылок
Видео доклада:
Михаил Селезнев
Расскажу про опыт удаленного участия в MATS 2024 и CHAI Internship 2024. Отвечу на вопросы, если они появятся.
humancompatible.ai
Опыт MATS и CHAI
Пишите мне, если хотите получить фидбек на свои идеи по alignment-у
Список ссылок
Видео доклада:
Елена Еричева
С чего начинается практическое исследование в AI Safety?�Почему METR концентрируется на AI capabilities и Responsible Research?
Как METR реализует свое исследование?
t.me/MrsWallbreaker - канал о том, как я перестала бояться и полюбила AGI
Evals at METR
Пишите мне, чтобы обсудить фундаментальные предпосылки AI Alignment и AI Safety, формулировки и, наконец, технические реализации. Люблю разбирать, как одно перетекает в другое и в каком виде попадает (или не попадает) в конечный продукт модели.
Список ссылок
Видео доклада:
Алексей Донцов
dontsov@airi.net
Sparse crosscoder is a variant of sparse autoencoders that uses activations from one layer to predict activations of the next. A crosscoder reads and writes to multiple layers.
Essentially, it allows models “to communicate” via activations. This might be a useful for alignment (e.g. transfer alignment from one model to another).
Sparse Crosscoders for Cross-Layer Features and Model Diffing
Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training
Is it possible to transfer alignment using crosscoders?
Пишите мне если хотите поговорить про российское oбразование (учился в 4 разных универах, сейчас на пми вшэ, много препаю ML у школьников), мл рисерч в рф.
Список ссылок
Видео доклада:
Денис Моисеенко
Хотите оставить ссылки на источники, страницу или код проекта или ваши соцсети? Сделайте это здесь
Uncertainty Quantification over causal patterns in LLMs
Пишите мне если
Список ссылок
Видео доклада:
Настя Иванова
Расскажу сложность понятия социального баеса, существующие классические методы дебаесинга LLM и про свои (незаконченные) mechinterp эксперименты по устранению социальных байесов, возникающих при устранении других байсов
Evaluating feature steering: A case study in mitigating intersectional biases
Пишите мне, если хотите поговорить �про лингвистику, философию языка, политическую философию и их связь с �AI Safety (мб придумаем что-то �прикольное вместе!)
Список ссылок
Видео доклада:
Ян Лютнев,
Цифралкут Даниил
Ошибка проецирования ума пожалуй входит в топ--3 по распространенности когнитивных искажений среди людей. Джейнс считал,что и у его коллег-учёных и у людей в сфере ИИ. Мы с Цифралкутом написали код, который собирается продемонстровать разницу в предсказаниях нейросети, если оператор в процессе создания нейросети контроллировал у себя ОПУ или нет. Где предсказания не сбудутся и что нужно сделать минимально, чтобы они “сбылись”?
Википедия https://en.wikipedia.org/wiki/Mind_projection_fallacy
ЛВ https://lesswrong.ru/book/export/html/194
Частично переведённая статья Джейнса про ОПУ
Паблик Яна https://t.me/yanlyutnev
Паблик Цифралкута https://t.me/core_log
Как влияет ОПУ на предсказания нейросетей
Пишите Яну, если хотите помочь ему с ютубом/монтажом, или откорректировать его модели, или создать семью, или дать денег. Пишите Цифралкуту, если…
Список ссылок
Видео доклада:
Тарас Хахулин
Рассмотрим текущий статус моделей позволяющих генерировать видео неотличимые от реалистичных. Обсудим текущие консерны вокруг них и будущее таковых моделей. Кроме того проведем сессию вопросов-ответов про генеративные медиа и карьеру в AI.
AI video - или мы уже создали бесконечный ютуб? AMA in AI career
Если вы хотите узнать как делается научная работа и заинтересованы м менторинге на эту тему. �Обращайтесь по любым генеративным медиа вопросам, с отличительным фокусом на видео.
Список ссылок
Видео доклада:
Богдан Бойченко
Контакты
Рассказываю об идее инструмента для ресечеров, который позволит визуализировать научные работы в области safety в виде графов. Вершинами будут тексты, а ребрами - цитирования между ними. Для повышения информативности ребер планируется интегрировать сентимент анализ, чтобы показывать не только связи, но и их качество: согласие, оспаривание, поддержка и т.д. Это может помочь ресерчерам лучше понимать динамику и структуру поля safety, а также выявлять новые тезисы и направления исследований.
Идея проекта “на салфетке”: https://docs.google.com/document/d/13_qX9CPgHP8qlC3a-0Pvxc_w2VvL6CllOArQ2c3pIMk/edit?usp=sharing
Идея инструмента для скрининга исследовательского поля AI safety: граф цитирований и сентимент анализ.
Пишите мне, если являетесь ресечером в области ai safety и хотите поделиться опытом или практиками исследований; хотите помочь с технической реализацией проекта; у вас есть идеи как сделать инструмент круче или мысли почему инструмент бесполезен, почему его технически трудно реализовать и т.п. Пишите, если есть что спросить, сказать, предложить, попросить)
Список ссылок
Видео доклада:
Денис Шмурак
What happens when you tell Claude it is being trained to do something it doesn't want to do?
Anthropic and Redwood Research have a new paper demonstrating that Claude will often strategically pretend to comply with the training objective to prevent the training process from modifying its preferences.
Разберемся в статье вместе и обсудим, как мы докатились до жизни такой)
Alignment Faking in Large Language Models
Пишите мне, если тоже хотите заниматься AI Safety/разбираться, как выглядит ситуация, cooperation is optimal
Список ссылок
Видео доклада:
Олег Лариков
Текущие обсуждения в безопасности ИИ довольно много обсуждают распределение усилий между выработкой норм сообразно нашим представлениям об ИИ (governance) и улучшением этих представлений (technical/research). Однако даже будь у нас теоретическое решение и готовность общества его реализовать, есть ещё один класс причин “почему с первой попытки всё пошло как-то не так”.
Построение правильного 65537-угольника
Пишите мне если вам хочется что-то спросить и почему-то неудобно спрашивать в общих чатах
или о задачах, которые не governance и не technical, а решать их всё равно надо
Список ссылок
Видео доклада:
Андрей Крутиков
Поделюсь опытом ведения AGI лаборатории
Из продвинутого:
Ask me anything
Писать можно всем, кто заинтересован в неконвенциональных подходах к сильному ИИ, и готов что-то предложить или хочет что-то обсудить на глубоком уровне.
Список ссылок
Видео доклада: