Алгоритмы в биоинформатике�(и не только)
Краткий обзор
Молекулярная биология
Основной интерес для молекулярной биологии представляют:
Структура ДНК
ДНК человека:
Центральная догма м.б.
Репликация и транскрипция
Трансляция
“Омы” и “омики”
Геномика
Транскриптомика
Микробиомика
Протеомика
Эпигеномика
Собственно, о биоинформатике
Методы исследования нуклеиновых кислот и белков:
Другие области:
Методы секвенирования
Методы сборки генома
Средние риды, мало ошибок:
Небольшие риды:
Большие риды с 10% ошибок:
Overlap consensus graph
De Bruijn graph
Третье поколение секвенирования
Обратно к графу перекрытий
Как искать перекрытия?
Задача о выравнивании
Динамическое программирование
Суффиксные структуры
seed-and-extend
Выравнивание через ДП
BLASR-выравнивание
Идея:
BLASR: нахождение seeds
MHAP - MinHash Approach
В частности, для оценки схожести последовательностей можно использовать индекс сходства Жаккара (Jaccard):
MHAP позволяет быстро считать J с помощью приближения
MHAP: оценки
В мире протеомики
Масс-спектрометрия
- по сути, “взвешивание” множества молекул в пробе одновременно
Масс-спектрометрия
Orbitrap и Фурье
Преобразование Фурье вещественнозначной функции определяется следующим образом и соответствует разложению функции в гармонические колебания разных частот:
За этим стоит сложная математика, но алгоритм, совершающий это преобразование и обратное ему, лежит в основе работы Orbitrap.
Идентификация белков
Для обработки белка его чаще всего бьют на подчасти-пептиды (Bottom-Up/Shotgun) вместо анализа целого белка (Top-Down)
После фильтрации пробы специальная протеаза режет выбранный пептид на все возможные префиксы и суффиксы.
Повторный анализ позволяет восстановить исходную последовательность аминокислот
Spectrum graph
Исходная задача - нахождение равных прямого и обратного пути
Модификации (из-за неточности измерений):
Глобально - еще нет оптимального алгоритма!
Еще немного протеомики с MS
Rosetta@home и FoldIt
MCMC
Markov chain Monte Carlo
Марковские цепи:
Теорема Перрона-Фробениуса:
Метод Монте-Карло:
Metropolis-Hastings algorithm
Стационарное распределение pi
Функция перехода Q
MCMC в биологии
Задача: построение филогенетического дерева по набору геномов
Формула Байеса:
Формула перехода:
Переходы для дерева
TBR
tree bisection and reconnection
NNI
nearest neighbour interchange
SPR
subtree pruning and regraphing
Последние детали...
Biomolecula.ru
Эволюция доверия