Репортаж от Wedoany,Ученые из Института AIRI создали нейросетевую модель Genatator, которая способна строить генную карту на основе последовательности ДНК и аннотировать геномы, для которых отсутствуют подробные биологические данные. Получив последовательность ДНК, модель определяет границы генов, распознает типы транскриптов и восстанавливает их структуру, различая гены, экзоны, интроны и другие участки.

Поиск генов в ДНК крайне сложен, поскольку у генов нет универсальных сигналов начала и окончания; их границы зависят от комбинаций коротких мотивов, значение которых определяется контекстом. Гены могут перекрываться и располагаться на разных цепях ДНК.
Нейросетевая модель Genatator работает поэтапно. Сначала модель ищет возможные сайты начала и окончания транскрипции на обеих цепях ДНК, затем другая модель проверяет, похож ли данный участок на ген. После того как классификатор определяет тип транскрипта, сегментационная модель уточняет структуру гена и выявляет экзоны и интроны. На заключительном этапе алгоритм удаляет сомнительные предсказания и формирует окончательную аннотацию.
Отличие этого метода от традиционных инструментов заключается в том, что модель не полагается исключительно на заранее заданные правила. Традиционные инструменты используют признаки белок-кодирующих генов, такие как старт-кодоны, стоп-кодоны и сигналы сплайсинга, и хуже работают на нетранслируемых областях и длинных некодирующих РНК. Новая модель обучается на больших наборах геномных данных и ищет закономерности непосредственно в ДНК.
Этот подход особенно важен для немодельных организмов. Человек и мышь имеют подробные аннотации благодаря десятилетиям исследований, однако для большинства организмов существуют только неаннотированные сборки геномов. Анализ показал, что из 4582 сборок геномов млекопитающих в базе NCBI лишь 166 имеют аннотации, а геномы без аннотаций трудно использовать в исследованиях.
Система способна распознавать два типа генов: белок-кодирующие гены и гены длинных некодирующих РНК. Для обоих типов система определяет экзоны и интроны, а для белок-кодирующих генов дополнительно аннотирует CDS-области, а также 5'-UTR и 3'-UTR области.
Genatator был обучен на генах человека и 38 видов млекопитающих, включая моржа и слона. Модель также хорошо показала себя на других организмах, не участвовавших в обучении, в том числе на плодовой мушке Drosophila melanogaster, резуховидке Таля Arabidopsis thaliana и пекарских дрожжах Saccharomyces cerevisiae.
Модель также обнаружила некоторые редкие участки, называемые «токсичными экзонами», включение которых может приводить к деградации РНК. Даже в аннотациях высокого качества такие элементы встречаются редко. Разработчики уделили особое внимание точности границ генов, поскольку ошибка даже в один нуклеотид может привести к сдвигу рамки считывания и исказить предсказание белка.
Доктор биологических наук, главный научный сотрудник AIRI и Института цитологии и генетики Сибирского отделения РАН (ИЦиГ СО РАН) Вениамин Фишман отметил, что скорость сборки новых геномов превышает скорость их аннотации, и такие модели могут стать первым шагом анализа, позволяя быстрее получить карту генов-кандидатов для последующей верификации.
Для оценки качества команда создала публичный рейтинг, сравнив модель с другими подходами. По ряду показателей данная модель показала наилучшие результаты. Обучающий набор данных был подготовлен учеными Научно-технологического университета «Сириус» и Института цитологии и генетики Сибирского отделения РАН (ИЦиГ СО РАН).










