В AIRI разработали нейросеть Genatator для аннотации генов
2026-07-05 16:23
В избр.

Репортаж от Wedoany,Ученые из Института AIRI создали нейросетевую модель Genatator, которая способна строить генную карту на основе последовательности ДНК и аннотировать геномы, для которых отсутствуют подробные биологические данные. Получив последовательность ДНК, модель определяет границы генов, распознает типы транскриптов и восстанавливает их структуру, различая гены, экзоны, интроны и другие участки.

Поиск генов в ДНК крайне сложен, поскольку у генов нет универсальных сигналов начала и окончания; их границы зависят от комбинаций коротких мотивов, значение которых определяется контекстом. Гены могут перекрываться и располагаться на разных цепях ДНК.

Нейросетевая модель Genatator работает поэтапно. Сначала модель ищет возможные сайты начала и окончания транскрипции на обеих цепях ДНК, затем другая модель проверяет, похож ли данный участок на ген. После того как классификатор определяет тип транскрипта, сегментационная модель уточняет структуру гена и выявляет экзоны и интроны. На заключительном этапе алгоритм удаляет сомнительные предсказания и формирует окончательную аннотацию.

Отличие этого метода от традиционных инструментов заключается в том, что модель не полагается исключительно на заранее заданные правила. Традиционные инструменты используют признаки белок-кодирующих генов, такие как старт-кодоны, стоп-кодоны и сигналы сплайсинга, и хуже работают на нетранслируемых областях и длинных некодирующих РНК. Новая модель обучается на больших наборах геномных данных и ищет закономерности непосредственно в ДНК.

Этот подход особенно важен для немодельных организмов. Человек и мышь имеют подробные аннотации благодаря десятилетиям исследований, однако для большинства организмов существуют только неаннотированные сборки геномов. Анализ показал, что из 4582 сборок геномов млекопитающих в базе NCBI лишь 166 имеют аннотации, а геномы без аннотаций трудно использовать в исследованиях.

Система способна распознавать два типа генов: белок-кодирующие гены и гены длинных некодирующих РНК. Для обоих типов система определяет экзоны и интроны, а для белок-кодирующих генов дополнительно аннотирует CDS-области, а также 5'-UTR и 3'-UTR области.

Genatator был обучен на генах человека и 38 видов млекопитающих, включая моржа и слона. Модель также хорошо показала себя на других организмах, не участвовавших в обучении, в том числе на плодовой мушке Drosophila melanogaster, резуховидке Таля Arabidopsis thaliana и пекарских дрожжах Saccharomyces cerevisiae.

Модель также обнаружила некоторые редкие участки, называемые «токсичными экзонами», включение которых может приводить к деградации РНК. Даже в аннотациях высокого качества такие элементы встречаются редко. Разработчики уделили особое внимание точности границ генов, поскольку ошибка даже в один нуклеотид может привести к сдвигу рамки считывания и исказить предсказание белка.

Доктор биологических наук, главный научный сотрудник AIRI и Института цитологии и генетики Сибирского отделения РАН (ИЦиГ СО РАН) Вениамин Фишман отметил, что скорость сборки новых геномов превышает скорость их аннотации, и такие модели могут стать первым шагом анализа, позволяя быстрее получить карту генов-кандидатов для последующей верификации.

Для оценки качества команда создала публичный рейтинг, сравнив модель с другими подходами. По ряду показателей данная модель показала наилучшие результаты. Обучающий набор данных был подготовлен учеными Научно-технологического университета «Сириус» и Института цитологии и генетики Сибирского отделения РАН (ИЦиГ СО РАН).

Эта новость является результатом компиляции и перепечатки информации из глобального Интернета и стратегических партнеров. Она предназначена только для читателей. Если у вас возникнут какие-либо нарушения или другие проблемы, пожалуйста, своевременно сообщите нам. Этот сайт изменить или удалить ее. Перепечатка этой статьи без официального разрешения строго запрещена.электронная почта:news@wedoany.com
Связанные продукты
Связанные рекомендации
Salam открывает второй центр исследований и технологических инноваций в Эль-Хасе, Саудовская Аравия
2026-07-05
Samsung Galaxy S27 Ultra от Южной Кореи может получить аккумулятор на 5600–5800 мАч
2026-07-05
Starlink ускоряет цифровую трансформацию сельского хозяйства Бразилии
2026-07-05
Малайзийская группа Kuok планирует инвестировать 5,3 млрд евро в строительство центра обработки данных мощностью 300 МВт в Милане, Италия
2026-07-05
Доля доходов Airtel в Индии составляет 36%: компания расширяет 5G и углубляет финансовые услуги
2026-07-05
Израильская компания по кибербезопасности Dream привлекла $260 млн и планирует выход на рынок Латинской Америки
2026-07-05
Индийская Bharti Airtel расширяет покрытие сети на пути паломничества Амарнатх
2026-07-05
Авиакомпания United Airlines впервые развернула облачную развлекательную систему на борту Boeing 787-9
2026-07-05
Vodafone Ireland завершила первую в Европе демонстрацию экстренной связи с прямым подключением устройств к спутнику
2026-07-05
Третий OSAT-завод в Индии запущен в производство, CG Semiconductor — 300 миллионов чипов в год
2026-07-05
Последние новости
1
В Китае введена в промышленную эксплуатацию первая полностью отечественная тяжелая электрическая сервоприводная вытяжная подушка
2
Dongfang International подписал контракт на первый крупный проект по хранению энергии в столице Узбекистана мощностью 150 МВт/300 МВт·ч
3
АБР одобрил 63,44 млн долларов на проект аккумуляторного хранения энергии в Камбодже
4
Геотермальный проект в Гермеринге-Пуххайме (Германия) получил федеральное финансирование
5
Австралийская компания Allume представляет SolShare 2: мощность солнечных батарей увеличена на 50%
6
Enverus приобретает четыре платформы PDS, расширяя сеть данных по upstream в США
7
Stampede Drilling получила предварительное финансирование, мобилизация буровой установки в Гренландию начнется в третьем квартале 2026 года
8
Adnoc из ОАЭ планирует купить заправочные станции Shell в ЮАР за $1 млрд
9
ОАЭ снижают цены на топливо в июле, падение до 17%
10
PTT из Таиланда планирует войти в американский СПГ-проект для обеспечения долгосрочных поставок