Исследовательская группа под руководством профессора Ян Цзяня из Школы наук о жизни Университета Сиху разработала метод сборки генома, основанный на пангеноме. Этот метод, сочетающий экономичную стратегию гибридного секвенирования с длинными и короткими ридами, успешно построил пангеном, включающий более 1000 индивидов, преодолев ограничения предыдущих пангеномов с малым размером выборки, и предоставил ключевую инфраструктуру для медицинских и популяционно-генетических исследований. Результаты исследования были опубликованы в журнале Nature.

После завершения проекта «Геном человека» единый линейный референсный геном стал основой биомедицинских исследований, однако он не может полностью отражать генетическое разнообразие среди популяций, что приводит к тому, что традиционный анализ часто игнорирует сложные генетические вариации, такие как структурные варианты и тандемные повторы. Для решения этой проблемы исследователи предложили концепцию пангенома — набора геномных последовательностей, представляющих генетическое разнообразие популяции. Несмотря на прогресс в технологиях секвенирования длинными ридами, высокая стоимость ранее ограничивала размер выборки для пангеномов несколькими десятками индивидов, что затрудняло точную оценку частоты вариантов или анализ низкочастотных вариаций и областей высокой сложности. Разработка экономичной и эффективной стратегии построения пангенома для крупномасштабных популяций стала насущной необходимостью.
Команда Ян Цзяня уже давно занимается методологическими исследованиями в области статистической генетики, геномики и анализа больших данных сложных признаков человека, разрабатывая эффективные вычислительные методы для решения проблем обработки крупномасштабных геномных данных. Их инструменты анализа, такие как GCTA-GREML, SMR и gsMap, широко используются по всему миру. Для решения задачи построения крупномасштабного пангенома команда разработала рабочий процесс сборки генома, направляемый пангеномом. Используя структуру, направляемую пангеномом, для интеграции информации о последовательностях всей когорты, а также стратегию гибридного секвенирования, основанную на данных полногеномного секвенирования Illumina с короткими ридами и PacBio с длинными ридами умеренного покрытия, удалось значительно снизить стоимость секвенирования. При этом сборка геномов из данных умеренного покрытия предоставляет новый практический технологический подход для будущих популяционных исследований с гибридным секвенированием.
Применив этот метод, исследовательская группа построила на данный момент крупнейший в мире человеческий пангеном, содержащий 1116 диплоидных геномов со средним значением качества 46. Было идентифицировано 405,3 млн пар оснований нереференсных последовательностей, из которых 26,2 млн пар оснований были аннотированы как функциональные гены и предсказанные регуляторные элементы, что расширило понимание нереференсных последовательностей человеческого генома. Используя крупномасштабный набор данных сборки, исследователи составили всеобъемлющий каталог генетических вариаций, включающий 35,4 млн мелких вариантов, а также 110 530 структурных вариантов, 485 575 тандемных повторов и 860 тыс. вложенных вариантов. Используя этот каталог, команда охарактеризовала медико-релевантные варианты на различных уровнях, такие как структурные варианты, изменяющие гены, и патогенные экспансии тандемных повторов, показав, что каталог предоставляет важный справочный материал для клинического скрининга патогенных мутаций. Интегрировав данные о экспрессии генов, команда идентифицировала 3256 локусов количественных признаков экспрессии, связанных со сложными вариантами, прояснив регуляторную сложность этих вариаций. Это исследование углубляет понимание сложных генетических вариаций и их функционального воздействия, устанавливая новую парадигму для исследований здоровья человека и пангеномных исследований других видов.
Детали публикации: Авторы: Университет Сиху; Название: «Экономичная сборка более 1000 человеческих геномов: новый метод может определить будущее генетического скрининга»; Опубликовано в: «Nature» (2026); Информация о журнале: Nature













