Репортаж от Wedoany,Группа исследователей разработала фреймворк для обучения квантовых нейронных сетей, который снижает стоимость вычисления градиентов в процессе обучения — одного из давних основных препятствий в области квантового машинного обучения.
Согласно исследованию, опубликованному на сервере препринтов arXiv, этот метод сокращает количество оценок схем, необходимых на каждом этапе оптимизации, с квадратичного роста относительно числа кубитов до логарифмического. Исследователи отмечают, что это усовершенствование позволяет проводить обучение на основе градиента непосредственно на ионном квантовом компьютере IonQ Forte Enterprise и дает возможность применить этот метод к клинически значимой задаче вменения данных.
По словам команды, эта работа решает давнюю проблему в квантовом машинном обучении. В состав команды входят ученые из IonQ, Университета Париж-Сите (Université Paris Cité), Национального центра научных исследований Франции (CNRS), QC Ware и Quantum Signals. Квантовые нейронные сети (КНС) — это квантовые схемы с настраиваемыми параметрами, которые обучаются аналогично классическим нейронным сетям. Теоретически они могут обеспечить преимущества в некоторых задачах обучения, однако их обучение на реальном квантовом оборудовании оказалось сложным, поскольку вычисление градиентов обычно требует многократного запуска большого количества квантовых схем. Исследователи сообщают, что эти накладные расходы являются одной из главных причин, по которой многие демонстрации квантового машинного обучения до сих пор ограничиваются симуляциями или экспериментами на оборудовании очень малого масштаба.
Фреймворк объединяет три совместно разработанных компонента, включая специализированную архитектуру схем, стратегию послойного обучения и технику параллельного вычисления градиентов.
Традиционный метод сдвига параметров, широко используемый для обучения квантовых схем, требует отдельных оценок схем для каждого параметра. По мере увеличения размера модели количество необходимых оценок быстро растет. Новый фреймворк позволяет избежать этого узкого места с помощью трех проектных решений. Первое — это архитектура схемы, названная бабочковой сетью (Butterfly network), вдохновленная структурой быстрого преобразования Фурье. Эта архитектура располагает квантовые операции по определенному шаблону, позволяя информации распространяться по всей системе, сохраняя при этом схему относительно неглубокой. Согласно исследованию, такая конструкция значительно сокращает количество необходимых обучаемых параметров по мере увеличения размера системы. Второе — это стратегия послойного обучения, при которой вместо одновременного обучения всех параметров квантовой нейронной сети сначала обучаются меньшие блоки схем, а затем постепенно добавляются новые слои, при этом ранее обученные слои замораживаются при оптимизации нового слоя. Третье — это параллельная версия метода сдвига параметров. Поскольку вентили внутри каждого слоя бабочки действуют на разные пары кубитов и коммутируют друг с другом, исследователи могут использовать постоянное количество выполнений схемы для вычисления градиента всего слоя, вместо оценки каждого параметра по отдельности. В совокупности эти методы значительно сокращают количество оценок квантовых схем, необходимых в процессе обучения. Исследователи приводят пример, демонстрирующий преимущество масштабирования: применение традиционного метода сдвига параметров к бабочковой схеме на 128 кубитах потребовало бы 1792 оценок схемы для вычисления градиента, в то время как их метод требует всего 28.
Для оценки фреймворка исследователи выбрали клиническое вменение данных — задачу, выходящую за рамки традиционных квантовых вычислительных бенчмарков. Вменение данных включает заполнение пропущенных записей в наборах данных. В медицинских записях пропущенная информация часто встречается из-за несоответствия графиков измерений, неисправности датчиков или неполного сбора данных. Точное вменение может существенно повлиять на последующие прогностические модели, используемые в медицинском анализе. Команда использовала набор данных MIMIC-III, широко изучаемую коллекцию деидентифицированных записей отделений интенсивной терапии. Они ввели пропущенные значения в набор данных, а затем сравнили различные методы восстановления недостающей информации. В качестве базовых методов использовались распространенные статистические техники, такие как вменение средним и заполнение нулями, а также более сложные методы, такие как вменение методом k-ближайших соседей, множественное вменение с помощью цепных уравнений (MICE), MissForest и модель Deep MICE на основе нейронных сетей. Исследователи косвенно оценили качество вменения, прогнозируя выживаемость пациентов, и измерили его с помощью площади под кривой рабочей характеристики приемника (AUC). Среди классических методов Deep MICE показал наилучшую среднюю производительность с AUC 0,7176. Гибридная квантово-классическая модель, обученная на 16 кубитах, достигла AUC 0,7147, а гибридная модель на 32 кубитах — AUC 0,7132, что отличается от ведущего классического результата менее чем на несколько тысячных долей. Хотя квантовые модели не превзошли лучший классический базовый уровень, их диапазон производительности был узким, а вариабельность между несколькими запусками — низкой. Исследователи предполагают, что такая стабильность может указывать на полезное индуктивное смещение, обусловленное структурированной бабочковой архитектурой и протоколом обучения.
Это исследование представляет собой важную демонстрацию прямого обучения на коммерческом квантовом компьютере. Исследователи обучили последний слой 16-кубитной бабочковой квантовой нейронной сети на ионной системе IonQ Forte Enterprise. Ранние этапы модели обучались в симуляции, а затем были интегрированы в сеть, обученную на оборудовании. Они сравнили три сценария: идеальную симуляцию, симуляцию с шумом и прямое выполнение на оборудовании. Согласно результатам, различия в производительности между тремя методами обучения не были статистически значимыми. Модель, обученная на оборудовании, показала результаты, сопоставимые с симуляционными моделями, сохраняя при этом аналогичную прогностическую производительность. Исследователи сообщают, что это доказывает достаточную устойчивость фреймворка с логарифмическим масштабированием для работы при текущем уровне шума оборудования. Этот вывод важен, поскольку многие предыдущие демонстрации квантового машинного обучения в значительной степени полагались на симуляцию, а не на реальные квантовые процессоры; шум оборудования и длительное время обучения часто делали прямую оптимизацию непрактичной. Используемая IonQ ионная архитектура, возможно, способствовала этому, поскольку система обеспечивает полносвязное соединение кубитов, что позволяет реализовать бабочковые схемы без значительных накладных расходов на компиляцию.
Исследование также затронуло более крупные масштабы системы. Поскольку прямое обучение на 32 кубитах все еще требует больших вычислительных затрат, исследователи использовали тензорно-сетевую симуляцию с матричным произведением состояний для обучения более крупных квантовых слоев, в то время как логический вывод выполнялся на оборудовании IonQ. Производительность полученной 32-кубитной гибридной модели была сопоставима с производительностью классической нейронной сети с эквивалентной шириной скрытого слоя. Исследователи интерпретируют это как свидетельство того, что более крупные квантовые схемы, созданные с помощью послойного фреймворка, по-прежнему совместимы с реальным оборудованием и могут работать без измеримой деградации.
Эта работа имеет несколько важных ограничений. Исследование было сосредоточено на контролируемой задаче вменения данных для проверки концепции, а не на производственном медицинском рабочем процессе. Только один столбец признаков был вменен с использованием квантовой модели, остальные пропущенные значения обрабатывались классическими методами. Шаблон пропущенных данных также был сгенерирован с использованием модели полностью случайного пропуска, в то время как реальные клинические данные часто демонстрируют более сложные шаблоны пропуска. Наконец, гибридная модель сравнялась с лучшим классическим базовым уровнем, но не превзошла его; результаты демонстрируют осуществимость и конкурентоспособность, а не явное квантовое преимущество. Исследователи также отмечают, что для проявления потенциальных преимуществ в производительности могут потребоваться более крупные системы. Основываясь на сравнении с архитектурами классических нейронных сетей, они оценивают, что для соответствия репрезентативной способности самой сильной классической модели, использованной в исследовании, потребуется около 128 кубитов. Тем не менее, исследователи полагают, что значение этого фреймворка заключается не в текущих показателях производительности, а в реализации масштабируемого обучения на оборудовании.
В исследовательскую группу входят Натанш Матур из Объединенной исследовательской лаборатории Национального центра научных исследований Франции (CNRS) и Университета Париж-Сите (Université Paris Cité) — Института фундаментальной информатики (IRIF), а также из QC Ware (Франция). Соавторы Панайотис Кл. Баркуцос, Масако Ямада и Мартин Рёттелер являются сотрудниками IonQ. В исследовании также участвовал Иорданис Керенидис, аффилированный с IRIF, CNRS, Университетом Париж-Сите и Quantum Signals.
Данный материал скомпилирован платформой Wedoany. При цитировании материалов, созданных с помощью искусственного интеллекта (ИИ), необходимо обязательно указывать источник — «Wedoany». В случае выявления нарушения прав или иных проблем просим своевременно информировать нас. Сайт оперативно внесёт изменения или удалит материал.Электронная почта: news@wedoany.com









