Американская платформа данных для ИИ Protege недавно представила исследовательскую инициативу DataLab, направленную на превращение данных для ИИ в более строгую научную дисциплину, чтобы решить растущую проблему узких мест в данных при развитии искусственного интеллекта. По мере того как системы ИИ развиваются в сторону сложных практических приложений, качество, выбор и оценка данных стали ключевыми факторами, сдерживающими прогресс.

DataLab, как специализированное исследовательское подразделение, стремится помочь исследователям решать ключевые вызовы в области науки о данных. Команда состоит из внутренних экспертов и уже получила предварительную поддержку для сотрудничества от нескольких технологических гигантов, включая Amazon, Apple, Alphabet, Microsoft, NVIDIA, Meta и Tesla. Недавний опрос Snowflake показал, что, несмотря на значительную отдачу от проектов генеративного ИИ, проблемы с подготовкой и качеством данных остаются широко распространенным препятствием, что дополнительно подтверждает важность оптимизации уровня данных ИИ.
Генеральный директор Protege Бобби Сэмюэлс отметил: «Мы понимаем три ключевых столпа, движущих ИИ: модели, чипы и данные. Мы уверены, что с помощью правильных наборов данных — третьего, пока недостаточно развитого столпа — можно продвинуть весь фронт вперед». Он подчеркнул, что компания «создала DataLab, чтобы рассматривать данные как инфраструктуру, а не как отходы», выступая за повышение надежности систем путем установления лучших стандартов, воспроизводимости и научных норм.
DataLab сосредоточится на трех ключевых областях: содействие научному сотрудничеству, создание высококачественных наборов данных и продуктов данных, а также лидерство в исследованиях данных для ИИ. Эта работа будет сочетать академические изыскания и коммерческое применение, планируется публикация результатов бенчмаркинга и технических исследований. Соучредитель Protege Энджи Зидан заявил: «Сила DataLab заключается в его способности объединять обычно изолированные точки зрения». Он далее пояснил, что для этого «требуется думать на пределе, то есть взвешивать предельную ценность точки данных для обучения и альтернативные издержки выбора неправильного набора данных», чтобы обеспечить дисциплинированный дизайн наборов данных и глубокое понимание реальной сложности.

По мере того как технологии ИИ проникают в научные и критически важные прикладные области, требования к точности данных значительно возрастают. Исследователи все больше сосредотачиваются на предельной ценности данных, то есть на том, как отдельная точка данных влияет на поведение модели. Protege заявляет, что DataLab будет играть роль на этом уровне, обеспечивая научно обоснованное принятие решений по выбору, структурированию и оценке влияния данных, чтобы гарантировать надежную работу систем ИИ в реальных условиях и обеспечить поддержку для научного развития данных в ИИ.









