GitHub (США) опубликовал многоязычный набор данных репозиториев, охватывающий более 40 миллионов проектов_Глобальные новости

GitHub (США) опубликовал многоязычный набор данных репозиториев, охватывающий более 40 миллионов проектов

2026-06-16 09:37

В избр.

Репортаж от Wedoany，GitHub выпустил набор данных многоязычных репозиториев (GitHub Multilingual Repositories Dataset). Этот набор метаданных на уровне репозиториев предназначен для помощи исследователям и разработчикам в поиске публичных репозиториев GitHub, содержащих неанглоязычный естественный текст. При создании набора данных распределение языков в файлах README, issue и pull request оказалось различным: корейский язык является наиболее распространённым неанглийским языком в текстах issue, но занимает лишь пятое место в README; португальский язык лидирует среди неанглийских README, охватывая более трёх миллионов репозиториев. По мере того как ИИ играет всё более важную роль в процессе разработки программного обеспечения, многоязычный контент разработчиков становится критически важным. Набор данных опубликован на GitHub под лицензией CC0-1.0, что выполняет обещание GitHub, данное в 2025 году в рамках Европейских цифровых обязательств Microsoft (Microsoft's European Digital Commitments), — сделать многоязычные данные более доступными, в том числе для разработчиков открытого ИИ.

Этот набор данных не является дампом содержимого репозиториев, а представляет собой набор метаданных, включающий более 80 миллионов классифицированных записей, охватывающих более 40 миллионов репозиториев. Для каждого публичного репозитория предоставляется следующее: языковая классификация README, наиболее комментируемого issue и наиболее комментируемого pull request, где в качестве входных образцов берутся первые 150 символов каждого текста, исключая тексты короче 20 символов; результаты классификации для каждого текстового источника получены с помощью fastText, gcld3 и lingua-py, каждая запись сопровождается оценкой достоверности, и набор данных включает только классификации с достоверностью более 0,5; метаданные репозитория включают временную метку создания, использование диска, количество звёзд, количество форков, основной язык программирования, лицензию SPDX, количество issue и pull request, а также дату снимка. GitHub намеренно не объединяет три классификатора в одну метку, поскольку они различаются по охвату и калибровке достоверности, особенно для языков с ограниченными ресурсами. Предоставляя все три результата классификации, пользователи могут самостоятельно определять уровень строгости.

Этот набор данных может использоваться для поиска репозиториев, которые могут содержать документацию или совместную работу разработчиков на определённом языке; для изучения того, как неанглоязычные сообщества разработчиков используют issue, pull request и README; для создания оценочных наборов для инструментов ИИ-кодирования, генераторов документации или помощников по рецензированию (эти инструменты должны хорошо работать на нескольких языках); для поддержки аргументов лиц, принимающих решения, о необходимости расширения языкового охвата на основе данных о многоязычном разнообразии разработчиков; а также для измерения представленности европейских и других недостаточно представленных языков в открытом исходном коде. Распознавание языка в программных репозиториях затруднено, так как тексты в репозиториях часто короткие, могут содержать значки, шаблоны, команды установки, фрагменты кода, имена пользователей или смешанный языковой контент, и образец из 150 символов может не представлять весь репозиторий. Поэтому данный набор данных не следует рассматривать как эталонный стандарт для распознавания языка, а как прозрачный инструмент для обнаружения. Набор данных также не следует использовать для вывода конфиденциальных атрибутов владельцев репозиториев, участников или сообществ — эти сигналы являются метаданными на уровне репозитория, а не атрибутами на уровне личности.

Многие европейские языки по-прежнему недостаточно представлены в онлайн-текстах, используемых для создания и оценки систем ИИ, что может привести к тому, что инструменты ИИ будут хорошо работать для одних разработчиков, языков и сообществ, оставляя другие группы позади. Открытые данные помогают сократить этот разрыв. Этот набор данных был создан потому, что контент разработчиков отличается от обычных веб-текстов: README, issue и pull request содержат язык программной коллаборации, такой как инструкции по установке, отчёты об ошибках, запросы функций, рецензионные комментарии и нормы сообщества. Эти контексты помогают создавать системы ИИ, которые лучше понимают реальную работу разработчиков. Делая сигналы многоязычного контента разработчиков более доступными для обнаружения и анализа, этот набор данных предоставляет исследователям, разработчикам открытого исходного кода и создателям моделей инструменты для изучения языковой представленности в разработке программного обеспечения, помогая выявлять пробелы, поддерживать более качественную оценку и создавать более инклюзивные инструменты ИИ для разработчиков в Европе и за её пределами.

GitHub обсудит этот набор данных и более широкое значение открытых данных для многоязычного ИИ 16 июня в Центре открытого инновационного диалога (Open Innovation Dialogue Hub) в Страсбурге. Мероприятие, организованное Центром открытых инноваций Microsoft (Microsoft Open Innovation Center), Советом Европы (Council of Europe) и GitHub, соберёт политиков, исследователей, культурные учреждения и лидеров открытых инноваций для обсуждения ИИ, языкового разнообразия, культурного наследия и открытых данных.

Данный материал скомпилирован платформой Wedoany. При цитировании материалов, созданных с помощью искусственного интеллекта (ИИ), необходимо обязательно указывать источник — «Wedoany». В случае выявления нарушения прав или иных проблем просим своевременно информировать нас. Сайт оперативно внесёт изменения или удалит материал.Электронная почта: news@wedoany.com