Inception — начинающийся бизнес в Пало-Альто, основанный профессором компьютерных наук Стэнфордского университета Стефано Эрмоном. Недавно компания объявила о разработке модели ИИ, основанной на диффузионной технологии, которая называется Diffusion Large Language Model (DLM). Генеративный ИИ в настоящее время делится на две основные категории: большие языковые модели (LLM), основанные на трансформаторной архитектуре, хороши в генерации текста, а диффузионные модели, которые управляют такими системами, как Midjourney и OpenAI Sora, фокусируются на создании изображений, видео и аудио. DLM Inception сочетает в себе традиционные возможности LLM, такие как улучшение генерации кода и вопросы и ответы, при этом значительно обеспечивая производительность и снижая вычислительные затраты.
В интервью TechCrunch Эрмон сказал, что он много лет работал в Стэнфордской лаборатории, чтобы оценить генерацию текста с помощью диффузионных технологий. Традиционная LLM генерирует текст по порядку, каждое слово должно полагаться на предыдущее слово для завершения, а скорость устанавливается. Диффузионная модель запускается с грубых данных и оптимизирует общий выход за один раз, обрабатывая его за один раз. Эрмон подумал об использовании этой функции для генерации и корректировки больших абзацов текста. После многих лет напряженной работы он и его студенты подробно описали этот прорыв в статье, опубликованной в прошлом году. Затем он основал компанию Inception, которая объединила профессора Калифорнийского университета в Лос-Анджелесе Адитью Гровер и профессора Корнелльского университета Владимира Кулешова для продвижения технологизации. Хотя детали финансирования не раскрываются, TechCrunch узнала, что фонд Мэйфилда участвовал в инвестициях.
Inception включает в себя клиентов из списка Fortune 100, удовлетворяя потребности в низкой задержке и высокой скорости. Эрмон отметил, что DLM способен более эффективно использовать графические процессоры, что приведет к шаблонам разработки языковых моделей. Компания предлагает API, локальные и пограничные опции и поддерживает объявления моделей. Его DLM требует работы в 10 раз быстрее, чем традиционный LLM, и меньше стоимости на одну десятую. Далее предлагается, что производительность малой кодированной модели сопоставима с GPT-4o mini от OpenAI и в 10 раз быстрее; Мини-модель превосходит Llama 3.1 8B от Meta и обрабатывает более 1000 токенов в секунду. Если данные соответствуют действительности, то эта скорость довольно яркая.









