Репортаж от Wedoany,AethexAI — стартап, специализирующийся на создании продуктов голосового ИИ для рынков Африки и Ближнего Востока. Основанный в прошлом году, он уже привлёк $3 млн в рамках предпосевного раунда финансирования. Раунд возглавила 4DX Ventures, при участии Enza Capital, Dorm Room Fund, Mojo Ventures и Stanford GSB 26 Fund. Среди частных инвесторов — преподаватели Стэнфордского университета, руководители телекоммуникационных компаний и исследователи ИИ из Anthropic.
Компания не использует существующие инструменты оркестрации, такие как Vapi или LiveKit, а разработала собственные модели и уровень оркестрации с нуля, чтобы обрабатывать локализованные диалекты английского, французского и арабского языков на целевых рынках. Одновременно компания запустила корпоративную платформу, позволяющую клиентам тестировать технологию и регистрироваться для получения услуг, а также предоставила разработчикам API и SDK для экспериментов с её моделями.
AethexAI основана Мариамой Дьялло и Айюлувой Одемуйивой. Генеральный директор Дьялло ранее работала в Goldman Sachs, затем присоединилась к поддерживаемому YC стартапу ModelML, где отвечала за продукт и рост; технический директор Одемуйива окончил Калифорнийский технологический институт, работал в Meta и учился в Стэнфордской школе бизнеса. Они стремились создавать продукты для развивающихся рынков и начали искать возможности.
Глобальные компании активно внедряют инструменты ИИ для автоматизации операций, но на некоторых рынках это даёт неудовлетворительные результаты. Основатели обнаружили, что в Египте один колл-центр автоматизировал большую часть звонков, но из-за низкой эффективности вернулся к прежней системе. Множество центров поддержки в Африке сообщили им, что наём инженеров для автоматизации звонков по разумной цене является долгосрочной проблемой.
«Задержки и дрожание сигнала, которые мы наблюдали при автоматизации звонков в этом регионе, были очень серьёзными. Если бы мы стали оркестратором, нам пришлось бы использовать крупные модели, размещённые за пределами региона, что привело бы к ещё большим задержкам. Чтобы это работало, необходимо использовать очень маленькие модели и сокращать задержки на каждом этапе», — объяснил Одемуйива TechCrunch решение компании создавать собственные модели и уровень оркестрации.
Развёртывание новейших моделей в ИИ-лабораториях обычно обходится в миллионы долларов на обучение и сбор данных. AethexAI решила, что небольшие модели способны решить проблему задержек, сохраняя точность, и разработала серию моделей Kora с числом параметров от 300 млн до 1,7 млрд. Для обучения этих моделей компания использовала анонимные записи из партнёрских колл-центров, а также отправляла жёсткие диски на радиостанции по всей Африке для сбора аудиоданных. Чтобы снизить затраты, компания создала сеть участников из числа студентов, которые размечают данные и озвучивают местные названия. По данным компании, в настоящее время ежедневно обрабатывается более 17 000 звонков.
В части бизнеса компания с помощью живых демонстраций и семинаров помогает клиентам, не знакомым с голосовым ИИ, определить наиболее подходящие для автоматизации сценарии. В настоящее время большинство сценариев связано с взысканием задолженности, активацией клиентов или звонками KYC (верификация «Знай своего клиента» — стандартная процедура проверки личности, используемая банками и телекоммуникационными компаниями). Компания нанимает по контракту инженеров для развёртывания на местах, чтобы обслуживать локальные рынки, и устанавливает партнёрские отношения с телекоммуникационными провайдерами для обработки телефонных услуг голосового ИИ.
Уолтер Бадду, сооснователь и управляющий партнёр 4DX Ventures, считает, что рынки Африки и Ближнего Востока принципиально отличаются от тех, которые изначально обслуживает большинство компаний голосового ИИ. «Компании в Африке и на Ближнем Востоке обрабатывают примерно в три раза больше звонков, чем их западные коллеги, поскольку голос остаётся основным каналом взаимодействия с клиентами. Существующие системы созданы для западных рынков, характеризующихся высокопроизводительной GPU-инфраструктурой, стандартным английским языком и европейской голосовой средой. Когда компаниям необходимо обрабатывать диалекты, переключение кодов и неформальные речевые паттерны, работая в рамках существующей телефонной инфраструктуры и реального ценового диапазона, это создаёт реальный разрыв».
Хотя такие компании, как ElevenLabs, Deepgram, Sierra и Cognigy, быстро расширяются по всему миру, рынки, для которых они изначально создавались, не всегда совпадают с теми, на которые они выходят. Стартапы вроде AethexAI делают ставку на эти разрывы — модели, ориентированные на местные диалекты, партнёрства на местах, инфраструктура, созданная для этого региона, — представляя собой рыночную нишу, которую гиганты не имеют ни мотивации, ни архитектуры для заполнения.
Данный материал скомпилирован платформой Wedoany. При цитировании материалов, созданных с помощью искусственного интеллекта (ИИ), необходимо обязательно указывать источник — «Wedoany». В случае выявления нарушения прав или иных проблем просим своевременно информировать нас. Сайт оперативно внесёт изменения или удалит материал.Электронная почта: news@wedoany.com









