Эпоха классических бенчмарков официально закончена. Пока разработчики наперебой «взламывают» статические тесты, подгоняя под них ответы своих моделей, на рынке утвердился новый арбитр из Калифорнийского университета в Беркли. Проект Arena, который многие по инерции принимают за академическую забаву, вышел на показатель выручки в $100 млн (ARR). Этот финансовый рывок случился всего через восемь месяцев после запуска коммерческого сервиса. В мире, где нейросети научились имитировать разум, самым дефицитным и дорогим товаром стала верифицированная человеческая реакция.
Основанный Анастасиосом Ангелопулосом, Вэй-Линь Чианом и Ионом Стойкой, стартап за год превратился из университетского эксперимента в критический узел инфраструктуры ИИ. Пока венчурные капиталисты спорят о пузырях, Arena монетизирует единственное, что имеет значение для техгигантов — реальное превосходство в глазах пользователя.
Монетизация человеческого сигнала
Бизнес-модель Arena изящна в своей простоте: компания продает доступ к «коллективному разуму» из 10 миллионов оценок. Механика слепого тестирования, где пользователь выбирает лучший ответ из двух анонимных вариантов, превратилась в продукт AI Evaluations. Если публичный лидерборд остается бесплатным развлечением для индустрии, то глубокая аналитика предпочтений стоит лабораториям огромных чеков. По словам Ангелопулоса, компания отказалась от модели подписки в пользу оплаты по объему потребления. Прыжок выручки с $30 млн в январе до $100 млн к июню 2024 года подтверждает: потребность в данных для дообучения (post-training) стала ненасытной.
«Многие даже не понимают, что наш бизнес вообще приносит деньги; люди до сих пор видят в нас опенсорс-проект», — иронизирует Анастасиос Ангелопулос в комментарии TechCrunch.
Инвесторы, впрочем, всё поняли быстро. Arena привлекла $150 млн в рамках серии А, получив оценку в $1.7 млрд. Мы наблюдаем тектонический сдвиг: деньги утекают от поставщиков «статической» разметки к тем, кто предлагает динамическую проверку реальностью. Пока конкуренты вроде Yupp закрываются, Arena успешно борется за бюджеты с гигантами уровня Mercor и Handshake, предлагая не просто «ручной труд» разметчиков, а живую реакцию рынка.
Диктатура агентской оценки
Сложность понятия «эффективность» растет быстрее, чем сами модели. Arena уже вышла за пределы простого текста, ранжируя код, зрение и генерацию изображений. Запуск Agent Mode для оценки длинных автономных рабочих процессов — это попытка поймать тренд на ИИ-агентов, где старые тесты на логику окончательно расписываются в бессилии. Предоставляя лабораториям ранний доступ к реакциям пользователей на невыпущенные модели, Arena превратилась в высокоуровневую фокус-группу, решающую судьбу продукта до его релиза.
Сегодня Arena — это гейткипер в закрытой системе, где корпорации платят за подтверждение того, что их многомиллиардные траты на вычислительные мощности не были напрасными. Быть единственным рефери в игре, где каждый участник подозревается в жульничестве, — позиция крайне выгодная, но опасная. Для бизнеса данные Arena перестали быть просто строчкой в рейтинге; теперь это сырье для выживания в гонке, где субъективное мнение человека стало единственным объективным мерилом успеха.