ТестGLM-5.2: Опережає Opus 4.7, в 3 рази дешевше!

ТестGLM-5.2: Опережает Opus 4.7, в 3 раза дешевле!

Кодування подешевшало втричі: китайська модель GLM-5.2 склала конкуренцію провідним ІІ-розробникам

Дослідження, проведене компанією Snowflake, виявило, що нова велика мовна модель GLM-5.2 від китайської компанії Zhipu AI (Z.ai) демонструє результати, порівнянні з флагманською моделлю Claude Opus 4.7 від Anthropic у задачах програмування. При цьому вартість використання GLM-5.2 виявляється значно нижчою, що може суттєво вплинути на західний ринок штучного інтелекту.

Тестування моделей: близькість результатів і нюанси продуктивності

В ході бенчмарку Snowflake оцінила продуктивність GLM-5.2 та Claude Opus 4.7 на 103 задачах, пов’язаних з написанням коду. Метою було створення програм, які коректно працюють як у середовищі DuckDB, так і в Snowflake. Кожна задача була виконана моделями по три рази.

Результати показали, що при трьох спробах на кожну задачу обидві моделі продемонстрували схожу ефективність: GLM-5.2 успішно впоралася з 66% завдань, а Claude Opus 4.7 – з 67%. Незначна різниця спостерігалася в точності з першої спроби: Opus вирішив 53,7% задач одразу, в той час як GLM – 47,6%.

Аналіз показав, що GLM-5.2 знадобилося більше ітерацій для вирішення задач – в середньому 99 проти 80 у Opus. Також китайська модель спожила майже вдвічі більше токенів – 860 мільйонів проти 439 мільйонів. CEO Snowflake Шридхар Рамасвамі зазначив, що особливістю GLM є її здатність точно перевіряти код одразу на двох платформах, DuckDB і Snowflake, що дозволило їй вирішити ряд задач, недоступних іншим моделям.

Проте, GLM-5.2 проявила і слабкі сторони. Іноді модель передчасно завершувала роботу або надмірно фокусувалася на перевірці другорядних деталей. Так, в одному з випадків GLM виконала 411 викликів інструментів за 24 хвилини, аналізуючи кількість рядків, розподіли даних, null-значення та типи колонок, але так і не впоралася з задачею за три спроби. Claude Opus, навпаки, вирішив аналогічну задачу за 49 викликів і 9 хвилин. Рамасвамі також спростував припущення про те, що GLM генерує більш чистий код, підкресливши, що більше перевірок не завжди означає кращу якість. Незважаючи на ці зауваження, в Snowflake висловили задоволення роботою GLM-5.2 і планують зробити модель доступною для клієнтів.

Цінова політика: китайська пропозиція на ринку ІІ

Ключовим фактором, що робить GLM-5.2 привабливою, є її ціна. Згідно з офіційним прайс-листом Zhipu, вартість використання GLM-5.2 становить $1,40 за мільйон вхідних токенів і $4,40 за мільйон вихідних. Деякі сторонні постачальники пропонують ще більш вигідні умови.

Для порівняння, Claude Opus 4.7 оцінюється в $5 за вхідні та $25 за вихідні токени. Модель GPT-5.5 від OpenAI коштує $5 за вхідні та $30 за вихідні токени.

Модель Вхід Кешований вхід Вихід
GLM-5.2 $1,40 $0,26 $4,40
Claude Opus 4.7 $5,00 $0,50 (Cache Hit) $25,00
GPT-5.5 $5,00 $0,50 $30,00
GPT-5.4 $2,50 $0,25 $15,00

Незважаючи на те, що більш високе споживання токенів GLM-5.2 дещо знижує її цінову перевагу, загальний ефект тиску на Anthropic і OpenAI, особливо в області програмування, залишається значним. Програмування є одним з ключових напрямків монетизації для обох західних компаній.

Якщо ціновий тиск з боку китайських розробників продовжить сповільнювати або скорочувати зростання доходів OpenAI та Anthropic, перегрітий ринок ІІ може зіткнутися з серйозними випробуваннями. Оцінки цих компаній в значній мірі базуються на прогнозах стрімкого збільшення виручки, які, в свою чергу, підтримують масштабні інвестиції в інфраструктуру, включаючи дата-центри та закупівлю спеціалізованих чіпів.