ТестGLM-5.2: Опережає Opus 4.7, в 3 рази дешевше!

Зміст

Кодування подешевшало втричі: китайська модель GLM-5.2 склала конкуренцію провідним ІІ-розробникам

Дослідження, проведене компанією Snowflake, виявило, що нова велика мовна модель GLM-5.2 від китайської компанії Zhipu AI (Z.ai) демонструє результати, порівнянні з флагманською моделлю Claude Opus 4.7 від Anthropic у задачах програмування. При цьому вартість використання GLM-5.2 виявляється значно нижчою, що може суттєво вплинути на західний ринок штучного інтелекту.

Тестування моделей: близькість результатів і нюанси продуктивності

В ході бенчмарку Snowflake оцінила продуктивність GLM-5.2 та Claude Opus 4.7 на 103 задачах, пов’язаних з написанням коду. Метою було створення програм, які коректно працюють як у середовищі DuckDB, так і в Snowflake. Кожна задача була виконана моделями по три рази.

Результати показали, що при трьох спробах на кожну задачу обидві моделі продемонстрували схожу ефективність: GLM-5.2 успішно впоралася з 66% завдань, а Claude Opus 4.7 – з 67%. Незначна різниця спостерігалася в точності з першої спроби: Opus вирішив 53,7% задач одразу, в той час як GLM – 47,6%.

Аналіз показав, що GLM-5.2 знадобилося більше ітерацій для вирішення задач – в середньому 99 проти 80 у Opus. Також китайська модель спожила майже вдвічі більше токенів – 860 мільйонів проти 439 мільйонів. CEO Snowflake Шридхар Рамасвамі зазначив, що особливістю GLM є її здатність точно перевіряти код одразу на двох платформах, DuckDB і Snowflake, що дозволило їй вирішити ряд задач, недоступних іншим моделям.

Проте, GLM-5.2 проявила і слабкі сторони. Іноді модель передчасно завершувала роботу або надмірно фокусувалася на перевірці другорядних деталей. Так, в одному з випадків GLM виконала 411 викликів інструментів за 24 хвилини, аналізуючи кількість рядків, розподіли даних, null-значення та типи колонок, але так і не впоралася з задачею за три спроби. Claude Opus, навпаки, вирішив аналогічну задачу за 49 викликів і 9 хвилин. Рамасвамі також спростував припущення про те, що GLM генерує більш чистий код, підкресливши, що більше перевірок не завжди означає кращу якість. Незважаючи на ці зауваження, в Snowflake висловили задоволення роботою GLM-5.2 і планують зробити модель доступною для клієнтів.

Цінова політика: китайська пропозиція на ринку ІІ

Ключовим фактором, що робить GLM-5.2 привабливою, є її ціна. Згідно з офіційним прайс-листом Zhipu, вартість використання GLM-5.2 становить $1,40 за мільйон вхідних токенів і $4,40 за мільйон вихідних. Деякі сторонні постачальники пропонують ще більш вигідні умови.

Для порівняння, Claude Opus 4.7 оцінюється в $5 за вхідні та $25 за вихідні токени. Модель GPT-5.5 від OpenAI коштує $5 за вхідні та $30 за вихідні токени.

Модель	Вхід	Кешований вхід	Вихід
GLM-5.2	$1,40	$0,26	$4,40
Claude Opus 4.7	$5,00	$0,50 (Cache Hit)	$25,00
GPT-5.5	$5,00	$0,50	$30,00
GPT-5.4	$2,50	$0,25	$15,00

Незважаючи на те, що більш високе споживання токенів GLM-5.2 дещо знижує її цінову перевагу, загальний ефект тиску на Anthropic і OpenAI, особливо в області програмування, залишається значним. Програмування є одним з ключових напрямків монетизації для обох західних компаній.

Якщо ціновий тиск з боку китайських розробників продовжить сповільнювати або скорочувати зростання доходів OpenAI та Anthropic, перегрітий ринок ІІ може зіткнутися з серйозними випробуваннями. Оцінки цих компаній в значній мірі базуються на прогнозах стрімкого збільшення виручки, які, в свою чергу, підтримують масштабні інвестиції в інфраструктуру, включаючи дата-центри та закупівлю спеціалізованих чіпів.

Кодування подешевшало втричі: китайська модель GLM-5.2 склала конкуренцію провідним ІІ-розробникам

Тестування моделей: близькість результатів і нюанси продуктивності

Цінова політика: китайська пропозиція на ринку ІІ

Похожие записи

Claude AI (Клауд AI): що це таке, як користуватись, тарифи і чим відрізняється від ChatGPT

«Резерв+» призупинив функції підтвердження інвалідності

Як відрізнити ШІ-образи від реальних фото: майстер-клас для пильного ока.