Полмесяца на GPT Codex — почему я вернулся на Claude Code
5 марта вышла GPT 5.4 вместе с Codex. Codex — это приложение от OpenAI для разработки, вайбкодинга и взаимодействия с внешними сервисами.
Когда я тестил Codex после выхода 5.4 — я был очень удивлён насколько они продвинулись в разработке. Пользователь за 20$ в месяц получает больше и мощнее чем пользователи моего любимого Claude Code за 100$. Мощнее в плане того, что на мой взгляд Codex писал архитектурно более сильные решения и быстрее чем Claude Code.
Тогда я подумал — что-то тут не так. Не могли OpenAI так технологично скакнуть, что за двадцатку дают по скорости и качеству выше чем Anthropic на Claude Code за сотку.
Я практически полмесяца провёл за различными автоматизациями, изучением работы Codex. Успел на нём создать свой сайт с блогом buninlab.com. Он реально круто и быстро работал. Я даже успел перевести на него часть задач команды. Но как всё хорошее имеет свойство заканчиваться, так и тут оказалось без исключений. Началось с того, что разработка замедлилась. Потом ещё замедлилась, а после дошло до того, что банальные правки на сайте вместо 15 минут превратились в часовые сессии. Например, нужно было поправить вёрстку — шрифт уходил за поля. В итоге танцы с бубном как в тех рилсах, где дизайнер по часу промтит чтобы получить квадрат, а получает круг, треугольник и что угодно кроме квадрата. В конечном итоге Claude Code опять начал занимать первенство. То, что Claude на подписке за 100$ делает за 15 минут, на Codex стало занимать ощутимо больше времени. У меня всё стало на свои места. На мой взгляд, OpenAI сделали крутой маркетинговый ход — переманили к себе часть аудитории, а после вернули продукт на тот уровень мощности, который заложен в их финмодели.
Но справедливости ради, за эти полмесяца мы уже успели наделать много крутых штук для своего бизнеса.
Поэтому мой тезис остаётся как и раньше — на текущем этапе нет одной лучшей LLM-модели для конкретной задачи на протяжении долгого времени. Они меняются постоянно.
Кстати, кто хочет сам следить за тем какая модель сейчас лучше под конкретную задачу — есть LLM Arena с независимым анонимным голосованием: https://arena.ai/leaderboard/. Рейтинг определяется по типу задач: кодинг, тексты, изображения и тд.