ЭКОНОМИЯ · КОНТРОЛЬ РАСХОДОВ

Как не сливать лимиты на AI

Больше тратишь — не значит больше делаешь. Одна компания сожгла $500 млн на Claude за месяц просто потому, что не поставила лимиты. Разбираю, как держать расходы под контролем — от подписки до API.

$500M кейсprompt caching −60%9 рабочих приёмов

Кейс на $500 миллионов

Счёт за месяц, которого не должно было быть

$500M

Счёт за Claude за один месяц. Анонимная компания раздала сотрудникам доступ и не поставила лимиты. Причина не в злом умысле и не в дорогих моделях.

Это крайний случай той же ошибки, которую делает почти каждый, кто работает с AI: тратить, не понимая, на что уходят деньги и токены.

Главный принцип простой. Больше потраченных токенов не равно больше сделанной работы. Чаще наоборот: раздутый контекст делает модель тупее и дороже одновременно.

Принцип 1

Осознанность важнее экономии

Сначала разберись, какую задачу решаешь и каким инструментом. Потом думай про экономию. Без понимания любой приём ниже бесполезен.

Контроль, а не жадность

Экономия лимитов — это не про скупость. Это про то, чтобы понимать, на что уходят деньги и токены, и не терять их вслепую.

Раздутый контекст делает модель тупее

Когда не понимаешь, что делаешь, модель тонет в лишнем контексте и работает хуже. А счётчик при этом не останавливается.

Сначала понимание, потом оптимизация

Разберись, какую задачу решаешь и каким инструментом. Без этого любой приём ниже бесполезен. Смотри разборы реальной работы, а не хайп.

Принцип 2 · что делать руками

9 рабочих приёмов

Каждый приём — с блоком «Что делать»: конкретные шаги, а не абстракция. Начни с первого, он даёт самый большой выигрыш.

Следи за контекстом (главное)

Контекст — это всё, что модель держит в голове прямо сейчас: история чата, файлы, инструкции. Чем его больше, тем дороже каждый ответ и тем чаще модель путается. Самый большой рычаг экономии — не тащить в один чат всё подряд.

Что делать

Одна задача — один чат. Закончил, начал другое — открой новый
В Claude Code: команда /clear сбрасывает контекст, /compact сжимает историю в короткое резюме
Не прикрепляй файлы и доки, которые не нужны прямо сейчас

Держи системную инструкцию короткой

Модель не помнит переписку сама. При каждом сообщении ей заново отправляется вся история плюс системная инструкция (файл CLAUDE.md или AGENTS.md с правилами для агента). Файл на 2000 токенов при 200 сообщениях — это 400 000 токенов только на правила.

Что делать

Открой свой CLAUDE.md и выкини всё, чем не пользуешься каждый день
Держи его в пределах одной страницы
Редкие инструкции вынеси в отдельные файлы и подключай только когда нужно

Включи кэширование запросов (prompt caching)

Это когда повторяющийся кусок контекста модель запоминает на время, и за его повторы ты платишь в разы меньше. На практике срезает счёт до 60% на том же объёме.

Что делать

В обычном чате (claude.ai, ChatGPT) включать ничего не надо — работает само
В Claude Code тоже автоматически. Главное не перезапускать сессию зря: каждый перезапуск обнуляет кэш
Через API/код — добавь cache_control: {"type": "ephemeral"} на системную часть и стабильный контекст. В агрегаторах (OpenRouter) включается галочкой

Дроби задачи и чаще начинай новые чаты

Не решай 10 разных задач в одной бесконечной сессии. Каждая новая задача в старом чате тащит за собой весь предыдущий контекст.

Что делать

Поменялась задача — новый чат плюс 2-3 строки резюме, что было
Повторяющиеся инструкции вынеси в skills (навыки), а не копируй в каждый чат руками

Подбирай модель под задачу

Не гоняй самую мощную модель под мелочь. Топовая модель на черновике — это переплата без выигрыша в качестве.

Что делать

Простое (черновик, формат, короткий разбор) — на быстрой дешёвой модели: Haiku, Gemini Flash, GPT mini
Сложное (код, анализ, длинные тексты) — на топовой: Opus, GPT, Gemini Pro
В агрегаторе моделей переключай вручную под каждую задачу

Бесплатные инструменты под мелочь

Для тестов, идей и небольших текстов часто хватает бесплатного. Не за всё нужно платить.

Что делать

Открывай LMArena, Google AI Studio, DeepSeek, Qwen или бесплатные версии ChatGPT/Claude/Gemini
Но не загружай туда клиентские документы, финансы и личные данные

Чистка запросов (Caveman и подобное)

Инструменты, которые упрощают запросы и убирают воду из контекста, дают стабильные 20–30% экономии. Не магия, но на дистанции заметно.

Что делать

Поставь Caveman как плагин/скилл к Claude Code и прогоняй через него системные файлы и длинные запросы

Прослойка, которая чистит контекст (RTK)

Rust Token Killer и похожие утилиты встают между тобой и моделью и на лету выкидывают лишнее из контекста.

Что делать

Поставь RTK по инструкции (5 минут), запускай как прокси для кодинг-агентов
Подходит, если много гоняешь задачи через Claude Code / Codex

Лимиты и контроль доступа (для команд)

Тот самый урок на $500 млн. Когда у команды есть доступ без лимитов, расход разгоняется незаметно — и ты видишь его только в счёте.

Что делать

В админке/биллинге AI-сервиса поставь лимит расхода на каждого пользователя
Включи уведомления на сумму (алерт, когда трата перевалила за порог)
Проверяй расход раз в неделю, а не в конце месяца по счёту

Принцип 3

Когда платить, а когда нет

Платная подписка — это не «хотелка», а рабочий расход. Но только когда AI реально экономит тебе часы.

Нужен редко

Бесплатных версий хватит за глаза

Задач немного

Бесплатные модели и арены закрывают большую часть

AI экономит часы или помогает зарабатывать

Подписка окупается — это рабочий расход

Каждый день упираешься в лимиты

Тариф уже маловат, пора повышать

И отдельно про API. Через API модели часто работают стабильнее, чем в чате — больше контроля, меньше скрытой обвязки. Если нужен ровный рабочий инструмент, смотри в сторону API.

Главный вывод

Контроль доступа и лимиты — это не занудство. Это разница между рабочим инструментом и дырой, в которую утекают деньги.

AI экономит время только тогда, когда ты понимаешь, что делаешь. Сначала разберись в задаче, потом оптимизируй расход. В таком порядке.

Разборы на YouTube Обсудить подписки и лимиты Все материалы