
Как не сливать лимиты на AI
Больше тратишь — не значит больше делаешь. Одна компания сожгла $500 млн на Claude за месяц просто потому, что не поставила лимиты. Разбираю, как держать расходы под контролем — от подписки до API.
Счёт за месяц, которого не должно было быть
Счёт за Claude за один месяц. Анонимная компания раздала сотрудникам доступ и не поставила лимиты. Причина не в злом умысле и не в дорогих моделях.
Это крайний случай той же ошибки, которую делает почти каждый, кто работает с AI: тратить, не понимая, на что уходят деньги и токены.
Главный принцип простой. Больше потраченных токенов не равно больше сделанной работы. Чаще наоборот: раздутый контекст делает модель тупее и дороже одновременно.
Осознанность важнее экономии
Сначала разберись, какую задачу решаешь и каким инструментом. Потом думай про экономию. Без понимания любой приём ниже бесполезен.
Контроль, а не жадность
Экономия лимитов — это не про скупость. Это про то, чтобы понимать, на что уходят деньги и токены, и не терять их вслепую.
Раздутый контекст делает модель тупее
Когда не понимаешь, что делаешь, модель тонет в лишнем контексте и работает хуже. А счётчик при этом не останавливается.
Сначала понимание, потом оптимизация
Разберись, какую задачу решаешь и каким инструментом. Без этого любой приём ниже бесполезен. Смотри разборы реальной работы, а не хайп.
9 рабочих приёмов
Каждый приём — с блоком «Что делать»: конкретные шаги, а не абстракция. Начни с первого, он даёт самый большой выигрыш.
Следи за контекстом (главное)
Контекст — это всё, что модель держит в голове прямо сейчас: история чата, файлы, инструкции. Чем его больше, тем дороже каждый ответ и тем чаще модель путается. Самый большой рычаг экономии — не тащить в один чат всё подряд.
- Одна задача — один чат. Закончил, начал другое — открой новый
- В Claude Code: команда /clear сбрасывает контекст, /compact сжимает историю в короткое резюме
- Не прикрепляй файлы и доки, которые не нужны прямо сейчас
Держи системную инструкцию короткой
Модель не помнит переписку сама. При каждом сообщении ей заново отправляется вся история плюс системная инструкция (файл CLAUDE.md или AGENTS.md с правилами для агента). Файл на 2000 токенов при 200 сообщениях — это 400 000 токенов только на правила.
- Открой свой CLAUDE.md и выкини всё, чем не пользуешься каждый день
- Держи его в пределах одной страницы
- Редкие инструкции вынеси в отдельные файлы и подключай только когда нужно
Включи кэширование запросов (prompt caching)
Это когда повторяющийся кусок контекста модель запоминает на время, и за его повторы ты платишь в разы меньше. На практике срезает счёт до 60% на том же объёме.
- В обычном чате (claude.ai, ChatGPT) включать ничего не надо — работает само
- В Claude Code тоже автоматически. Главное не перезапускать сессию зря: каждый перезапуск обнуляет кэш
- Через API/код — добавь cache_control: {"type": "ephemeral"} на системную часть и стабильный контекст. В агрегаторах (OpenRouter) включается галочкой
Дроби задачи и чаще начинай новые чаты
Не решай 10 разных задач в одной бесконечной сессии. Каждая новая задача в старом чате тащит за собой весь предыдущий контекст.
- Поменялась задача — новый чат плюс 2-3 строки резюме, что было
- Повторяющиеся инструкции вынеси в skills (навыки), а не копируй в каждый чат руками
Подбирай модель под задачу
Не гоняй самую мощную модель под мелочь. Топовая модель на черновике — это переплата без выигрыша в качестве.
- Простое (черновик, формат, короткий разбор) — на быстрой дешёвой модели: Haiku, Gemini Flash, GPT mini
- Сложное (код, анализ, длинные тексты) — на топовой: Opus, GPT, Gemini Pro
- В агрегаторе моделей переключай вручную под каждую задачу
Бесплатные инструменты под мелочь
Для тестов, идей и небольших текстов часто хватает бесплатного. Не за всё нужно платить.
- Открывай LMArena, Google AI Studio, DeepSeek, Qwen или бесплатные версии ChatGPT/Claude/Gemini
- Но не загружай туда клиентские документы, финансы и личные данные
Чистка запросов (Caveman и подобное)
Инструменты, которые упрощают запросы и убирают воду из контекста, дают стабильные 20–30% экономии. Не магия, но на дистанции заметно.
- Поставь Caveman как плагин/скилл к Claude Code и прогоняй через него системные файлы и длинные запросы
Прослойка, которая чистит контекст (RTK)
Rust Token Killer и похожие утилиты встают между тобой и моделью и на лету выкидывают лишнее из контекста.
- Поставь RTK по инструкции (5 минут), запускай как прокси для кодинг-агентов
- Подходит, если много гоняешь задачи через Claude Code / Codex
Лимиты и контроль доступа (для команд)
Тот самый урок на $500 млн. Когда у команды есть доступ без лимитов, расход разгоняется незаметно — и ты видишь его только в счёте.
- В админке/биллинге AI-сервиса поставь лимит расхода на каждого пользователя
- Включи уведомления на сумму (алерт, когда трата перевалила за порог)
- Проверяй расход раз в неделю, а не в конце месяца по счёту
Когда платить, а когда нет
Платная подписка — это не «хотелка», а рабочий расход. Но только когда AI реально экономит тебе часы.
Бесплатных версий хватит за глаза
Бесплатные модели и арены закрывают большую часть
Подписка окупается — это рабочий расход
Тариф уже маловат, пора повышать
И отдельно про API. Через API модели часто работают стабильнее, чем в чате — больше контроля, меньше скрытой обвязки. Если нужен ровный рабочий инструмент, смотри в сторону API.
Главный вывод
Контроль доступа и лимиты — это не занудство. Это разница между рабочим инструментом и дырой, в которую утекают деньги.
AI экономит время только тогда, когда ты понимаешь, что делаешь. Сначала разберись в задаче, потом оптимизируй расход. В таком порядке.