Перейти к содержанию
Все материалы
ЭКОНОМИЯ · КОНТРОЛЬ РАСХОДОВ

Как не сливать лимиты на AI

Больше тратишь — не значит больше делаешь. Одна компания сожгла $500 млн на Claude за месяц просто потому, что не поставила лимиты. Разбираю, как держать расходы под контролем — от подписки до API.

$500M кейсprompt caching −60%9 рабочих приёмов
Кейс на $500 миллионов

Счёт за месяц, которого не должно было быть

$500M

Счёт за Claude за один месяц. Анонимная компания раздала сотрудникам доступ и не поставила лимиты. Причина не в злом умысле и не в дорогих моделях.

Это крайний случай той же ошибки, которую делает почти каждый, кто работает с AI: тратить, не понимая, на что уходят деньги и токены.

Главный принцип простой. Больше потраченных токенов не равно больше сделанной работы. Чаще наоборот: раздутый контекст делает модель тупее и дороже одновременно.

Принцип 1

Осознанность важнее экономии

Сначала разберись, какую задачу решаешь и каким инструментом. Потом думай про экономию. Без понимания любой приём ниже бесполезен.

Контроль, а не жадность

Экономия лимитов — это не про скупость. Это про то, чтобы понимать, на что уходят деньги и токены, и не терять их вслепую.

Раздутый контекст делает модель тупее

Когда не понимаешь, что делаешь, модель тонет в лишнем контексте и работает хуже. А счётчик при этом не останавливается.

Сначала понимание, потом оптимизация

Разберись, какую задачу решаешь и каким инструментом. Без этого любой приём ниже бесполезен. Смотри разборы реальной работы, а не хайп.

Принцип 2 · что делать руками

9 рабочих приёмов

Каждый приём — с блоком «Что делать»: конкретные шаги, а не абстракция. Начни с первого, он даёт самый большой выигрыш.

#1

Следи за контекстом (главное)

Контекст — это всё, что модель держит в голове прямо сейчас: история чата, файлы, инструкции. Чем его больше, тем дороже каждый ответ и тем чаще модель путается. Самый большой рычаг экономии — не тащить в один чат всё подряд.

Что делать
  • Одна задача — один чат. Закончил, начал другое — открой новый
  • В Claude Code: команда /clear сбрасывает контекст, /compact сжимает историю в короткое резюме
  • Не прикрепляй файлы и доки, которые не нужны прямо сейчас
#2

Держи системную инструкцию короткой

Модель не помнит переписку сама. При каждом сообщении ей заново отправляется вся история плюс системная инструкция (файл CLAUDE.md или AGENTS.md с правилами для агента). Файл на 2000 токенов при 200 сообщениях — это 400 000 токенов только на правила.

Что делать
  • Открой свой CLAUDE.md и выкини всё, чем не пользуешься каждый день
  • Держи его в пределах одной страницы
  • Редкие инструкции вынеси в отдельные файлы и подключай только когда нужно
#3

Включи кэширование запросов (prompt caching)

Это когда повторяющийся кусок контекста модель запоминает на время, и за его повторы ты платишь в разы меньше. На практике срезает счёт до 60% на том же объёме.

Что делать
  • В обычном чате (claude.ai, ChatGPT) включать ничего не надо — работает само
  • В Claude Code тоже автоматически. Главное не перезапускать сессию зря: каждый перезапуск обнуляет кэш
  • Через API/код — добавь cache_control: {"type": "ephemeral"} на системную часть и стабильный контекст. В агрегаторах (OpenRouter) включается галочкой
#4

Дроби задачи и чаще начинай новые чаты

Не решай 10 разных задач в одной бесконечной сессии. Каждая новая задача в старом чате тащит за собой весь предыдущий контекст.

Что делать
  • Поменялась задача — новый чат плюс 2-3 строки резюме, что было
  • Повторяющиеся инструкции вынеси в skills (навыки), а не копируй в каждый чат руками
#5

Подбирай модель под задачу

Не гоняй самую мощную модель под мелочь. Топовая модель на черновике — это переплата без выигрыша в качестве.

Что делать
  • Простое (черновик, формат, короткий разбор) — на быстрой дешёвой модели: Haiku, Gemini Flash, GPT mini
  • Сложное (код, анализ, длинные тексты) — на топовой: Opus, GPT, Gemini Pro
  • В агрегаторе моделей переключай вручную под каждую задачу
#6

Бесплатные инструменты под мелочь

Для тестов, идей и небольших текстов часто хватает бесплатного. Не за всё нужно платить.

Что делать
  • Открывай LMArena, Google AI Studio, DeepSeek, Qwen или бесплатные версии ChatGPT/Claude/Gemini
  • Но не загружай туда клиентские документы, финансы и личные данные
#7

Чистка запросов (Caveman и подобное)

Инструменты, которые упрощают запросы и убирают воду из контекста, дают стабильные 20–30% экономии. Не магия, но на дистанции заметно.

Что делать
  • Поставь Caveman как плагин/скилл к Claude Code и прогоняй через него системные файлы и длинные запросы
#8

Прослойка, которая чистит контекст (RTK)

Rust Token Killer и похожие утилиты встают между тобой и моделью и на лету выкидывают лишнее из контекста.

Что делать
  • Поставь RTK по инструкции (5 минут), запускай как прокси для кодинг-агентов
  • Подходит, если много гоняешь задачи через Claude Code / Codex
#9

Лимиты и контроль доступа (для команд)

Тот самый урок на $500 млн. Когда у команды есть доступ без лимитов, расход разгоняется незаметно — и ты видишь его только в счёте.

Что делать
  • В админке/биллинге AI-сервиса поставь лимит расхода на каждого пользователя
  • Включи уведомления на сумму (алерт, когда трата перевалила за порог)
  • Проверяй расход раз в неделю, а не в конце месяца по счёту
Принцип 3

Когда платить, а когда нет

Платная подписка — это не «хотелка», а рабочий расход. Но только когда AI реально экономит тебе часы.

Нужен редко

Бесплатных версий хватит за глаза

Задач немного

Бесплатные модели и арены закрывают большую часть

AI экономит часы или помогает зарабатывать

Подписка окупается — это рабочий расход

Каждый день упираешься в лимиты

Тариф уже маловат, пора повышать

И отдельно про API. Через API модели часто работают стабильнее, чем в чате — больше контроля, меньше скрытой обвязки. Если нужен ровный рабочий инструмент, смотри в сторону API.

Главный вывод

Контроль доступа и лимиты — это не занудство. Это разница между рабочим инструментом и дырой, в которую утекают деньги.

AI экономит время только тогда, когда ты понимаешь, что делаешь. Сначала разберись в задаче, потом оптимизируй расход. В таком порядке.