TRANSCRIPCIÓNRussian

24 способа сэкономить токены Claude Code — от простых до экспертных

19m 39s3,374 palabras146 segmentsRussian

TRANSCRIPCIÓN COMPLETA

0:00

Всем привет! Представим ситуацию. Три часа дня, ты в середине проекта, и тут Клод пишет «лимит исчерпан».

0:05

Ты думаешь, что делать? Покупать extra usage для того, чтобы за реальные доллары продолжить свой проект?

0:10

Или теряешь просто полдня и ждешь завтрашний день, потому что лимиты обновятся только через несколько часов или, в худшем случае, даже завтра?

0:18

На самом деле, ты можешь не знать, на что уходит 98,5% токенов, которые ты оплачиваешь. На самом деле, они уходят не на код.

0:26

Код просто перечитывает всю твою переписку и к каждым новым сообщениям с самого начала. И так делает снова и снова.

0:33

И даже если подписка за 200 долларов, токенов может сгореть как вапи на 5000 долларов. Из них 98,5% только на историю чата, не на твою работу.

0:41

И это на самом деле не проблема подписки, а то, как ты работаешь с этой подпиской. Сегодня я покажу тебе 24 способа, как сэкономить токены и как исправить ситуацию с тем, что у тебя заканчиваются лимиты.

0:54

После них тарифа PRO за 20 долларов будет хватать тем, кто его использует на гораздо большее количество задач, а тем, кто использовал подписку за 100 долларов и тоже ее не хватало, или за 200, то тоже могут сэкономить огромное количество токена.

1:06

Здесь все будет на реальных примерах, на реальных командах, поэтому смотрите далее, поехали. Если ты здесь первый раз, то коротко о себе.

1:13

Меня зовут Эдуард Гришин, 12 лет в IT и e-commerce. Работал в Яндекс.Маркет, Купер, Технопарк, а сейчас в Sunlight.

1:18

Управляю командами до 200 человек в компаниях с оборотом до 200 миллиардов рублей в год. Пару лет назад, как и все думают, начал активно вникать в AI, создал свою компанию Futur.ai, которая занимается автоматизацией бизнеса через голосовые боты, сайты интеграции.

1:31

Все, что показываю здесь, прошел сам лично на своих живых проектах, которые делал или на заказ, или реализовал для себя, поэтому только правда.

1:37

Итак, прежде чем начнем, нужно объяснить вам, что такое токен. Токен здесь изображен в виде монет, это, кажется, самый понятный визуал.

1:43

Это минимальная единица, то есть, грубо говоря, слово равно токену, но это очень грубо говоря. И это то, чего многие не объясняют.

1:49

Каждый раз, когда вы отправляете сообщение, код перечитывает всю вашу беседу с нуля. Первое сообщение, ответ, второе, ответ.

1:54

Все до вашего последнего слова. И так делается каждый раз. И получается, что вы платите за первое сообщение 500 токенов, за десятое – 5 тысяч, за тридцатое – 250 тысяч суммарно токенов.

2:04

Это в одной обычной сессии. Плюс есть невидимый расход. Каждое сообщение тащит свой код, маркдаун, подключенные MCP-сервера, системные промпты, скиллы.

2:12

Вы об этом можете не думать, но оно просто капает и накапливается и тратится. Часто это не настраивается, и это могут быть какие-то архитектурные решения.

2:20

Например, у Антропика стартовый контекст всегда 51 тысяча токенов до первого сообщения. Кэш живет ровно 5 минут.

2:26

Автокомпакт срабатывает всегда на 95%. И это не баг, это так устроена система код-кода Антропика, и мы будем учиться работать с этим.

2:34

И чтобы вы понимали масштаб, подписка Max за 200 долларов в месяц, по факту, стоит Антропику в 3000-5000 долларов в API-эквиваленте.

2:42

Именно поэтому сейчас многие в X, в бывшем Твиттере, ноют, ревут и пишут, что лимиты кончаются, и это будет поражаться дальше.

2:50

Антропик считает деньги, они прибыльная компания, в отличие от OpenAI, и лимиты будут сокращаться. И даже на подписке в 200 долларов в месяц.

2:58

И последнее, что важно, чем толще ваш контекст, тем хуже его качество. Модель хорошо помнит начало и конец, а вот все, что в середине, всегда размывается.

3:06

И обычно на это все жалуются и говорят, что Клод начинает глупеть. Нет, на самом деле это особенность его работы.

3:12

Есть даже такой термин «потеря в середине», loss in middle, который известен на Западе. Поэтому вы можете платить много, но получать меньше.

3:21

И важно с этим тоже уметь работать. Итак, на теории закончили, дальше только хаки, погнали.

3:28

Итак, первое— это базовые хаки. Девять хаков. Базовый уровень не значит, что он несущественный. Это просто означает, что вы должны это уметь по умолчанию, и первые три сэкономят, поверьте вам, больше, чем все, что идет после.

3:40

Первый хак— это команда slash clear. Между задачами. Самое важное в списке. Реально. Clear обнуляет историю сессии.

3:47

Следующее сообщение идет как первое. Никакого накопленного груза. Переключаешься с одного проекта на другой.

3:52

Clear. Закончил задачу. Clear. Звучит банально, но большинство этого не делает. Просто продолжает ту же сессию часами и в итоге тратит огромное количество токенов.

4:01

Здесь как раз показано, что можно было потратить 140 тысяч, если бы вы эту команду не использовали. Еще один лайфхак.

4:06

Если вы смотрели мое видео про плагины, я там рассказывал про плагин GSD. Get Shit Done. Это отличный плагин для крупных проектов, которые я использую, и он сам всегда пишет использовать команду Clear перед каждым большим стартом какой-либо части проекта.

4:22

Но этот плагин умеет это делать, а вот код по умолчанию не может. Поэтому запомните, команда Clear обязательна.

4:28

Итак, следующий хак— отключать ненужные MCP серверы. Один подключенный MCP сервер загружает все описание своих инструментов с каждым сообщением.

4:35

Один сервер— до 18 тысяч токенов, три— 54, пять— 90 тысяч. И это до первого слова привет. Вам важно открыть список ваших MCP серверов и оставить только те, что нужны вам прямо сейчас.

4:46

Остальное выключайте. Если можете, используйте CLA вместо MCP, потому что CLA еще меньше тратит токенов.

4:53

Это более лучший способ соединения с кодом, чем MCP. Я про это тоже рассказывал в одном из своих видео.

4:59

Как отключить лишние MCP серверы в терминале вы сейчас видите у себя на экране. И видите, что удаленные ненужные серверы будут вам экономить большое количество токенов.

5:07

В следующий хак объединяйте промпты в одно сообщение. Три отдельных сообщения, три раунда с полной историей.

5:11

Одно сообщение с тремя задачами, один раунд. Отличный пример того, как многие люди пишут, например, в Телеграме.

5:16

Привет, отдельное сообщение. Как дела, отдельное сообщение? Что делаешь, отдельное сообщение? Если в переписке это еще возможно, хотя многих раздражает, то в рамках работы с кодом так лучше не делайте.

5:26

Поэтому лучше всегда писать одним большим предложением. Параноизируй что-то, найди ошибки там-то, предложи правки.

5:31

Одно сообщение. И вы здесь хорошо можете видеть, что 3 одинных сообщения это 3000 лишних токенов, а когда все в одном контексте, то вы сможете сэкономить 60-70% этих токенов.

5:39

Хак 4. План мод перед сложной задачей. Самая дорогая вещь в код-код, когда он пошел не туда, написал вам какой-то код, и вы потом все это просто удаляете.

5:46

Поэтому всегда включайте команду план мод. Сначала план, ты говоришь ок или дорабатываешь его, а только потом он начинает писать код.

5:54

Я добавил в свой код Markdown во всех своих проектах следующую фразу. Не вноси изменений, пока нет 95% уверенности в задаче, задавая вопросы до этого момента.

6:03

Это реально работает, особенно на задачах, где сам не до конца понимаешь, что хочешь. Следующий хак— это команда Context и Cost.

6:11

Контекст показывает, что именно есть токены прямо сейчас. Историю чата, MCP накладки, загруженные файлы.

6:18

Команда cost, реальный расход и оценка за сессию. Я или вы запустите здесь команду context в пустую сессию, и при этом у вас будет не одно сообщение, вы увидите, что уже 51 тысяча токенов уже занято.

6:28

системными пронтами, инструментами, агентами— это до первого слова. Так, следующий хак— это строка статуса в терминале.

6:33

Все, что вам нужно, чтобы ее включить, это вам нужно использовать команду status line, которую вы видите сейчас на экране, и у вас тогда внизу экрана появится постоянная строка, где будет показана ваша модель, ее контекстное окно, будет визуально бар, счетчик, и ты видишь в реальном времени, как быстро он может заполняться.

6:49

Итак, следующий хак— это держать дашборд открытым, если вы работаете в том же десктопе, всегда его проверять.

6:55

Если вы работаете в код-коде на десктопе, то зайдя в настройки usage, вы можете увидеть остатки до лимита и время до сброса по каждой модели.

7:04

Все это можно также автоматизировать через n8n или простой скрипт, чтобы вам уведомления приходили в Telegram, когда наперво остается меньше 20%.

7:12

Я сделал это у себя. Почему? Потому что у меня был один раз случай, когда у меня закончился лимит на проекте, который я не успел опубликовать, а предыдущий мой коммит, он уронил прот.

7:24

И это была большая ошибка, что я допустил такую оплошность, но зато честно в ней признаюсь, и мне пришлось докупать как раз вот здесь в Extra Usage дополнительные лимиты для того, чтобы ими воспользоваться и починить проект.

7:38

И после этого, как я поднял прот, все стало хорошо, я ушел спокойно спать 12 часов ночи. Не совершайте мои ошибки.

7:44

Используйте всегда контроль своих лимитов, если не работаете в терминале. Восьмой хак— это давать только нужный контекст.

7:51

Перед тем, как кинуть файл или документ, секунду подумайте, а к лоду вообще нужен весь файл? Потому что если у вас баг в одной функции, то дайте ему текст про одну эту функцию.

8:01

Нужен абзац контекста— дайте только абзац. У Futura.ai очень большая база знаний, потому что там не только сайт, там еще есть голосовой, и текстовый, и агент.

8:10

И я, естественно, никогда не даю весь каталог, только конкретные отделы. Получается дешевле и в разы лучше.

8:15

И вы можете понять это как раз на примере, что вы можете сэкономить до 96% только на этом хаке. Следующий хак.

8:21

Смотри, как работает код и останавливаю его вовремя. не отправляй ему какую-либо команду и не уходи, следи первые пару минут.

8:28

Иногда он идет совсем не туда, застревает в каком-то бесконечном цикле, перечитывает одни и те же файлы, так делает снова и снова.

8:33

Если вы это видите, остановите его и скорректируйте. Та же идея, в принципе, что в план моде, но только здесь, в реальном времени, где вы отслеживаете работу код-кода.

8:41

Итак, 9 хаков сделают вашу жизнь заметно лучше уже сейчас. Дальше идет второй уровень продвинутых хаков.

8:48

Там про Cloud Markdown и компактинг, и один из этих хаков в свое время склонял мне больше, чем все, что было ранее, потому что я не понимал, например, как работает кэш именно в код-коде, а теперь я это знаю.

8:57

Здесь будет 5 хаков, они требуют разовой настройки, потом работают уже сами без вас. Хак 10— это Cloud Markdown.

9:04

использовать как индекс и давать ему инструкции на английском. Клод-маркдаун читается с каждым сообщением, с каждым, даже если вы написали просто «привет».

9:12

Если у тебя 1000 строк, 1000 строк контекст на каждое сообщение, и это большая ошибка. Не больше 200 строк должно быть в клод-маркдауне, только стекс, соглашение по коду, команды сборки, правила 95%, о которых я сказал ранее.

9:24

И сдвиг мышления, который я долго не понимал. Код Markdown это не документация, это индекс. Архитектура должна лежать в файле Architecture Markdown.

9:32

База знаний в Knowledge. Он знает куда смотреть и не загружает лишнюю. Он это код Markdown. И еще один момент, который мало кто применяет.

9:40

Пишите инструкции на английском. А вообще в идеале, если знаете английский, общайтесь с кодом на английском, потому что кириллицы токенизируются хуже.

9:46

На одну и ту же мысль уходит в полтора-два раза больше токенов. Захранить заметку в Obsidian и добавить теги— 15 токенов.

9:53

Save node to Obsidian and add tags— 9 токенов. На 1000 вызовов в месяц разница будет учтима в 6000 токенов.

10:00

Пользователю клод может отвечать по-русски, но внутри старайтесь все держать в инструкциях на английском.

10:06

Хак 11. Точные ссылки на файлы. Не пишите «посмотри в репозитории и найди какую-либо проблему», а «посмотри на конкретную функцию в таком-то файле».

10:14

Делайте прямые ссылки на файлы через собаку и название файла. Это останавливает клод от блужданий по всему проекту.

10:22

И таким образом вы сэкономите огромное количество токенов, потому что клод вместо прочтения 38 файлов зайдет лишь в один файл и потратит 2000 токенов максимум.

10:31

Следующий хак— это команда Compact запускать на 60%, а не на 95%. Автоматически Compact срабатывает на 95%.

10:39

К этому моменту контекст уже окончательно деградирует. Середина истории плывет, о чем я говорил в начале.

10:44

Поэтому запускайте команду Compact вручную на 60% и указывай, что сохранить. Сохрани архитектурные решения, текущую задачу, структуру файлов.

10:53

Просто команда Compact без инструкции даст размытый результат. Следующий хак— это 5-минутный перерыв стоит денег.

10:59

Это знает единицы, и мне понадобилось тоже некоторое время, чтобы это заметить и понять, как это работает.

11:04

Кэш промта в код-коде ровно 5 минут. Вернулся через 6, следующее сообщение будет перечитываться с нуля по полной стоимости токенов.

11:11

И вот откуда обычно возникают непонятные скачки расходов. Уходишь надолго, включая команду Compact или Clear перед тем, как встать.

11:18

Или просто знай, первое сообщение после паузы будет стоить дороже обычного. Следующий хак – вывод команд раздувает контекст.

11:24

Когда Клод запускает Shell-команды, весь вывод идет в контекст. не знаю, команда git log без ограничений 200 коммитов, npm install сотни строк логов, накапливается все это незаметно, поэтому пропиши в коде запрет на команды.

11:38

которые не нужны в этом проекте. Или добавляй лимит к гид-логу и ко всем командам, как здесь в принципе прописано.

11:46

Мы закончили с предыдущим уровнем хаков, переходим к экспертным хакам, которые полностью меняют систему, а не отдельные вещи в вашем проекте.

11:53

Итак, следующий хак это выбрать правильную модель. Sonnet нужно использовать по умолчанию в 80% и больше всех задач в разработке.

12:02

Haiku лучше использовать для субагентов, форматирования простых задач или исследований, а Opus использовать нужно для глубокой архитектуры, сложного планирования.

12:09

Старайтесь держать его в районе 15-20% использования. Больше, значит, будет уходить в бюджет быстрее.

12:14

Это важно помнить. Отдельный совет. Когда нужен ревью большой кодовой базы, подключите Codex, официальный плагин для код-кода, в свой проект.

12:22

У многих из вас есть ChatGPT, платная подписка, и за 20 долларов вы получаете отличного ревьера вашего кода, абсолютно бесплатного, и как раз версия 5.4 для этого отлично подойдет и сэкономит вам токены, где они будут самые дорогие.

12:36

Итак, шестнадцатый хак. Субагенты стоят в 7-10 раз больше. Агентные процессы расходуют примерно в 7, а то и в 10 раз больше токенов, чем одиночная сессия.

12:45

Вы спросите, почему? Потому что каждый субагент просыпается со своим полным контекстом, перезагружает системные инструменты, код-маркдауны и все, что у вас есть.

12:54

Отдельный счетчик с нуля. Поэтому делегируйте субагентам одноразовые задачи, используя модель Haiku. Исследование, обработка большого массива данных, сводка.

13:02

Если 80% токенов идет на Haiku вместо Opus, разница в токенах и, естественно, в конечных деньгах будет сильно ощутимой.

13:09

Многоагентная команда— это, конечно, мощно, но очень дорого, и тратит огромное количество токенов. Я их использую нечасто.

13:14

И знаете, когда я вижу вот эти ролики про Paperclip или про то, что я запускаю одновременно 10 сессий, вопрос— вы дирижер этой системы, а как вы справляетесь с тем, чтобы везде держать сами глубокий контекст?

13:26

Наша человеческая память не имеет возможности держать все одновременно в памяти. У нас не работает память, как работает у агентов.

13:33

Поэтому это все такой хайповый bullshit, который я вижу. Это реально не влияет на бизнес. Вы в фокусе можете, ну дай бог, две сессии одновременно запустить и переключаться между ними, но если больше, ну боже, вы какой-то просто гений, но у всей этой системы есть один огромный недостаток— это человек, тот, кто управляет этим сверху.

13:50

Поэтому давайте здесь использовать все правильно и все-таки быть больше в контексте и в фокусе, потому что пока человек управляет этим, включу слово «пока», важно делать проекты качественно, а потом не удивляться, почему получается что-то, не пойми, на что похоже.

14:03

Следующий хак— это понимание пиковых часов. Время с 15 часов до 21 часа по московскому времени в рабочие дни— это пик нагрузки на Клод.

14:13

Лимит в это время расходуется быстрее. Большие рефакторги, многоагентные сессии, сложные задачи— планируйте лучше на вечер, ночь или на утро, или на выходные.

14:21

Тот же лимит, но в принципе будет жить дольше. Итак, следующий хак— это Клод, Markdown, как живая Конституция.

14:27

Клод не помнит прошлой сессии. Каждый раз он начинает с нуля. Все, что ты объяснял вчера, придется объяснять сегодня.

14:32

И тратить токены на это снова и снова. Клод Markdown загружается автоматически в начале каждой сессии.

14:38

Что это значит? То, что записано там, Клод знает бесплатно, без твоих объяснений. Обязательно добавь в Клод Markdown всех, что не стоит объяснять дважды.

14:46

Туда только правила, которые уже стоили тебе ошибки или повторного объяснения. Одно правило, одна строка, максимум 15 слов.

14:53

У меня в Futura.ai есть строка knowledge, что нельзя трогать без синхронизации с bot.ru. Несколько раз объяснял вручную, пока не записал.

15:01

И с тех пор ни разу больше не трогал. Это не документация. Документация говорит, как устроен проект. Это конституция, основа, правила, которые нельзя нарушать.

15:10

Кот их читает, запоминает, больше не ломает. Одно условие— не давать секции разрастаться. Длинный список, и это уже хак 10, но наоборот.

15:18

А теперь бонусы. Шесть бонусных хаков, которых нет в каких-либо гайдах, и я думаю, они вам еще больше помогут сэкономить на токенах.

15:27

Бонус один. Cloud Ignore. Работает как Git Ignore. Перечисляет, что клад не должен читать при исследовании проекта.

15:33

Not Models, файлы с форматом env, log файлы, файлы сборки— это все, что может идти в контекст и тихо тратить ваши токены.

15:39

Если вы сделаете один файл Cloud Ignore в корне, больше такого не будет происходить. Следующий бонус— это иерархия Cloud Markdown.

15:45

Код считает три уровня. Глобальный, Проектные и файлы в поддиректориях. Глобальный— это личный стиль кода, то, что одинаково везде.

15:53

Проектные— это архитектура вашего проекта. Поддиректория— это правила конкретного модуля. Здесь важно не делать никакого дублирования.

15:59

Каждый файл должен быть небольшим и все должно читаться автоматически. Следующий бонус— это контроль Extended Thinking.

16:07

По умолчанию Extended Thinking выделяет 31999 токенов на обдумывание каждого запроса. Незаметно, и так происходит каждый раз.

16:14

Для большинства задач хватает 10000, минус 70% скрытых токенов за запрос. Настраиваться в конфигурации запроса.

16:21

Если используешь Клод через API, это прямая экономия на каждом вызове. То, как это настраивается, вы сейчас можете увидеть у себя на экране.

16:28

Делайте скрин. Следующий бонус – это памятник сессии. После сброса сессии Клод забывает все, что ты ему объяснял.

16:34

Каждый раз, кто ты, как устроена система, что уже пробовали. Это 1000 токенов в каждой новой сессии, просто навод контекста.

16:40

Решение здесь на самом деле простое— это файл Memory Markdown в корне проекта с разделами архитектуры системы, паттерны, которые работают, паттерны, которые не работают, пути к ключевым файлам.

16:50

Новая сессия начинается с чтения данного файла, не с объяснений. Для более сложных систем— SQLite для коротких фактов, Obsidian, о котором я уже рассказывал, или Agent Memory Markdown для долгосрочного контекста.

17:02

Суть одна— знания хранятся вне чата, а не в нем. Пятый бонус— это делегировать рутину во внешний сервис, в данном случае в N8M.

17:09

Клод не должен вас ждать. Например, поанализировать YouTube-видео. Что делает Клод? Скачивает, транскрибирует, анализирует, сохраняет.

17:17

Сессия занимает 5-10 минут, токены дут в том числе, пока он просто ждет ответа от внешнего API. Линейные какие-либо задачи лучше выносите в n8n или любую другую автоматизацию.

17:26

Клод дает команду через Webhook. Сервис выполняет, возвращает результат. Сессия закрыта, токены не капают.

17:33

У меня на Perfuture AI так работает анализ диалогов. Клод формулирует, что проанализировать, n8n тянет разговор, обрабатывает, вкладывает результат в файлы.

17:40

Клод считает готовое. Затраты на ожидания абсолютной ноль. Данный хак я нашел на просторах x. Это шестой бонусный хак.

17:47

Caveman-Клод, минимальный вывод. То есть здесь смысл в том, чтобы превратить Клода в пещерного человека, который отвечает односложно.

17:54

И все хаки до этого, они были про входные токены, про то, что ты отправляешь клоду, но он еще и отвечает.

18:00

И эти ответы тоже оседают в истории и перечитываются каждым следующим сообщением. По умолчанию клод отвечает очень длинно, типа «я был бы рад вам ответить», «давайте я, пожалуйста, поищу для вас сети» и так далее.

18:12

То есть он тратит на это множество токенов просто на нарратив, не на результат. Но если вы в CloudMD сделаете всего лишь одну строку, где напишите output style и скажете no preamble, tool result first, no explanation of action, stop, то после этого он начнет говорить максимально сложно.

18:32

И на реальных тестах человек VX написал, что минус 50-75 выходных токенов на использование таких сообщений.

18:41

И важно, что это работает только на исходящих сообщениях. Когда Клод описывает, что он делает, на задачах, где он пишет большой кусок кода или анализирует, экономия будет, конечно, скромнее.

18:51

Но если работаешь с агентами и много исходящих вызовов, это будет чувствоваться ощутимо, и это, наверное, самый необычный хак, который можно только представить.

18:59

Ну что, финал. Большинству на самом деле не нужен план дороже. Им нужно просто присылать историю переписки 30 раз там, где можно было присылать ее 5 раз.

19:08

И это не проблема лимитов, это просто проблема контекстной гигиены и правил. Если ты сделаешь все правильно, то уже сейчас просто открой любую активную сессию и запусти команду «Контекст».

19:20

Посмотри, что там. И это покажет, куда уходят твои токены и что можно улучшить. На этом все. Напишите в комментариях какой хак был для вас наиболее неочевидным, что из этого уже используете, что уже работает.

19:34

Ставьте лайки, подписывайтесь на канал и до следующего видео. Всем пока.

DESBLOQUEAR MÁS

Regístrate gratis para acceder a funciones premium

VISOR INTERACTIVO

Mira el video con subtítulos sincronizados, superposición ajustable y control total de la reproducción.

REGÍSTRATE GRATIS PARA DESBLOQUEAR

RESUMEN DE IA

Obtén un resumen instantáneo generado por IA del contenido del video, los puntos clave y las conclusiones.

REGÍSTRATE GRATIS PARA DESBLOQUEAR

TRADUCIR

Traduce la transcripción a más de 100 idiomas con un solo clic. Descarga en cualquier formato.

REGÍSTRATE GRATIS PARA DESBLOQUEAR

MAPA MENTAL

Visualiza la transcripción como un mapa mental interactivo. Comprende la estructura de un vistazo.

REGÍSTRATE GRATIS PARA DESBLOQUEAR

CHATEA CON LA TRANSCRIPCIÓN

Haz preguntas sobre el contenido del video. Obtén respuestas impulsadas por IA directamente desde la transcripción.

REGÍSTRATE GRATIS PARA DESBLOQUEAR

SACA MÁS PARTIDO A TUS TRANSCRIPCIONES

Regístrate gratis y desbloquea el visor interactivo, los resúmenes de IA, las traducciones, los mapas mentales y mucho más. No se requiere tarjeta de crédito.

    24 способа сэко… - Transcripción Completa | YouTubeTranscript.dev