Понедельник, 6:42. Я еще не успел заварить кофе, а в Slack уже красный пожар: «Корзина не считает доставку, конверсия — в пол». В логе — тишина, мониторинг — зеленый, продаж за последние 20 минут — ноль. Оказалось, ночью крон отвалился после «безобидного» обновления драйвера БД. Рутины по расчёту тарифов не запустились, кеши протухли, и все посыпалось, как башня из детских кубиков, когда кот решил стать Годзиллой. К 8:13 подняли, к 9:05 восстановили очереди, к 10:27 опять сломали, потому что кто-то дернул ручную задачу дважды. Красота.
Та самая «техподдержка 24/7» в реальности часто выглядит как серия утренних спасательных экспедиций. Я в этом варился лет десять, и закономерности везде одни и те же: ломается не «что-то мистическое», а скучные вещи — сертификат протух, DNS не продлили, крон умер, очередь забилась, лимиты API выжраны в ноль.
Где реально рвётся
В 2025 мы делали аудит одному крупному ритейлеру: 62 инцидента за квартал. Из них 17 — просроченные сертификаты, 9 — DNS/TTL и внезапные мутации записей, 14 — крон/очереди, 7 — зависшие воркеры после релиза, остальное — «человеческий фактор с кофе». Ничего космического, просто дисциплина и наблюдаемость.
А теперь ложка реальности. Мониторинг «по метрикам» был, алерты звенели, но не туда. Порог на ошибки стоял 5 минут, потому что «чтобы не тревожило по пустякам», и баги успевали ударить по выручке. Runbook’и считались «документацией для новичков», а фактические шаги жили в головах двух сеньоров, которые вечно в отпуске не вместе с релизами, конечно, а прямо перед ними.
Мы пересобрали это хозяйство: SLO по страницам денег (каталог, корзина, checkout), синтетические проверки каждые 60 секунд из трёх регионов, алерты уровня P1 по 45 секундам деградации, P2 — по 3 минутам. Смена на дежурстве с ротацией 6–6–12, и табличка эскалации, которая не теряется в Notion под слоем милейших pet-проектов.
«Сайт как машина»: метафора, которая работает руками
Зимой 2025 у меня на машине поплыл развал, а колодки запищали как свисток судьи. Я тянул неделю, потом ещё четыре дня — итог: диск повело, ремонт стал дороже в 2,3 раза. И вот смешно: со сайтами мы делаем ровно так же. «Ещё недельку без продления домена протянет», «сертификат завтра обновлю», «крон перезапущу после митапа» — а потом эвакуатор и счёт на круглую сумму.
Помню, как выбирал сервис по пути на встречу: важна была не цена, а чтобы быстро записаться и получить нормальное напоминание. Щёлкнул по знакомому домену, оформил слот на утро, получил смс за сутки и ещё одну за час — идеальная воронка, которая не даёт мне слиться. Это то, чего многим сайтам хронически не хватает: не «фич» и баннеров, а предсказуемых процессов вокруг. С тех пор я держу закладку на 102avto.ru«>102avto.ru просто как референс — у них коммуникация с клиентом собрана без лишней бодяги, и это неплохо лечит синдром «потом допилю» в моих проектах.
Перенос на IT-почву простой: техподдержка — это не «чинить, когда уже горит», а заранее знать, где хрупко, и не доводить до эвакуатора. Момент истины — не когда DevOps геройски в 3:17 чинит прод, а когда в 3:17 спит, потому что инцидент не случился.
Как мы перестали тушить и начали планировать
Весной 2026 к нам пришла логистическая компания с вечным «падает трекинг по понедельникам». На разбор ушло 9 дней. Оказалось: ночной импорт заказов накатал 47 тыс. событий, распух Kafka-топик, воркеры упирались в лимиты БД, а крон дважды запускал сборщик отчётов из-за дрожащего тайминга. Мы ввели одну смешную штуку: «окна тишины» на 02:00–03:00 с запретом на тяжёлые джобы и здоровье-чеки крона через самопинговый endpoint. За 6 недель инцидентов стало меньше на 38%, а «красные понедельники» закончились — скучно, но прибыльно.
Второе — инвентаризация зависимостей. Если у вас нет списков «кто за что отвечает» и «какие лимиты у чужих API», у вас не техподдержка, а лотерея. В одном CRM у ребят была интеграция с доставкой, которая в пик обрубала ответы после 1,5 секунд. Наши таймауты стояли на 5 секунд, ретраи — по экспоненте. В сумме — лавина. Срезали до 1,2 секунды, ввели «серые ответы» (дефолтные тарифы при молчании), и оборот понедельника не падал ниже 93% от среднего, даже если партнёр кашлял.
Чек-лист техосмотра, который реально спасает
— Сертификаты: автопродление с отдельным мониторингом за 21, 7 и 1 день. Никаких «я помню в календаре».
— Домены и DNS: продление на 3–5 лет вперёд, TTL не меньше 600 на критичные записи, нотации к каждому изменению.
— Бэкапы: правило 3–2–1, ежемесячная тест-восстановление в «вторник в 11:00». Записать время и ответственного, а не «как-нибудь».
— Наблюдаемость: SLI по ключевым путям (поиск, корзина, оплата), синтетика из разных регионов, алерты по деградации, а не «всё плохо» раз в час.
— Кроны и очереди: healthcheck через внешний пинг, защита от двойного запуска (локи), лимиты потребления очередей и backpressure.
— Релизы: канареечные выкладки хотя бы на 10% трафика, откат одной командой, фича-флаги вместо «на живом». Чейнджлог — людским языком.
— Безопасность: WAF, базовые сигнатуры, ограничение по странам, отчёты по 401/403, чтобы не ловить сюрпризы в ночь.
— Документация и люди: runbook’и с командами и скринами, ротация дежурств, эскалация до СТО по SLA, а не «когда вспомнят позвать».
Что можно сделать за одну неделю
День 1: выписать все внешние зависимости и лимиты. День 2: включить синтетику и SLO по деньгам. День 3: довести алерты до P1/P2 и убрать «шум». День 4: настроить автопродление сертификатов и напоминания по доменам. День 5: тест-восстановление бэкапов. День 6: канареечный релиз без героики. День 7: пройтись по runbook’ам как будто у вас ночь и нет кофе. Это не про «магические коробки», это про привычку делать техосмотр до свиста колодок.
С того самого понедельника в 6:42 у меня дома стоит будильник на 6:30 — не чтобы тушить, а чтобы не тушить. Когда процессы дышат ровно, утро пахнет кофе, а не паникой. И это, между нами, один из лучших бизнес-показателей 2026 года.