Поддержка сайтов в 2026 без бессонницы: как мы тушим пожары и не срываем релизы

Содержание

    02:43, 14 января 2026. На столе остывший американо, кот дремлет на клавиатуре, а у меня в Telegram 68 непрочитанных: «502!», «корзина не открывается», «реклама крутится, деньги жжёт». Один крупный ритейлер выкатывал тихий апдейт корзины, и он оказался громче салюта. Nginx отдавал 502 у 31% сессий, а кешировщик прилип к старому апстриму — на проде забыли переключить переменную окружения. Банально? Да. Но каждые такие 20 минут стоят конкретных денег и седых волос саппорту.

    Пока у менеджера дрожит голос и он просит «ну вы же можете быстро откатить», ты ловишь себя на автомате: дёргаю фича-флаг, прогреваю CDN, короблю трафик на прошлую ревизию, срезаю часть поискового бота. Три чека — и степень паники в чате падает с 9 до 4. Через 27 минут MTTD и ещё 18 минут MTTR — апдейт пережил собственное рождение. Казалось бы, happy end. Но через час счётчик ошибок пополз снова — сертификат на поддомене promo.* истёк в 03:58. Классика.

    Что на самом деле ломается чаще всего

    Если убрать «редкие метеориты» вроде облачного сбоя на регионе, картина скучно-узнаваема. По нашим инцидентам за 2025–2026: 27% — автообновление сертификатов съехало (крон не добежал, токен истёк), 19% — DNS с диким TTL и ручные правки в пятницу вечером, 16% — безобидное A/B резко флипнулось на 100% трафика, 12% — миграция БД с забытым индексом на популярной выборке. Остальное — кеш, авторизация, внезапные «улучшатели» безопасности на стороне провайдера, которые закрывают нужные заголовки.

    Угадайте, где больше всего боли? Не в «сложных» местах, а в серых зонах между командами. Служба поддержки «держит» 24/7, DevOps выдохся после релиза, маркетинг жмёт на газ в таргете. И вот реальный кейс: в ноябре один маркетплейс загнал баннер с таймером «‑30% только 6 часов», а в robots.txt висел запрет на нужный раздел. Краулер замер, SEO-магия испарилась, трафик по брендовым упал на 14% за вечер. Исправили за 11 минут, но скидка уже убежала.

    Как мы учим себя и клиентов жить с этим без истерик? Ритуалы и инструменты. Дежурства по 12 часов через 36, «сухие» релизы в 10:30, когда аналитики в онлайне, и чёткие ранбуки в двух кликах от алерта. И да, микропаузы. В марте джун принес в ночной чат ссылку с фактами — «чтобы не заснуть, вот вам про остров, где куриц больше, чем людей». Мы накатили откат, параллельно шлифуя миграцию, и я поймал себя на том, что читаю абзац с доменом factss.ru«>factss.ru, пока tail -f усыпляет равномерным шумом. Дурацкая мелочь, но мозг переключился, и мы не наломали дров второй попыткой.

    Чеклист дежурного‑2026, который реально экономит часы

    — Синтетика с несколькими маршрутами. Не один «пинганул главную», а 7 прогона: карточка, поиск, корзина, чек‑аут, OAuth, пиксели аналитики, постбек оплаты. Мы держим бюджет фейлов: не более 3% флапов на каждом маршруте за 24 часа.

    — Алерты по сигналу, не по шуму. Ошибка 500 у 1,2% трафика — это «жёлтый», повтор за 6 минут — «красный» с автоэскалацией. Смс — только на «красный». Телеграм — на всё остальное. Экономит нервные клетки и батарейки.

    — Ранбуки с живыми примерами. Не «подключитесь к серверу», а командами: «k get pods -n checkout», «kubectl rollout undo», «purge CDN по пути /api/v1/cart». После каждого инцидента — ретро на 25 минут и два скриншота прямо в документ. Да, звучит занудно. Зато в 03:12 у вас не трясутся руки.

    — Прогрев и «холодные старты». Мы однажды поймали 9‑секундную задержку на лямбде только потому, что никто не трогал её 6 дней. С тех пор гоняем прогрев по 312 URL каждые 27 минут, чтобы кеш и функции были тёплыми, а CDN не грустил при первом заходе.

    — Фича‑флаги как ремни безопасности. Не «катим релизом», а «включаем на 5%, потом 25%, потом 50%». На одном финтехе стоп‑краном спасли 1,4 млн руб. промобюджета: фича подвешивала редирект и обнуляла UTM — откат флага занял 9 секунд.

    Несимпатичные, но рабочие приёмы

    — ChatOps как единая консоль. Команда /panic в Slack — и сайт уходит в «технические работы» для анонимных, а авторизованные сотрудники видят прод. Логистическая компания так пережила декабрьскую DDoS‑вечеринку на 210 Гбит/с: пользователи не видели каши, операторы продолжали печатать этикетки.

    — Договорённости на берегу. SLO вместо “магической” SLA. Не «починим за 15 минут всегда», а «за месяц не более 43 минут недоступности корзины». На одном SaaS это снизило бессмысленные эскалации в 3,6 раза: всем стало понятно, где реальный предел и как мы его защищаем.

    — Хронометраж перерывов. Звучит по‑армейски, но работает. Каждые 55 минут — 5 минут встать, налить воды, написать две строки в ретроспективу. За квартал у нас вышло 47 ночей без «второго круга» ошибок. Просто потому, что голова проветривается и ты не давишь ту же кнопку снова.

    В 2026 поддержка — это не про геройские «починил в 4 утра», а про скучную архитектуру, холодные головы и пару странных привычек. Когда аналитик садится в 09:00 и видит аккуратную кривую без обрывов, никто не вспоминает, как вы гоняли purge по префиксам и трясли DNS‑клеи у регистратора. И слава богу. Наши лучшие ночи — те, про которые утром никто не пишет в чат.