theholm: (Default)
[personal profile] theholm
Когда все вдруг упало, цель админа не в том что бы быстро понять что сломалось. Цель - сообразить, как все быстро починить. Виноватых можно и потом вычислить. Syslog для этого и придумали.

Это понятное каждому советскому инженеру правило похоже совершенно не известно большинству моих коллег и подчиненных. Просто какой-то глобальный пробел в образовании. Большинство моих попыток объяснить разницу между двумя подходами наталкивается на непонимание.

(no subject)

Date: 2013-05-07 06:24 am (UTC)
From: [identity profile] odmit.livejournal.com
you are trying to fight the system built not by you. Не слишком ли много сил тратишь, прогибая мир под себя? =)

(no subject)

Date: 2013-05-07 12:38 pm (UTC)
From: [identity profile] schumacher.livejournal.com
А я не согласен. Если ты быстро все починил, но не можешь сказать, почему все упало, то кто даст гарантии, что в следующий раз не упадет еще раз?

Типичный пример - зависает какое-то оборудование, перезагрузка спасает. И что каждый раз перезагружать? Не получиться.

(no subject)

Date: 2013-05-12 10:51 pm (UTC)
From: [identity profile] theholm.livejournal.com
Если что то зависает во второй раз, это не вдруг.

(no subject)

Date: 2013-05-07 02:26 pm (UTC)
From: [identity profile] furry.livejournal.com
На самом деле зависит. Проблему нужно локализовать и минимизировать эффект, но зачастую крайне желательно иметь возможность докопаться до сути проблемы - иначе есть шанс, что проблема будет повторяться вновь и вновь. Т.е. использовать production для troubleshooting'а крайне нежелательно, но иногда необходимо. И когда все упало, это как раз одно из самых критичных решений - как бы так все починить, чтобы не потерять информацию о том, что именно сломалось.

Грубо говоря, если у меня внутри маршрутизатора завелась пакетожорка - я не буду его перегружать, я уберу с него критичный трафик и буду выяснять, что там происходит.

К сожалению, ситуации, в которых syslog покажет что-то полезное - встречаются исчезающе редко.

(no subject)

Date: 2013-05-12 11:06 pm (UTC)
From: [identity profile] theholm.livejournal.com
В данном случае вопрос о сохранении состояния для анализа не стоял. Уровень дублирования в сети более чем достаточен что бы полностью изолировать заглючившую железку и перекинуть весь трафик на дублирующую. Вместо того, что бы это сделать в первую очередь, мои коллеги стали анализировать, что там именно сломалось. Я потом виновника JTAC-у на растерзание отдал, они 2 недели в нем копались.

А Syslog это образно, стандартная процедура перезагрузки после глюка включает также "show tech" и crash dumping основных процессов.

"я не буду его перегружать, я уберу с него критичный трафик" - я именно об этом.

Profile

theholm: (Default)TheHolm

February 2026

S M T W T F S
1234567
891011121314
15161718192021
22232425 262728

Style Credit

Expand Cut Tags

No cut tags
Page generated Feb. 27th, 2026 11:39 am
Powered by Dreamwidth Studios