Искусство предвидения нештатных ситуаций в инженерной структуре ЦОДа

Искусство предвидения нештатных ситуаций в инженерной структуре ЦОДа

Работа центра обработки данных постоянно сопровождается ни на секунду не прекращающимся сбором данных о технических показателях всего «обслуживающего» оборудования (источников бесперебойного электропитания, дизель-генераторных установок (ДГУ), кондиционеров, камер видеонаблюдения, электрораспределительных щитов и шкафов), температуре в серверных стойках, характеристиках атмосферы в машинных залах (влажность, задымление), на основе которых вырабатываются команды управления на системы, «отвечающие» за поддержание требуемых по техническим условиям эксплуатации ЦОДа параметров.


На первый взгляд может показаться, что объем этой информации не так уж велик, но пример ЦОДа, в котором работают полсотни серверных стоек, убеждает в обратном: для его нормального жизнеобеспечения требуется отслеживать почти 10 тыс. различных показателей (без учета параметров активной ИT-инфраструктуры в серверных стойках).

Управляющие команды генерируются в АСУ инженерной системой ЦОДа, по сути, постфактум, то есть тогда, когда нежелательное событие уже произошло - повысилась температура, влажность, появилось задымление, аккумуляторы ИБП не справляются с нагрузкой, ДГУ не включилась своевременно и т. п. Такие ситуации возможны во всех системах АСУ, созданных на основе принципов реактивного управления (а их сегодня подавляющее большинство). В принципе такой «реактивный» подход в АСУ ненамного лучше ручного управления. И превосходит он участие оператора разве что в скорости реакции на возникшую ситуацию и ее исправление. А если для устранения нежелательного явления требуются ремонтно-восстановительные работы, то человек-оператор и АСУ - равнозначны в части результатов работы: какую-то часть ЦОДа придется остановить для проведения ремонтных работ.

В соответствии с принятым сегодня «реактивным» подходом к управлению работой инженерной структуры ЦОДа, вмешиваться в ее работу нет необходимости до тех пор, пока не произошла авария, вызванная случайным стечением событий, каждое из которых в отдельности не представляет никакой опасности для функционирования оборудования. Ну и что поделать, если произошла непредсказуемая авария? - Этот вопрос становится излишним при проактивном подходе к управлению работой инженерной структуры ЦОДа. В отличие от реактивного проактивный подход заключается в создании условий для возможности «предвидения» любых нештатных ситуаций. И эти условия заключаются в следующих факторах: 1) службой эксплуатации документируются все нештатные события, произошедшие в инженерном оборудовании ЦОДа, 2) весь этот массив данных собранных (и продолжаемых собираться) за несколько лет отправляется на обработку с использованием технологии Big Data, 3) на основе результатов проведенного анализа создаются типовые сценарии проактивного управления.



При таком подходе обеспечивается возможность моделирования отказов, ошибок и аварий, которые теперь становится возможным предсказывать по незаметным доселе признакам. А значит, предпринимать превентивные меры по их исключению. Такие возможности реализованы в системе EcoStruxure, разработанной компанией Schneider Electric. Ее использование предоставляет возможность наиболее полного сбора всей статистики нештатных событий и на базе всестороннего анализа предсказывать наступление (скорое или не очень) аварий и сбоев в работе инженерного оборудования ЦОДа. А обслуживающему персоналу остается оперативно реагировать этим предсказаниям с целью недопущения неприятностей, предсказанных системой EcoStruxure. Еще больше информации по теме ЦОД ищите на сайте: http://dcnt.ru/

См. также:

Комментарии

Популярные сообщения