Dipol FM | 105,6 fm
88.76
96.69

Центрам обработки данных угрожает закон Мерфи

О том, как невнимательность и беспечность становятся причинами выхода из строя ЦОДов  во всем мире, рассказал системный инженер APC.

_В 50-х годах прошлого столетия американский капитан Эдвард Мерфи сформулировал знаменитый философский закон, согласно которому из двух вариантов, правильного и неправильного, кто-то обязательно выберет приводящий к катастрофе. Чрезвычайные ситуации по вине человека возникают и по сей день. О том, как невнимательность и беспечность становятся причинами выхода из строя центров обработки данных во всем мире, рассказал на шестнадцатой конференции «Арсенал +» системный инженер APC Сергей Пахомов._

Почему падают ЦОДы
==================

Центры обработки данных (ЦОД) — это сердце любой информационной системы. Проще всего можно описать его следующим образом: как правило, большое темное помещение со сложной системой поддержания температуры, в котором установлены металлические шкафы с серверами, обрабатывающие поступающую на них информацию со всей подключенной сети. В Тюмени, к примеру, два крупнейших ЦОДа (один из них резервный) обслуживают правительственные информационные системы и обеспечивают оказание электронных госуслуг.

«Информации по центрам обработки данных в России, несмотря на то, что их достаточно много, практически нет в свободном доступе. Ситуация напоминает знаменитое изображение с тремя обезьянами: ничего не слышал, не видел и не скажу. А вот по западным ЦОДам все с точностью до наоборот. Есть примеры успешных и не очень успешных решений», — отметил в начале своего выступления инженер APC.

ЦОДы периодически падают, то есть выходят из строя, и от этого никуда не деться. Почему это происходит? «Первоочередной виновник — человеческий фактор. Вторая причина — наше любимое русское авось, — уверен Сергей Пахомов. — По проекту кондиционер должен висеть здесь, но легче его повесить на пять сантиметров левее и ниже, авось ничего не случится».

На всякий случай многие компании имеют такой документ как DRP, Disaster Recovery Plan, план аварийного восстановления. Он отвечает на важнейший вопрос: что мы будем делать, если что-то случится? «Но даже наличие красивого и большого, но слегка неактуального DRP приводит к тому, что в случае возникновения реального происшествия никто не знает, что делать», — подчеркнул инженер.

Чтобы проиллюстрировать это, представитель компании, которая долгие годы создавала источники бесперебойного питания (теперь бренд APC принадлежит Schneider Electric), рассказал о нескольких интереснейших случаях, происшедших в разное время в российских и зарубежных ЦОДах.

Смех и грех
===========

Центр обработки данных известной компании Amazon был укомплектован самым современным и производительным оборудованием и стоил миллионы. Но вот за одновременное включение генераторов в случае, если внешний источник энергии вдруг пропадет, отвечала одна маленькая плата стоимостью меньше сотни долларов.

Эта единственная точка отказа вышла из строя и не дала синхронно запуститься генераторам, когда выключилось электричество. В результате пользователи остались без сервиса на продолжительное время, описал события докладчик.

Компания Amazon вынесла урок из этой истории и поставила сразу несколько таких плат. На всякий случай. «Если цена простоя бизнеса велика, нужно избавляться от единственных точек отказа и постоянно проводить анализ состояния инфраструктуры ЦОДа», — уверен Сергей Пахомов.

Вторая история приключилась с московским поставщиком услуг DataLine. «Для данной компании сдача своих мощностей в аренду является основным бизнесом, — подчеркнул инженер. — В 2010 году в Москве случился серьезный ураган, в результате которого металлическими конструкциями, упавшими с соседней крыши, разрушило систему охлаждения ЦОДа, и он вышел из строя».

Центрам обработки данных угрожает закон Мерфи
_Фото с сайта telecombloger.ru_

Несмотря на высокую отказоустойчивость и хорошие показатели самого ЦОДа, никто не ожидал падающих с неба металлических балок.

Третий пример относится к центру обработки данных, расположенном в Австралии. Внезапно в этой, прямо скажем, не самой холодной стране началось лето. ЦОД работал несколько лет и все было хорошо, но в этом сезоне установилась температура воздуха выше, чем во все предыдущие годы. В результате не выдержала система охлаждения, один за другим начали отказывать кондиционеры.

«Не только в Австралии бывает 40 градусов. У нас тоже бывает жарко, я думаю, что раз в сезон такая температура может установиться и в Тюмени. Поэтому когда мы проектируем ЦОД, то должны ориентироваться на метеоданные за последние 10-15 лет, не меньше», — заметил выступающий.

Центрам обработки данных угрожает закон Мерфи

Классический русский пример — в ЦОДе компании «Уралсвязьинформ» однажды прорвало трубу отопления. Вообще, труба была этажом выше, но суть в том, что без связи остались сотни банкоматов, отделений банков и около 200 тыс. клиентов.

А в одну из неназванных российских компаний коллега выступающего как-то поставлял оборудование. Руководство фирмы решило сэкономить на внешнем байпасе (устройство обхода в электрической цепи) и сделать его собственными силами. В процессе проектирования работники забыли подключить два маленьких сигнальных кабеля. Когда источник бесперебойного питания перевели из рабочего режима в байпас, все сгорело. Сомнительная получилась экономия. «Этот урок учит нас вводить в план проверочных мероприятий проверку «на дурака», — пошутил Пахомов.

Есть такой фразеологизм «идеальный шторм». Он означает ситуацию, которая возникла из-за сложения редких неблагоприятных факторов, в результате которых суммарный разрушительный эффект резко вырос. Такой шторм однажды приключился в Google.

«Отказали внешние поставщики электроэнергии. — описал события инженер APC, — Затем, при переходе на дизельные генераторные установки, отказали и они. Сотрудники компании открыли DRP, но оказалось, что кнопки, которая в нем описана, просто нет. А рубильник и так переведен в предписываемое положение. В общем, в плане восстановления была как минимум двухлетняя задержка».

Ну и напоследок эксперт рассказал о ЧС, случившейся однажды в ЦОДе британского телекоммуникационного оператора British Telecom. «ЦОД этой компании находился на шестом этаже. В здании начался пожар, в ЦОДе возникли проблемы с сетью. Когда ремонтники приехали его чинить, их туда просто не пустили. А с удаленным управлением были проблемы, можно было что-то изменить только непосредственно из консоли управления в ЦОДе. На несколько часов сеть отпала у всех абонентов», — описал стечение непредвиденных обстоятельств Сергей Пахомов.

Что же делать? Эксперт уверен, полностью исключить все факторы никогда не удастся. Но лучше бы владельцам ЦОДов периодически проводить их аудит, искать точки отказа и пути оптимизации. Только так можно составить внятный план действий в чрезвычайной ситуации.

Справка

_Шестнадцатая ежегодная осенняя конференция «Арсенал +» проводится для руководителей и экспертов IT-отрасли. С докладами по последним предложениям и решениям выступают ведущие вендоры. В этом году она была посвящена оптимизации расходов, в связи с урезанием бюджетов на IT в российских компаниях._

Неудобно на сайте? Читайте самое интересное в Telegram и самое полезное в Vk.
Последние новости
Украли велосипед: что делать в первую очередь
Украли велосипед: что делать в первую очередь
Предлагаем подробное руководство по поиску двухколесного друга.
#новости Тюмени
#инструкции
#велосипед
#кража
#тк
В Тюменской области каждую шестую аварию совершают водители из других регионов
В Тюменской области каждую шестую аварию совершают водители из других регионов
Каждый третий из погибших в тюменских ДТП - на их совести.
#новости Тюмени
#ДТП
#аварии
#транзит
#тк
Тюменца в сороковой раз поймали на незаконной тонировке
Тюменца в сороковой раз поймали на незаконной тонировке
За один день в регионе остановили 12 пьяных водителей.
#новости Тюмени6 тонировка
#Госавтоинспекция
#тк
«Это опыт»: психолог из Тюмени рассказала, как родителям реагировать на плохую отметку по ЕГЭ
«Это опыт»: психолог из Тюмени рассказала, как родителям реагировать на плохую отметку по ЕГЭ
Дети переживают в этот момент большой стресс.
#новости Тюмени
#психология
#ЕГЭ
#родители
#тк
Эксперт по кибербезопасности рассказал, подслушивает ли своих хозяев «умная техника»
Эксперт по кибербезопасности рассказал, подслушивает ли своих хозяев «умная техника»
Он посоветовал не вести при ней конфиденциальных разговоров.
#умная техника
#кибербезопасность
#тк
#технологии