Главная > Компьютеры > Накопители >
Жестокий мир против жестких дисков [1/2]

Жестокий мир против жестких дисков. Бои без правил

Враги жестких дисков
S.M.A.R.T. -- базовые технологии обеспечения надежности
IBM, Maxtor, Quantum, Seagate, Western Digital

"Живые и мертвые"
Надежности, как и денег, никогда не бывает слишком много. Можно долго обсуждать плоды технической мысли, однако в словосочетании "информационные технологии" второе понятие всегда подчинено первому, а информация стоила и будет стоить дороже средств ее обработки, передачи и хранения. Поэтому наряду с гонками за показателями разработчиков отдельных компонентов и устройств под олимпийским девизом "Citius--Altius--Fortius" в компьютерной индустрии существует мощное лобби, отстаивающее интересы клиентов, для которых сохранность данных, жизнестойкость информационных систем и связанной с ними основной деятельности значат больше, чем "спортивные рекорды" в производительности, емкости и мощности. В первую очередь это относится к устройствам хранения данных -- накопителям на жестких магнитных дисках. Несмотря на то что подавляющая часть публичного внимания уделяется их скоростным показателям, плотности записи, реализации передовых физических эффектов, эти достижения никак не отдаляют дня, когда по стечению обстоятельств, нелепой случайности или злому року окажется невосстановимо утраченной самая дорогая ваша информация, как назло не подвергнутая резервному копированию.
Параметром, характеризующим надежность жестких дисков, является среднее время наработки на отказ MTBF (Mean Time Between Failures). Его значение заявляется для современных устройств в пределах 300--500 тыс. ч работы для дисков EIDE и 800 тыс.--1 млн для дисков SCSI. Подобные показатели абсолютно ирреальны с точки зрения пользователей, сталкивающихся на практике с многочисленными отказами накопителей. Фактическое значение MTBF обычно в несколько (десятков) раз ниже планируемого. Отклонение реальных условий эксплуатации от "тепличных", "человеческий фактор", короткий срок жизни вследствие морального старения устройств не позволяют достичь расчетных показателей. Определенно, без нас, пользователей, им было бы лучше. Есть несколько подходов к устройствам, функционирующим до поры до времени исправно:
  • Можно ничего не предпринимать -- дождаться выхода компонента из строя и поменять его на новый, рабочий. Способ, безусловно, "экономичный", если не принимать во внимание потерю данных, времени на замену, а также убытки по причине незапланированного простоя.
  • Превентивная замена компонентов, подверженных выходу из строя. Поскольку отказы случаются не по графику, подход, хоть и уменьшает риск простоя, повышает расходы на содержание системы.
  • Использование избыточности, например двух дисков, основного и дублирующего, вместо одного. Redundant Array of Independent Disks (RAID) -- пример такого рода избыточности. Подобные дополнительные расходы не всегда соответствуют ценности информации.
  • Применение устройств, снабженных встроенной защитой от внешних воздействий и средствами анализа и профилактики внутреннего состояния. Два первых подхода не выглядят разумными, третий относится скорее к построению систем безопасного хранения данных, чем к защитным свойствам дисков. Мы же остановимся на четвертом.
Враги жестких дисков
Как любой технически сложный продукт, накопители на жестких дисках подвержены выходу из строя по внешним и внутренним причинам (последние часто являются отдаленными следствиями первых). К внешним относятся механические (удар, падение, встряска), электрические (ошибки подключения, сбои питания), плохие условия эксплуатации (температурный режим, влажность). Внутренние причины делятся на два типа. Первые, "фатальные" (on/off, "да/нет") -- выгорание микросхем управления, выход из строя контактов, внутренние разрушения компонентов. Вторые проявляются в виде постепенного ухудшения функциональных показателей диска, выхода характеристик за пределы рабочего диапазона.
Если не считать нас с вами, то, обобщая причины выхода из строя накопителей, потенциальные угрозы дискам можно объединить в категории: "врожденные пороки", "несчастные случаи" и "медленная смерть". На практике это соответствует следующему:
  • конструктивные особенности дисков и отказ компонентов;
  • нештатные внешние, в основном механические воздействия;
  • постепенное ухудшение рабочих характеристик накопителей.
"Врожденные пороки"
Каждый элемент современного жесткого диска, являющегося высокоточным механическим устройством, и система в целом обладают набором собственных частот. И любое позиционирование головок -- это сложный колебательный процесс, на продолжительность затухания которого накладываются жесткие временные ограничения. Совершенствование применяемых материалов и технологий записи/чтения увеличивает плотность данных и скоростные показатели, но одновременно повышает и требования к дизайну привода, который должен обеспечить и нормальное прохождение головок на более низкой высоте, как в дисках с GMR-головками, и корректное позиционирование, и устойчивость. Повышение плотности записи и увеличение частоты вращения диска -- взаимосвязанные проблемы и с механической точки зрения: частота собственных колебаний диска с частотой вращения 7200 об/мин на 120 Hz выше, чем у аналогичного, на 5400 об/мин, что усложняет проблему компенсации вибрации. Жесткость системы крепежа становится критичной -- собственные вибрации дисковода могут усиливаться за счет шасси. С повышением же плотности записи связана не только скорость работы, но и возможность уменьшения числа деталей (пластин, головок) при сохранении емкости накопителя. Меньше элементов -- меньше вибрация -- меньше тепловыделение -- меньше риск выхода из строя. Для накопителей SCSI, часто используемых в дисковых массивах, критичен и такой параметр, как форм-фактор, поскольку лучшая вентиляция обеспечивается в массиве из низкопрофильных накопителей. Уменьшение количества компонентов в электронике диска также снижает риск выхода накопителя из строя.

"Несчастные случаи"
Повышенная "смертность" электрической природы связана с тем, что ни сеть 220 В, ни большинство используемых в компьютерах безродных блоков питания не оберегают диски от импульсных помех. Как правило, разработчики накопителей допускают в спецификациях 5%-ный разброс питающих напряжений. Диски испытываются на выживаемость и при больших отклонениях от номинала, однако всему есть разумный предел. Поэтому работа в сетях с бросками напряжения, с конструктивно упрощенными источниками питания, разъемами, не обеспечивающими надежный контакт, дискам противопоказана. Иначе однажды лязг и стук внутри диска могут доложить о скоропостижной его кончине в расцвете сил.
Что до механических воздействий, то жесткие диски проектируются достаточно устойчивыми по отношению к внешним нагрузкам. Но не к ударам, когда на диск приходится нагрузка в сотни g, даже если это длится доли миллисекунд. Есть три способа избежать механических повреждений дисков -- обучить персонал (что нереально, поскольку не более 70% всех жестких дисков в мире устанавливаются в пределах OEM-производств), обеспечить им постоянную защиту (что выходит за рамки разумной стоимости и возможных размеров защитного устройства) и наделить диски способностью противостоять определенным типам ударов с минимальными последствиями.
Внешние механические нагрузки, ударные или вибрационные, жесткие диски испытывают как во время своей работы (operational), так и в нерабочем состоянии (non-operational). Плохая транспортировка, падения, удары при установке в корпус (non-operational воздействия) составляют абсолютное большинство "травматических" случаев. Последствия их чаще всего бывают отдаленными. Самым распространенным повреждением является падение головок на диск, или шлепок ("head slap") в результате удара, еще до установки жесткого диска в компьютер. Кроме дефекта самих головок, их падение разрушает участок магнитного слоя, миниатюрный, но вполне достаточный для того, чтобы быть источником загрязнения рабочей зоны диска. Такие падения происходят обычно в зоне парковки головок, но впоследствии разнос магнитных частиц по всей камере может стать причиной дефектов областей с пользовательскими данными.

Рис. 1

Кроме того, считывающие MR- и GMR-головки современных дисков работают на эффекте изменения сопротивления материала головки в присутствии магнитного поля. При контакте головки с любыми микрочастицами или касании поверхности элемент чтения мгновенно нагревается (эффект "thermal asperity"). Изменения температуры отражаются на сопротивлении пленки, и сигнал, выдаваемый в канал чтения, настолько искажает реальную картину, что головка временно теряет способность адекватно реагировать на присутствие магнитного поля и вычитывать данные с рабочей поверхности.
В спецификациях жестких дисков содержится параметр стойкости к нагрузкам в обоих состояниях -- рабочем (порядка нескольких десятков g) и нерабочем (до 250--300 g). Кроме значения нагрузки, обычно указывается длительность ее приложения в миллисекундах. Иногда рассматривают несколько параметров, характеризующих отдельно нагрузки осевые, или линейные, и вибрационные, или синусоидальные. Практика показывает, что все эти параметры, являющиеся результатами стендовых испытаний разработчиков, примерно в той же степени характеризуют надежность дисков, как и MTBF.

"Медленная смерть"
Аналогия с Boeing-747, летящим на крейсерской скорости над самой землей, часто используется для описания прохождения головки над поверхностью диска. Любой их контакт почти так же губителен, как и касание лайнера земли в такой ситуации. В современных накопителях "высота полета" становится все меньше -- использование MR- и особенно GMR-эффекта сделало головки более чувствительными к магнитному полю и позволило, приблизив их к поверхности, увеличить плотность записи данных. С другой стороны, снижение головок повышает вероятность контакта с поверхностью.
Другим фактором, вызывающим постепенное умирание дисков, является нарушение температурного режима эксплуатации. Типичная зависимость снижения надежности при отклонении температуры от эталона показана на рис. 2. Каждый дополнительный градус свыше рекомендованного уровня температуры увеличивает частоту появления ошибок диска на 2--3%. Причиной перегрева могут быть плохая вентиляция корпуса, избыточное количество работающих накопителей, засорение воздушного фильтра диска.
Процессы вынужденного старения накопителей происходят постепенно и скрыто. Способ сохранения контроля над состоянием дисков и записанных на них данных один: периодическое измерение физических параметров, характеризующих функциональное состояние конструктивных компонентов диска. Иначе говоря, мониторинг.

Рис. 2

S.M.A.R.T. -- базовые технологии обеспечения надежности
Согласно технологии S.M.A.R.T. любое устройство в компьютере, снабженное управляющей электроникой, может сообщать о своем состоянии и упреждать фатальные сбои. В применении к жестким дискам это означает, что и хост-система, и диск могут быть снабжены микрокодом, позволяющим сообщать пользователю о потенциальных проблемах.
S.M.A.R.T. и все последующие расширения этой технологии являются средствами сугубо "индивидуальной защиты" жестких дисков. Базовые возможности S.M.A.R.T. используются в накопителях всех без исключения разработчиков. Ведущие же производители отличаются творческим подходом к дополнению S.M.A.R.T. и оснащению своих продуктов развитыми средствами "противления злу насилием".

IBM
Технологический лидер в области разработок жестких дисков успешно совершенствует накопители трех основных направлений -- для серверов, настольных и мобильных систем. Соответственно и в технологиях обеспечения надежности у IBM самый "толстый" пакет внедрений:
  • Система защиты от вибраций TrueTrack Servo.
  • Система предсказания сбоев Predictive Failure Analysis.
  • Система термоконтроля Drive Temperature Indicator Processor (Drive TIP).
  • Контроль состояния диска Drive Fitness Test.
TrueTrack Servo адресована проблеме возникновения ошибок вследствие собственной вибрации диска, усугубляющейся для накопителей с частотой вращения 7200 и 10000 об/мин. Патентованная сервотехнология предотвращает уход головок от дорожек из-за вибрации и смещения дисков. Применяемый фильтр подавляет пики в системе управления сервоприводом, а его адаптивная структура позволяет в процессе работы калибровать параметры компенсации ухода без влияния на скорость работы. Сервотехнология TrueTrack используется в дисках для настольных и серверных систем серий Deskstar 16GP, 25GP, 14GXP, 22GXP и Ultrastar 9ES, 18ES.
Predictive Failure Analysis (PFA) -- технология отслеживания процесса постепенной деградации диска, позволяющая заранее предсказать наступление аварийных ситуаций. В режиме реального времени отслеживаются рабочие параметры компонентов и сравниваются с заданными пороговыми значениями. Те, в свою очередь, определяются по результатам "истории болезни" предшественников.
Мониторинг состояния диска осуществляется методом прямых измерений в реальном времени характеристик компонентов (Measurement-driven) и методом косвенных выводов с анализом предварительно накопленной информации об ошибках диска (Symptom-driven). Процесс измерений включает периодическую проверку магнитного поля головок, поверхности, высоты прохождения головок, когерентности и амплитуды сигнала, канального шума и т. д. Часть PFA, работающая с "симптоматикой", использует регистрационные записи обо всех ошибках, которые накапливаются в отчете error log. Анализ отчета выполняется периодически, когда диск работает в режиме холостого хода. При выходе любого из параметров за пороговое значение PFA уведомляет систему о возможности аварийной ситуации. Как правило, это происходит минимум за сутки до ее наступления. В случае с мониторингом высоты полета головок среднее время предупреждения о преодолении ее безопасного нижнего порога составляет порядка 10 дней. Отслеживание параметра высоты головок над поверхностью реализовано во всех дисках семейства Ultrastar.
Температурный контроль с помощью Drive TIP внедрен IBM в серверные диски серий Ultrastar 9LP, 18XP и 9ZX. Термосенсоры в рабочей зоне диска, рядом с кожухом двигателя, уведомляют систему о выходе рабочей температуры за предписанные пределы. Микропроцессор диска считывает температуру с переменным интервалом времени, чем выше температура -- тем чаще. Полученный отчет записывается на служебных дорожках диска, а обратный анализ позволяет восстановить хронологию событий, повлекших за собой отказ устройства. В сочетании с PFA термоконтроль Drive TIP является визитной карточкой семейства дисков Ultrastar.
Система диагностики Drive Fitness Test (DFT) реализована в наиболее массовых продуктах IBM -- дисках для настольных систем и ноутбуков. Это надстройка над стандартными S.M.A.R.T.-средствами определения внутреннего состояния диска, выдающая пользователю отчет-прогноз в доступной форме. По мнению IBM, около 80% жестких дисков, возвращаемых по гарантии, не содержат дефектов. Неправильная трактовка пользователями сообщений об ошибках в системе и "обвинение" в этом дисков влекут за собой ненужную замену диска, дополнительные расходы в цепочке производитель--OEM--покупатель, потери времени и репутации. DFT играет роль терапевтического средства, распространяемого вместе с диском, которое легко может быть применено пользователем, самостоятельно или после консультации со службой технической поддержки. Процесс принятия решения о состоянии диска автоматизирован и лишен субъективности.

Рис. 3

Maxtor
Maxtor не делает диски для серверов и ноутбуков, но является одним из фаворитов крупных OEM-производителей настольных систем благодаря высоким показателям производительности и надежности своих EIDE-продуктов. Применяемые средства защиты и профилактики:
  • Технология защиты от ударов ShockBlock.
  • Система диагностики MaxSafe
Исследования типов ударных нагрузок, впоследствии приводящих к выходу дисков из строя, подтвердили, что падение головок на поверхность в зоне парковки вызывает большинство проблем в будущем. Принцип работы ShockBlock основан на двух подходах. Первый препятствует вертикальному перемещению головок при ударах, второй -- уменьшает возможный ущерб, если это все-таки происходит.
Инженерами Maxtor был изменен дизайн подвески головок, что само по себе вдвое повысило ударостойкость дисков при их установке. На 25% повышена жесткость микросборки головок Head Disk Assembly (HDA), их конструкция в большей степени способствует распределению нагрузки по всему механизму. На 40% была уменьшена масса блока головок, что понизило подверженность резонансу и разрушающую способность при столкновении головок с поверхностью. Для случаев, когда контакта с поверхностью избежать не удается, подстройка расположения головок на позиционере позволила добиться более благоприятной статистики. Производитель утверждает, что во время тестовых испытаний диски с измененным конструктивом без последствий переносили кратковременную нагрузку до 1000 g.
Система MaxSafe, встроенная во все выпускаемые продукты Maxtor, предназначена для контроля и коррекции возможных ошибок диска в процессе эксплуатации. Проверка целостности данных начинается с момента их записи на диск и продолжается до тех пор, пока они находятся на нем. Для этого выполняются три типа процедур: фоновое сканирование поверхности, коррекция ошибок по усложненному алгоритму ECC и проверка высоты головки над поверхностью в процессе записи данных. Если обычная проверка и ECC-коррекция производится при всех операциях чтения/записи, то фоновое сканирование в режиме холостого хода выполняет то же самое, но в виде профилактики, с попыткой восстановления запорченных данных стандартным методом. Начиная с семейства DiamondMax Plus 5120 в дисках Maxtor применяется алгоритм коррекции ошибок, резервирующий под каждый 512-байтовый блок данных 430-битовую область данных ECC. Для этого семейства риск неправильного восстановления данных составляет 1 ошибку на 1020 бит считанной информации. В микрокод дисков включена также специальная процедура для проверки и коррекции высоты головки над поверхностью в момент записи информации.

Страница 1 | 2 | Следующая



Украинская Баннерная Сеть

Главная  Алфавитный индекс  Справка  Добавить FAQ  E-mail
Новости  Поиск по сайту

© УкрFAQ 2007
Сайт создан в системе uCoz