Основные системы хранения данных и их особенности. Системы хранения данных (СХД) Системы хранения данных принципы работы

Эволюционировали от простейших карт и лент с дырочками, использовавшихся для хранения программ и данных, до накопителей на твердом теле. На этом пути было создано множество непохожих друг на друг устройств – это и магнитные ленты, и барабаны, и диски, и оптические диски. Часть из них осталась в прошлом: это перфорированные носители, магнитные барабаны, гибкие (флоппи) диски и оптические диски, а другие живут и будут жить долго. То, что сегодня ушло, можно посмотреть и поностальгировать в музее устаревших медийных технологий Museum Of Obsolete Media . И в то же время, казалось бы обреченное, остается. В свое время предсказывали конец магнитным лентам, однако сегодня их существованию ничто не мешает, точно то же самое относится и к жестким вращающимся дискам (HDD), пророчества об их конце лишены какого-либо основания, они достигли такого уровня совершенства, что за ними сохранится их собственная ниша, невзирая ни на какие новации.

На нынешнем многоуровневом пейзаже СХД присутствуют ленточные библиотеки для резервного копирования и архивации, быстрые и медленные диски HDD, твердотельные диски SSD на флэш-памяти, мимикрирующие (интерфейсы, форм-фактор) под HDD прежде всего для согласования с существующим программным обеспечением и конструктивами, а также новейшие флэш-накопители в формате карт, подключаемых по интерфейсу NVMe. Эта картина сложилась под влиянием нескольких факторов, среди которых схема Джона фон Неймана, которая делит память на оперативную, непосредственно доступную процессору, и вторичную, предназначенную для хранения данных. Это деление укрепилось после того, как на смену сохраняющей свое текущее состояние ферритовой памяти пришла полупроводниковая, требующая загрузки программ для начала работы. И конечно же влияет удельная стоимость хранения, чем быстрее устройство, тем эта стоимость выше, поэтому в обозримом будущем останется место и для лент, и для дисков. Подробнее об эволюции СХД .

Как хранили данные раньше

Носители данных, использующие перфорацию

Перфокарты

До появления компьютеров на протяжении столетий в простейших устройствах с программным управлением (ткацкие станки, шарманки, часы-карильоны) использовали перфорированные носители самых разных форматов и размеров и барабаны со штифтами. Сохраняя этот принцип записи, Герман Холлерит, основатель компании TMC, позже вошедшей в IBM , сделал открытие. Именно, в 1890 году он осознал, как можно использовать перфокарты для записи и обработки данных. Он реализовал эту идею при обработке статистических данных, полученных в ходе переписи населения, а позже перенес ее и в другие приложения, чем обеспечил благополучие IBM на десятилетия вперед.

Почему именно карты? Их можно сортировать и к ним может быть обеспечен, условно говоря, «прямой доступ» с тем, чтобы на специальном устройстве-табуляторе, следуя несложной программе, частично автоматизировать обработку данных.

Формат карт менялся, и с 20-х годов международным стандартом стали 80-колонные карты. Монополия на них до начала 60-х принадлежала IBM.

Эти простые картонки с прямоугольными отверстиями оставались доминирующим носителем данных на протяжении нескольких десятилетий, они производились миллиардами. Об объемах потребления карт можно судить хотя бы по одному примеру Центра расшифровки немецких радиограмм в Блечли Парке: неделя работы – 2 миллиона карт, это среднего размера грузовик! Послевоенный бизнес тоже строился на хранении данных на картах. Говоря о перфокартах, следует помнить, что они использовались в Германии для сбора данных о людях, подлежащих уничтожению.

Перфоленты

Казалось бы, перфоленты – более практичные носители, но в бизнесе они практически не использовались, хотя устройства для ввода и вывода были существенно проще и легче. Их распространению мешал последовательный доступ, меньшая емкость и низкие скорости ввода и вывода, сложность архивации. Узкие 5-колонные перфоленты с 1857 года использовали для подготовки и последующей передачи данных по телеграфу, с тем чтобы не ограничить скорость ввода физическими возможностями оператора и тем самым лучше использовать пропускную способность канала. Широкие 24-колонные перфоленты были созданы для записи программ в электромеханическом калькуляторе Harvard Mark I в 1937 году. Как носитель, не подверженный воздействию разного электромагнитного и гамма-изучения, перфоленты широко использовались в качестве бортовых устройств, они до сих пор используются в некоторых оборонных системах.

Магнитные ленты

Способ записи звука на катушечный магнитный носитель, сначала на проволоку был предложен в 1928 году. Магнитофон такого типа использовался в UNIVAC-1. Началом истории компьютерных магнитных лент считается IBM Model 726, входившая в состав компьютера IBM Model 701. Ширина ленты для IBM Model 726 и других устройств того времени была равна одному дюйму, но такие ленты оказались неудобны в эксплуатации. Из-за их большой массы требовались мощные приводы, поэтому вскоре им на смену пришли полудюймовые «открытые ленты» (open reel), в которых перемотка осуществлялась с одной бобины на другую (reel-to-reel). Они имели три плотности записи 800, 1600 и 6250. Такие ленты со съемными кольцами для защиты от записи стали стандартом для архивирования данных до конца 80-х годов.

В Model 726 использовали катушки от кинопленки, соответственно ширина ленты оказалось равной одному дюйму, а диаметр бобины – 12 дюймам. Model 726 была способна сохранять 1,4 Мбайт данных, плотность 9-дорожечной записи составляла 800 бит на дюйм; при движении ленты со скоростью 75 дюймов в секунду в компьютер передавалось 7500 байт в секунду. Сама магнитная лента для Model 726 была разработана компанией 3M (теперь Imation).

Довольно скоро от дюймовых лент отказались, из-за их веса при работе в старт-стопном режиме требовались слишком мощные приводы и вакуумные карманы, и на длительный период установилось почти монопольное господство полудюймовых «открытых лент» (open reel), в которых перемотка осуществлялась с одной бобины на другую (reel-to-reel). Плотность записи повысилась с 800 до 1600 и даже 6250 бит на дюйм. Эти ленты со съемными кольцами для защиты от записи были популярны на компьютерах типа ЕС и СМ ЭВМ. полудюймовых «открытых лент» (open reel), в которых перемотка осуществлялась с одной бобины на другую (reel-to-reel). Плотность записи повысилась с 800 до 1600 и даже 6250 бит на дюйм. Эти ленты со съемными кольцами для защиты от записи были популярны на компьютерах типа ЕС и СМ ЭВМ.

Стимулом к дальнейшему развитию стало то, что в середине 80-х емкости жестких дисков стали измеряться сотнями мегабайт или даже гигабайтами поэтому для них понадобились накопители резервирования, соответствующей емкости. Неудобства открытых лент были понятны, даже в быту кассетные магнитофоны быстро вытеснили катушечные. Естественный переход к картриджам происходил двумя путями: один – создавать специализированные устройства, ориентированные на компьютеры (по линейной технологии): второй – обратиться к технологиям, изобретенным для видеозаписи и аудиозаписи с вращающимися головками (по винтовой технологии). С тех пор сложилось разделение на два лагеря, которое придает рынку накопителей неповторимую специфику.

За тридцать лет было разработано несколько десятков стандартов картриджей, наиболее распространенный сегодня стандарт LTO (Linear Tape-Open), в процессе которых картриджи совершенствовались, повышалась их надежность, емкость, скорость передачи и другие эксплуатационные характеристики. Современный картридж – это сложное устройство, снабженное процессором и флэш-памятью.

Переходу на картриджи способствовало то, что сейчас ленты работают исключительно в потоковом режиме. Картриджи используются либо в автономных устройствах, либо в составе ленточных библиотек. Первой роботизированную библиотеку на 6 тыс. картриджей выпустила компания StorageTek в 1987 году.

Аналитики и производители дисков не раз предрекали лентам кончину. Известен лозунг «Tapes must die», но они живы и будут жить долго, потому что рассчитаны на многолетнее хранение больших архивов. Размер бизнеса, связанного с производством лентопротяжек, лент и ленточных библиотек в 2017 году оценивался примерно в $5 млрд. И чем больше становятся объемы информации, которые можно сохранить на жестких дисках, тем больше потребность в архивировании и создании резервных копий. На чем? Разумеется, на лентах: экономически оправданной по стоимости хранения альтернативы магнитным лентам пока не найдено. Нынешнее 8-е поколение стандарта LTO позволяет штатно сохранить до 12 Тб, а в компрессированном режиме 30 Тб, перспективе эти цифры возрастут на порядок и более, при смене поколений повышаются не только количественные показатели, но и другие эксплуатационные характеристики.

Магнитный барабан

Временным способом для разрешения противоречий между технологией последовательной записи на ленту и необходимостью прямого доступа к данным на внешнем устройстве стал магнитный барабан, точнее цилиндр с неподвижными головками. Его изобрел австриец Густав Тучек в 1932 году

Магнитным является не барабан, у которого, как известно, рабочей поверхностью служит днище, а цилиндр с нанесенным на его боковую поверхность ферримагнитным покрытием, разделенным на дорожки, а они, в свою очередь, делятся на секторы. Над каждой из дорожек размещена собственная головка чтения/записи, причем все головки могут работать одновременно, то есть операции чтения/записи осуществляются в параллельном режиме.

Барабаны использовались не только в качестве периферийного устройства. До перехода на ферритовые сердечники оперативная память была чрезвычайно дорогой и ненадежной, поэтому в ряде случаев барабаны играли роль оперативной памяти, были даже компьютеры, называвшиеся барабанными. Обычно магнитные барабаны использовались для оперативной (часто изменяемой) или важной информации, к которой был нужен быстрый доступ. В условиях ограничений на размер оперативной памяти из-за ее дороговизны на них хранилась копия операционной системы, записывались промежуточные результаты выполнения программ. На барабанах впервые была реализована процедура свопинга, представляющая виртуализацию памяти за счет пространства на барабане, а позже и на диске.

Накопители на магнитных барабанах имели емкость меньше, чем диски, но работали быстрее, потому что в отличие от дисков в них головки неподвижны, что исключает время, требуемое для подвода к нужной дорожке.

Барабаны активно использовались вплоть до начала 80-х годов, некоторое время они жили параллельно с дисками. Барабанами комплектовалась ЭВМ БЭСМ 6 и ее современники. Из открытых источников известно, что последние барабаны простояли в системах управления ракетами Минитмэн до середины 90-х годов.

Гибкие диски

Активная жизнь гибких (floppy) дисков растянулась на 30 лет с конца семидесятых до конца девяностых. Они оказались чрезвычайно востребованными в связи тем, что ПК появились раньше, чем у пользователей появилась возможность передачи данных по сети. В этих условия флоппики служили не только по прямому назначению для хранения резервных копий, но, пожалуй, в большей степени для обмена данными между пользователями, вот почему их еще называют sneaker, как кроссовки, типичную обувь программистов. Обмениваясь флоппиками, они создавали своего рода сеть – sneakernet.

Существовало 3 основных типа дисков и множество различных модификаций. Флопии-диски диаметром 8 дюймов были созданы в 1967 году в IBM , они задумывались как устройство первоначальной загрузки (bootstrap) для мэйнфреймов IBM/370 на замену более дорогой постоянной памяти (non-volatile read-only memory), ею комплектовалось предшествующее поколение IBM/360. Однако, осознав коммерческую ценность новинки, в 1971 IBM превратила флоппи в самостоятельный продукт, а в 1973 году руководитель разработки Алан Шугарт создал компанию Shugart Associates, ставшую ведущим производителей 8-ми дюймовых дисков с максимальной емкостью 1,2 Мбайта. Эти большие диски использовали на ПК, выпускавшихся до появления IBM XT. Особую популярность этот тип дискет получил благодаря операционной системе CP/M Гарри Килдала.

Что же касается дискет с диаметром 5,25 дюйма, то их появление напоминает анекдот о Николае II, который дольно своеобразно объясняет увеличенную ширину российской железнодорожной колеи по сравнению с европейской. В нашем случае Эн Ванг, хозяин компании Wang Laboratories, встретился в баре с выходцами из Shugart Associates, которые предложили сделать для его компьютеров более дешевый дисковод, но они не могли решиться на конкретный диаметр. Тогда Ванг взял коктейльную салфетку и сказал, что ему кажется, что размер должен быть таким. Пятидюймовые диски емкостью 360 и 720 Кб выпускали до конца девяностых годов, они были современниками компьютеров IBM XT и IBM AT, операционных систем MS-DOS и DR-DOS, верно служа становлению новой отрасли.

Предложенный в 1983 году Sony альтернативный картридж имел размер 90,0 мм × 94,0 мм, но его по традиции стали называть 3,5 дюймовым. В американской профессиональной среде он зовется стиффи (stiffy disk, перевод стоит посмотреть в словаре). После ряда усовершенствований в 1987 году был принят отраслевой стандарт 3,5-inch HD (High Density) с емкостью 1,44 Мб. Поначалу такими дисками комплектовали IBM PS/2 и Macintosh IIx, а позже он стал универсальным стандартом для PC и Macintosh. Попытки сделать во второй половине девяностых диски большей емкости Extended Density (ED) 2,88 Мб, а также казавшиеся перспективными магнитооптические Floptical disk 25 Мб, SuperDisk 120-240 Мб и HiFD 150-240 Мб рыночного успеха не имели.

Почему возникла необходимость в СХД

Из проведенного исследования IDC Perspectives следует, что хранение данных занимает второе место среди расходов на ИТ и составляет примерно 23% от всех расходов. По информации The InfoPro, Wave 11 «прирост расходов на СХД в средней компании Fortune 1000 превышает 50% в год».

По общему мнению аналитиков, в организациях по всему миру ежеминутно вырастают объемы хранимой и обрабатываемой информации. Уникальная информация становится все дороже, ее объём каждый год увеличивается многократно, а её хранение требует затрат. Ввиду этого организации стремятся не только формировать развитие инфраструктуры хранения данных, но и изыскивать возможности улучшения и повышения экономической эффективности СХД: снижения энергопотребления, расходов на сервис, общей стоимости владения и закупки систем резервного копирования и хранения.

Рост объемов данных, возросшие требования к надежности хранения и быстродействию доступа к данным делают необходимым выделение средств хранения в отдельную подсистему вычислительного комплекса (ВК). Возможность доступа к данным и управления ими является необходимым условием для выполнения бизнес-процессов . Безвозвратная потеря данных подвергает бизнес серьезной опасности. Утраченные вычислительные ресурсы можно восстановить, а утраченные данные, при отсутствии грамотно спроектированной и внедренной системы резервирования , уже не подлежат восстановлению.

Происходит заметное развитие потребности не только в приобретении СХД корпоративными клиентами, но и в строгом учете, аудите и мониторинге использования дорогостоящих ресурсов. Нет ничего хуже остановки бизнес-процессов из-за невозможности своевременно получить необходимые данные (или полной их утраты), а ведь это может повлечь за собой необратимые последствия.

Факторы, способствующие развитию СХД

Основным фактором был рост конкуренции и усложнение ее характера во всех сегментах рынка. В Западной Европе эти явления можно было наблюдать и раньше, а в Восточной Европе - в последние пять лет. Пять лет назад у мобильного оператора было 25-25 млн зарегистрированных SIM-карт, а сегодня - 50-70 млн. Таким образом, мобильной связью от этих компаний обеспечен практически каждый житель страны, а ведь есть еще региональные операторы. Вот реальный уровень конкуренции: на рынке не осталось никого, кто не имел бы мобильного телефона. И теперь операторы не могут экстенсивно расти за счет продажи своих продуктов тем, у кого аналогичных продуктов еще нет. Им нужны клиенты, которые работают с конкурентами, и необходимо понять, как их получить. Надо разобраться в их поведении, в том, чего они хотят. Чтобы извлечь полезную информацию из доступных данных, необходимо поместить их в хранилище .

Еще один фактор - появление на рынке множества компаний, которые предлагают свои решения для поддержки бизнеса предприятий: ERP , биллинговые системы , системы поддержки принятия решений и т. д. Все они позволяют собирать детальные данные самого разного характера в огромных объемах. При наличии в организации развитой ИТ-инфраструктуры эти данные можно собрать вместе и проанализировать их.

Следующий фактор - технологического характера. До некоторого времени производители приложений самостоятельно разрабатывали разные версии своих решений для разных серверных платформ или предлагали открытые решения. Важной для отрасли технологической тенденцией стало создание адаптируемых платформ для решения различных аналитических задач, которые включают аппаратную составляющую и СУБД . Пользователей уже не волнует, кто сделал для их компьютера процессор или оперативную память, - они рассматривают хранилище данных как некую услугу. И это важнейший сдвиг в сознании.

Технологии, которые позволяют использовать хранилища данных для оптимизации операционных бизнес-процессов практически в реальном времени не только для высококвалифицированных аналитиков и топ-менеджеров, но и для сотрудников фронт-офиса, в частности для сотрудников офисов продаж и контактных центров. Принятие решений делегируется сотрудникам, стоящим на более низких ступенях корпоративной лестницы. Необходимые им отчеты, как правило, просты и кратки, но их требуется очень много, а время формирования должно быть невелико.

Сферы применения СХД

Традиционные хранилища данных можно встретить повсеместно. Они предназначены для формирования отчетности, помогающей разобраться с тем, что произошло в компании. Однако это первый шаг, базис.

Людям становится недостаточно знать, что произошло, им хочется понять, почему это случилось. Для этого используются инструменты бизнес-аналитики, которые помогают понять то, что говорят данные.

Вслед за этим приходит использование прошлого для предсказания будущего, построение прогностических моделей: какие клиенты останутся, а какие уйдут; какие продукты ждет успех, а какие окажутся неудачными и т.д.

Некоторые организации уже находятся на стадии, когда хранилища данных начинают использовать для понимания того, что происходит в бизнесе в настощее время. Поэтому следующий шаг - это «активация» фронтальных систем при помощи решений, основанных на анализе данных, зачастую в автоматическом режиме.

Объемы цифровой информации растут лавинообразно. В корпоративном секторе этот рост вызван, с одной стороны, ужесточением регулирования и требованием сохранять все больше информации, относящейся к ведению бизнеса. С другой стороны, ужесточение конкуренции требует все более точной и подробной информации о рынке, клиентах, их предпочтениях, заказах, действиях конкурентов и т.д .

В государственном секторе рост объемов хранимых данных поддерживает повсеместный переход к межведомственному электронному документообороту и создание ведомственных аналитических ресурсов, основой которых являются разнообразные первичные данные.

Не менее мощную волну создают и обычные пользователи, которые выкладывают в интернет свои фотографии, видеоролики и активно обмениваются мультимедийным контентом в социальных сетях.

Требования к СХД

Группа компаний ТИМ в 2008 году провела опрос среди клиентов с целью выяснить, какие характеристики наиболее важны для них при выборе СХД . На первых позициях оказались качество и функциональность предлагаемого решения. В то же время расчет совокупной стоимости владения для российского потребителя явление нетипичное. Заказчики чаще всего не до конца осознают какие их ожидают издержки, например, затраты на аренду и оснащение помещения, электроэнергию, кондиционирование, обучение и зарплату квалифицированного персонала и проч.

Когда возникает необходимость приобрести СХД, максимум, что оценивает для себя покупатель, это прямые затраты, проходящие через бухгалтерию на приобретение данного оборудования. Впрочем, цена по степени важности оказалась на девятом месте из десяти. Безусловно, заказчики учитывают возможные трудности, связанные с обслуживанием техники. Обычно их избежать помогают пакеты расширенной гарантийной поддержки, которые обычно предлагают в проектах.

Надёжность и отказоустойчивость. В СХД предусмотрено полное или частичное резервирование всех компонент – блоков питания, путей доступа, процессорных модулей, дисков, кэша и т.д. Обязательно наличие системы мониторинга и оповещения о возможных и существующих проблемах.

Доступность данных. Обеспечивается продуманными функциями сохранения целостности данных (использование технологии RAID, создание полных и мгновенных копий данных внутри дисковой стойки, реплицирование данных на удаленную СХД и т.д.) и возможностью добавления (обновления) аппаратуры и программного обеспечения в горячем режиме без остановки комплекса;

Средства управления и контроля. Управление СХД осуществляется через web-интерфейс или командную строку, есть функции мониторинга и несколько вариантов оповещения администратора о неполадках. Доступны аппаратные технологии диагностики производительности.

Производительность. Определяется числом и типом накопителей, объёмом кэш-памяти, вычислительной мощностью процессорной подсистемы, числом и типом внутренних и внешних интерфейсов, а также возможностями гибкой настройки и конфигурирования.

Масштабируемость. В СХД обычно присутствует возможность наращивания числа жёстких дисков, объёма кэш-памяти, аппаратной модернизации и расширения функционала с помощью специального ПО. Все перечисленные операции производят без значительного переконфигурирования и потерь функциональности, что позволяет экономить и гибко подходить к проектированию ИТ-инфраструктуры .

Типы СХД

Дисковые СХД

Используют для оперативной работы с данными, а также для создания промежуточных резервных копий.

Существуют следующие виды дисковых СХД :

СХД для рабочих данных (высокопроизводительное оборудование);
СХД для резервных копий (дисковые библиотеки);
СХД для долговременного хранения архивов (системы CAS).

Ленточные СХД

Предназначены для создания резервных копий и архивов.

Существуют следующие виды ленточных СХД :

отдельные накопители;
автозагрузчики (один накопитель и несколько слотов для лент);
ленточные библиотеки (более одного накопителя, множество слотов для лент).

Варианты подключений СХД

Для подключения устройств и жестких дисков внутри одного хранилища используются различные внутренние интерфейсы:

Наиболее распространенные внешние интерфейсы подключения СХД :

Популярный интерфейс межузлового кластерного взаимодействия Infiniband теперь также используется для доступа к СХД.

Варианты топологий СХД

Традиционный подход к хранилищам данных состоит в непосредственном подключении серверов к системе хранения Direct Attached Storage, DAS (Direct Attached Storage). Помимо Direct Attached Storage, DAS , существуют устройства хранения данных, подключаемые к сети, - NAS (Network Attached Storage), a также компоненты сетей хранения данных - SAN (Storage Area Networks). И NAS -, и SAN -системы появились в качестве альтернативы архитектуре Direct Attached Storage, DAS . Причем каждое решение разрабатывалось как ответ на растущие требования к системам хранения данных и основывалось на использовании доступных в то время технологиях.

Архитектуры сетевых систем хранения были разработаны в 1990-х гг., и их задачей было устранение основных недостатков систем Direct Attached Storage, DAS . В общем случае сетевые решения в области систем хранения должны были реализовать три задачи: снизить затраты и сложность управления данными, уменьшить трафик локальных сетей, повысить степень готовности данных и общую производительность. При этом архитектуры NAS и SAN решают различные аспекты общей проблемы. Результатом стало одновременное сосуществование двух сетевых архитектур, каждая из которых имеет свои преимущества и функциональные возможности.

Системы хранения прямого подключения (DAS)

Программный и аппаратный RAID

Российский рынок СХД

В последние несколько лет российский рынок СХД успешно развивается и растет. Так, в конце 2010 года выручка производителей систем хранения, проданных на российском рынке, превысила $65 млн, что по сравнению со вторым кварталом того же года больше на 25% и на 59% 2009-го. Общая емкость проданных СХД составила примерно 18 тыс. терабайт, что является показателем роста больше чем на 150% в год.

Основные этапы проектов создания хранилищ данных

Хранилище данных - очень сложный объект. Одним из основных условий для его создания является наличие грамотных специалистов, понимающих, что они делают, - не только на стороне поставщика, но и на стороне клиента. Потребление СХД становится неотъемлемой частью внедрения комплексных инфраструктурных решений. Как правило, речь идет о внушительных инвестициях на 3-5 лет, и заказчики рассчитывают, что в течение всего срока эксплуатации система в полной мере будет отвечать предъявляемым со стороны бизнеса требованиям.

Далее, необходимо обладать технологиями создания хранилищ данных. Если вы начали создавать хранилище и разрабатываете для него логическую модель, то у вас должен быть словарь, определяющий все основные понятия. Даже такие расхожие понятия, как «клиент» и «продукт», имеют сотни определений. Только получив представление о том, что означают те или иные термины в данной организации, можно определить источники необходимых данных, которые следует загрузить в хранилище.

Теперь можно приступить к созданию логической модели данных. Это критически важный этап проекта. Надо от всех участников проекта создания хранилища данных добиться согласия относительно актуальности этой модели. По завершении этой работы становится понятно, что в действительности нужно клиенту. И только потом имеет смысл говорить о технологических аспектах, например о размерах хранилища. Клиент оказывается лицом к лицу с гигантской моделью данных, которая содержит тысячи атрибутов и связей.

Необходимо постоянно помнить, что хранилище данных не должно быть игрушкой для ИТ-департамента и объектом затрат для бизнеса. И в первую очередь хранилище данных должно помогать клиентам решать их самые критичные проблемы. Например, помочь телекоммуникационным компаниям предотвратить утечку клиентов. Для решения проблемы необходимо заполнить определенные фрагменты большой модели данных, и затем помогаем выбрать приложения, которые помогут решить эту проблему. Это могут быть очень несложные приложения, скажем Excel . Первым делом стоит попытаться решить основную проблему с помощью этих инструментов. Пытаться заполнить всю модель сразу, использовать все источники данных будет большой ошибкой. Данные в источниках необходимо тщательно проанализировать, чтобы обеспечить их качество. После успешного решения одной-двух проблем первостепенной важности, в ходе которого обеспечено качество необходимых для этого источников данных, можно приступать к решению следующих проблем, постепенно заполняя другие фрагменты модели данных, а также используя заполненные ранее фрагменты.

Еще одна серьезная проблема - модернизация СХД. Зачастую СХД, приобретенная три-пять лет назад, уже не справляется с растущими объемами данных и требованиями к скорости доступа к ним, поэтому приобретается новая система, на которую переносятся данные с прежней. По сути, заказчики, повторно платят за объемы хранения, требуемые для размещения данных и, кроме того, несут расходы на установку новой СХД и перенос данных на нее. При этом прежние СХД, как правило, еще не настолько устаревшие, чтобы отказываться от них полностью, поэтому заказчики пытаются приспособить их под другие задачи.

2009

Стремительная эволюция ежегодно вносит серьезные изменения в основные тренды развития СХД . Так, в 2009 году во главу угла ставилась способность экономично распределять ресурсы (Thin Provisioning), последние несколько лет проходят под знаком работы СХД в "облаках". Спектр предлагаемых систем отличается разнообразием: огромное количество представленных моделей, различные варианты и комбинации решений от начального уровня до Hi-End класса, решения под ключ и покомпонентная сборка с применением самой современной начинки, программно-аппаратные решения от российских производителей.

Стремление к сокращению расходов на ИТ-инфраструктуру требует постоянного баланса между стоимостью ресурсов СХД и ценностью данных, которые на них хранятся в данный момент времени. Для принятия решения о том, как наиболее эффективно размещать ресурсы на программных и аппаратных средствах, специалисты ЦОД руководствуются не только подходами ILM и DLM, но и практикой многоуровнего хранения данных. Каждой единице информации, подлежащей обработке и хранению, присваиваются определенные метрики. В их числе степень доступности (скорость предоставления информации), важность (стоимость потери данных в случае аппаратного и программного сбоя), период, через который информация переходит на следующую стадию.

Пример разделения систем хранения в соответствии с требованиями к хранению и обработке информации по методике многоуровневого хранения данных.

Вместе с тем, возросли требования к производительности транзакционных систем, что предполагает увеличение количества дисков в системе и соответственно выбор СХД более высокого класса. В ответ на этот вызов производители снабдили системы хранения новыми твердотельными дисками, превосходящими прежние по производительности более чем в 500 раз на `коротких` операциях чтения-записи (характерных для транзакционных систем).

Популяризация облачной парадигмы способствовала повышению требований к производительности и надежности СХД, поскольку в случае отказа или потери данных пострадают не один-два подключенных напрямую сервера - произойдет отказ в обслуживании для всех пользователей облака. В силу той же парадигмы проявилась тенденция к объединению устройств разных производителей в федерацию. Она создает объединенный пул ресурсов, которые предоставляются по требованию с возможностью динамического перемещения приложений и данных между географически разнесенными площадками и поставщиками услуг.

Определенный сдвиг отмечен в 2011 году в области управления `Большими данными` . Раньше подобные проекты находись на стадии обсуждения, а теперь они перешли в стадию реализации, пройдя весь путь от продажи до внедрения.

На рынке намечается прорыв, который уже случился на рынке серверов, и, возможно, уже в 2012 году мы увидим в массовом сегменте СХД, поддерживающие дедупликацию и технологию Over Subscribing . В итоге, как и в случае серверной виртуализации, это обеспечит масштабную утилизацию емкости СХД.

Дальнейшее развитие оптимизации хранения будет заключаться в совершенствовании методов сжатия данных. Для неструктурированных данных, на которые приходится 80% всего объема, коэффициент сжатия может достигать нескольких порядков. Это позволит существенно снизить удельную стоимость хранения данных для современных SSD

Андрей Захаров, Основные системы хранения данных и их особенности

Журнал Upgrade4_08_05

Системы хранения данных с прямым подключением (DAS) реализуют самый известный тип соединения. При использовании DAS сервер имеет персональную связь с СХД и почти всегда является единоличным пользователем устройства. При этом сервер получает блочный доступ к системе хранения данных, то есть обращается непосредственно к блокам данных.

Системы хранения данных такого типа достаточно простые и обычно недорогие. Недостатком прямого способа подключения является небольшое расстояние между сервером и устройством хранения. Типичным интерфейсом DAS является SAS.

Network Attached Storage (NAS)

Сетевые системы хранения данных (NAS), также известные как файловые серверы, предоставляют свои сетевые ресурсы клиентам по сети в виде совместно используемых файлов или точек монтирования каталогов. Клиенты используют протоколы сетевого доступа к файлам, такие как SMB (ранее известный как CIFS) или NFS. Файловый сервер, в свою очередь, использует протоколы блочного доступа к своему внутреннему хранилищу для обработки запросов файлов клиентами. Так как NAS работает по сети, хранилище может быть очень далеко от клиентов. Множество сетевых систем хранения данных предоставляет дополнительные функции, такие как снятие образов хранилища, дедупликация или компрессия данных и другие.

Storage Area Network (SAN)

Сеть хранения данных (SAN) предоставляет клиентам блочный доступ к данным по сети (например, Fibre Channel или Ethernet). Устройства в SAN не принадлежат одному серверу, а могут использоваться всеми клиентами сети хранения. Возможно разделение дискового пространства на логические тома, которые выделяются отдельным хост-серверам. Эти тома не зависят от компонентов SAN и их размещения. Клиенты обращаются к хранилищу данных с использованием блочного типа доступа, как и при DAS подключении, но, так как SAN использует сеть, устройства хранения данных могут располагаться далеко от клиентов.

В настоящее время SAN архитектура используют протокол SCSI (Small Computer System Interface) для передачи и получения данных. Fibre Channel (FC) SAN инкапсулируют протокол SCSI в Fibre Channel фреймы. Сети хранения данных, использующие iSCSI (Internet SCSI) используют в качестве транспорта SCSI TCP/IP пакеты. Fibre Channel over Ethernet (FCoE) инкапсулирует протокол Fibre Channel в пакеты Ethernet, используя относительно новую технологию DCB (Data Center Bridging), которая вносит набор улучшений в традиционный Ethernet и может в настоящее время быть развернута на 10GbE инфраструктуре. Благодаря тому, что каждая из этих технологий позволяет приложениям получать доступ к хранилищу данных используя один и тот же протокол SCSI, становится возможным использовать их все в одной компании или мигрировать с одной технологии на другую. Приложения, запущенные на сервере, не могут различить FC, FCoE, iSCSI и даже отличить DAS от SAN.

Ведется множество обсуждений по поводу выбора FC или iSCSI для построения сети хранения данных. Некоторые компании фокусируются на невысокой стоимости первоначального развертывания iSCSI SAN, другие выбирают высокую надежность и доступность Fibre Channel SAN. Хотя low-end решения iSCSI дешевле, чем Fibre Channel, с ростом производительности и надежности iSCSI SAN ценовое преимущество исчезает. При этом появляются некоторые реализации FC, которые проще в использовании, чем большинство iSCSI решений. Поэтому выбор той или иной технологии зависит от бизнес-требований, существующей инфраструктуры, экспертизы и бюджета.

Большинство крупных организаций, которые используют сети хранения данных, выбирают Fibre Channel. Эти компании обычно требуют проверенную технологию, имеют необходимость в высокой пропускной способности и обладают бюджетом для покупки самого надежного и производительного оборудования. Кроме того, они располагают персоналом для управления сетью хранения данных. Некоторые из таких компаний планируют продолжать инвестиции в Fibre Channel инфраструктуру, другие же инвестируют в решения iSCSI, особенно 10GbE, для своих виртуализированных серверов.

Небольшие компании чаще выбирают iSCSI из-за низкого ценового порога входа, при этом они получают возможность для дальнейшего масштабирования SAN. Недорогие решения обычно используют технологию 1GbE; решения от 10GbE стоят существенно дороже и как правило не рассматриваются в качестве SAN начального уровня.

Unified Storage

Универсальные системы хранения данных (Unified Storage) совмещают в себе технологии NAS и SAN в едином интегрированном решении. Эти универсальные хранилища позволяют использовать как блочный, так и файловый тип доступа к общим ресурсам, кроме того, управление такими устройствами проще благодаря ПО, обеспечивающему централизованное управление.

Если Серверы - это универсальные устройства, выполняющие в большинстве случаев
- либо функцию сервера приложения (когда на сервере выполняются специальные программы, и идут интенсивные вычисления),
- либо функцию файл-сервера (т.е. некоего места для централизованного хранения файлов данных)

то СХД (Системы Хранения Данных) - устройства, специально спроектированные для выполнения таких серверных функций, как хранение данных.

Необходимость приобретения СХД
возникает обычно у достаточно зрелых предприятий, т.е. тех, кто задумывается над тем, как
- хранить и управлять информацией, самым ценным активом компании
- обеспечить непрерывность бизнеса и защиту от потери данных
- увеличить адаптируемость ИТ-инфраструктуры

СХД и виртуализация
Конкуренция заставляет компании МСБ работать эффективней, без простоев и с высоким КПД. Смена производственных моделей, тарифных планов, видов услуг происходит всё чаще. Весь бизнез современных компаний "завязан" на информационных технологиях. Потребности бизнеса меняются быстро, и мгновенно отражаются на ИТ - растут требования к надёжности и адаптируемости ИТ-инфраструктуры. Виртуализация предоставляет такие возможности, но для этого нужны недорогие и простые в обслуживании системы хранения данных.

Классификация СХД по типу подключения

DAS . Первые дисковые массивы соединялись с серверами по интерфейсу SCSI. При этом один сервер мог работать только с одним дисковым массивом. Это - прямое соединение СХД (DAS - Direct Attached Storage).

NAS . Для более гибкой организации структуры вычислительного центра - чтобы каждый пользователь мог использовать любую систему хранения - необходимо подключить СХД в локальную сеть. Это - NAS - Network Attached Storage). Но обмен данными между сервером и СХД во много раз более интенсивный чем между клиентом и сервером, поэтому в таком варианте варианте появились объективные трудности, связанные с пропускной способностью сети Ethernet. Да и с точки зрения безопасности не совсем правильно показывать СХД в общую сеть.

SAN . Но можно создать между серверами и СХД свою, отдельную, высокоскоростную сеть. Такую сеть назвали SAN (Storage Area Network). Быстродействие обеспечивается тем, что физической средой передачи там является оптика. Специальные адаптеры (HBA) и оптические FC-коммутаторы обеспечивают передачу данных на скорости 4 и 8Gbit/s. Надёжность такой сети повышалась резервированием (дупликацией) каналов (адаптеров, коммутаторов). Основным недостатком является высокая цена.

iSCSI . С появлением недорогих Ethernet-технологий 1Gbit/s и 10Gbit/s, оптика со скоростью передачи 4Gbit/s уже выглядит не так привлекательно, особенно с учетом цены. Поэтому всё чаще в качестве среды SAN используется протокол iSCSI (Internet Small Computer System Interface). Сеть iSCSI SAN может быть построена на любой достаточно быстрой физической основе, поддерживающей протокол IP.

Классификация Систем Хранения Данныхпо области применения:

класс	описание
personal	Чаще всего представляют из себя обычный 3.5" или 2.5" или 1.8" жесткий диск, помещенный в специальный корпус и оснащенный интерфейсами USB и/или FireWire 1394 и/или Ethernet, и/или eSATA. Таким образом мы имеем переносное устройство, которое может подключаться к компьютеру/серверу и выполнять функции внешнего накопителя. Иногда для удобства в устройство добавляют функции беспроводного доступа, принтерных и USB портов.
small workgroup	Обычно это стационарное или переносное устройство, в которое можно устанавливать несколько (чаще всего от 2 до 5) жестких дисков SATA, с возможностью горячей замены или без, имеющее интерфейс Ethernet. Диски можно организовывать в массивы - RAID различного уровня для достижения высокой надежности хранения и скорости доступа. СХД имеет специализированную ОС, обычно на основе Linux, и позволяет разграничивать уровень доступа по имени и паролю пользователей, организовывать квотирование дискового пространства и т.п. Такие СХД подходят для небольших рабочих групп, как замена файл-серверов.
workgroup	Устройство, обычно монтируемое в 19" стойку (rack-mount) в которое можно устанавливать 12-24 жестких дисков SATA или SAS с возможностью горячей замены HotSwap. Имеет внешний интерфейс Ethernet, и/или iSCSI. Диски организованы в массивы - RAID для достижения высокой надежности хранения и скорости доступа. СХД поставляется со специализированным программным обеспечением, которое позволяет разграничивать уровень доступа, организовывать квотирование дискового пространства, организовывать BackUp (резервное копирование информации) и т.п. Такие СХД подходят для средних и крупных предприятий, и используются совместно с одним или несколькими серверами.
enterprise	Стационарное устройство или устройство, монтируемое в 19" стойку (rack-mount) в которое можно устанавливать до сотен жестких дисков. В дополнение к предыдущему классу СХД могут иметь возможность наращивания, модернизации и замены компонент без остановки системы, системы мониторинга. Программное обеспечение может поддерживать создание "моментальных снимков" и другие "продвинутые" функции. Такие СХД подходят для больших предприятий и обеспечивают повышенную надежность, скорость и защиту критически важных данных.
high-end enterprise	В дополнение к предыдущему классу СХД может поддерживать тысячи жестких дисков. Такие СХД занимают несколько 19" кабинетов, общий вес достигает нескольких тонн. СХД предназначены для безостановочной работы с высочайшей степенью надежности, хранения стратегически важных данных уровня государства/корпораций.

История вопроса.

Первые серверы сочетали в одном корпусе все функции (как компьютеры) - и вычислительные (сервер приложений) и хранение данных (файл-сервер). Но по мере роста потребности приложений в вычислительных мощностях с одной стороны и по мере роста количества обрабатываемых данных с другой стороны - стало просто неудобно размещать все в одном корпусе. Эффективнее оказалось выносить дисковые массивы в отдельные корпуса. Но тут встал вопрос соединения дискового массива с сервером. Первые дисковые массивы соединялись с серверами по интерфейсу SCSI. Но в таком случае один сервер мог работать только с одним дисковым массивом. Народу захотелось более гибкой организации структуры вычислительного центра - чтобы любой сервер мог использовать любую систему хранения. Подключить все устройства напрямую в локальную сеть и организовать обмен данными по Ethernet - конечно, простое и универсальное решение. Но обмен данными между серверами и СХД во много раз более интенсивный чем между клиентами и серверами, поэтому в таком варианте варианте (NAS - см. ниже) появились объективные трудности, связанные с пропускной способностью сети Ethernet. Возникла идея создать между серверами и СХД свою, отдельную высокоскоростную сеть. Такую сеть назвали SAN (см. ниже). Она похожа на Ethernet, только физической средой передачи там является оптика. Там тоже есть адаптеры (HBA), которые устанавливаются в серверы и коммутаторы (оптические). Стандарты на скорость передачи данных по оптике - 4Gbit/s. С появлением технологий Ethernet 1Gbit/s и 10Gbit/s, а также протокола iSCSI всё чаще в качестве среды SAN используется Ethernet.

В этой статье речь пойдет о системах хранения данных начального и среднего уровня, а также тех тенденциях, которые сегодня ярко выделяются в этой отрасли. Для удобства будем называть системы хранения данных накопителями.

Сначала мы немного остановимся на терминологии и технологических основах автономных накопителей, а потом перейдём к новинкам и обсуждению современных достижений в разных технологических и маркетинговых группах. Мы также обязательно расскажем о том, зачем нужны системы того или иного вида и насколько эффективным является их использование в разных ситуациях.

Автономные дисковые подсистемы

Для того, чтобы лучше понять особенности автономных накопителей, остановимся немного на одной из более простых технологий построения систем хранения данных - шинно-ориентированной технологии. Она предусматривает использование корпуса для дисковых накопителей и контроллера PCI RAID.

Рисунок 1. Шинно-ориентированная технология постоения систем хранения данных

Таким образом, между дисками и PCI-шиной хоста (от англ. Host - в данном случае автономный компьютер, например сервер или рабочая станция) есть только один контроллер, который в значительной мере и задает быстродействие системы. Накопители, построенные по этому принципу, являются наиболее производительными. Но в связи с архитектурными особенностями практическое их использование, за исключением редких случаев, ограничивается конфигурациями с одним хостом.

К недостаткам шинно-ориентированной архитектуры накопителей следует отнести:

эффективное использование только в конфигурациях с одним хостом;
зависимость от операционной системы и платформы;
ограниченную масштабируемость;
ограниченные возможности по организации отказоустойчивых систем.

Естественно, всё это неважно, если данные нужны для одного сервера или рабочей станции. Наоборот, в такой конфигурации вы получите максимальное быстродействие за минимальные деньги. Но если вам нужна система хранения данных для большого вычислительного центра или даже для двух серверов, которым нужны одни и те же данные, шинно-ориентированная архитектура совершенно не подходит. Недостатков этой архитектуры позволяет избежать архитектура автономных дисковых подсистем. Основной принцип ее построения достаточно прост. Контроллер, который управляет системой, переносится из хост-компьютера в корпус накопителя, обеспечивая независимое от хост-систем функционирование. Следует отметить, что такая система может иметь большое количество внешних каналов ввода/вывода, что обеспечивает возможность подключения к системе нескольких, или даже многих компьютеров.

Рисунок 2. Автономная система хранения данных

Любая интеллектуальная система хранения данных состоит из аппаратной части и программного кода. В автономной системе всегда есть память, в которой хранится программа алгоритмов работы самой системы и процессорные элементы, которые этот код обрабатывают. Такая система функционирует независимо от того, с какими хост-системами она связана. Благодаря своей интеллектуальности автономные накопители зачастую самостоятельно реализуют множество функций по обеспечению сохранности и управлению данными. Одна из самых важных базовых и практически повсеместно используемых функций - это RAID (Redundant Array of Independent Disks). Другая, принадлежащая уже системам среднего и высокого уровня - это виртуализация. Она обеспечивает такие возможности как мгновенная копия или удаленное резервирование, а также другие, достаточно изощрённые алгоритмы.

Коротко о SAS, NAS, SAN

В рамках рассмотрения автономных систем хранения данных обязательно следует остановиться на том, каким образом осуществляется доступ хост-систем к накопителям. Это в значительной мере определяет сферы их использования и внутреннюю архитектуру.

Различают три основных варианта организации доступа к накопителям:

SAS (Server Attached Storage) - накопитель, подсоединенный к серверу [ второе название DAS (Direct Attached Storage) - напрямую подсоединённый накопитель ];
NAS (Network Attached Storage) - накопитель, подсоединенный к сети;
SAN (Storage Area Network) - сеть хранения данных.

Мы уже писали о технологиях SAS/DAS, NAS и SAN в статье посвященной SAN, если кого эта информация заинтересует, рекомендуем обратиться к страницам iXBT . Но всё же позволим себе немножко освежить материал с акцентом на практическое использование.

SAS/DAS - это достаточно простой традиционный способ подключения, который подразумевает прямое (отсюда и DAS) подсоединение системы хранения к одной или нескольким хост-системам через высокоскоростной канальный интерфейс. Часто в таких системах, для подсоединения накопителя к хосту используется такой же интерфейс, который используется для доступа к внутренним дискам хост-системы, что в общем случае обеспечивает высокое быстродействие и простое подключение.

SAS-систему можно рекомендовать к использованию в случае, если имеется потребность в высокоскоростной обработке данных больших объемов на одной или нескольких хост-системах. Это, например, может быть файл-сервер, графическая станция или отказоустойчивая кластерная система, состоящая из двух узлов.

Рисунок 3. Кластерная система с общим накопителем

NAS - накопитель, который подсоединен к сети и обеспечивает файловый (обратите внимание - файловый, а не блочный) доступ к данным для хост-систем в сети LAN/WAN. Клиенты, которые работает с NAS, для доступа к данным обычно используют протоколы NSF (Network File System) или CIFS (Common Internet File System). NAS интерпретирует команды файловых протоколов и исполняет запрос к дисковым накопителям в соответствии с используемым в нём канальным протоколом. Фактически, архитектура NAS - это эволюция файловых серверов. Главным преимуществом такого решения является быстрота развёртывания и качество организации доступа к файлам, благодаря специализации и узкой направленности.

Исходя из сказанного, NAS можно рекомендовать для использования в случае, если нужен сетевой доступ к файлам и достаточно важными факторами являются: простота решения (что обычно является неким гарантом качества) и простота его сопровождения и установки . Прекрасным примером является использование NAS в качестве файл-сервера в офисе небольшой компании, для которой важна простота установки и администрирования. Но в то же время, если вам нужен доступ к файлам с большого количества хост-систем, мощный NAS-накопитель, благодаря отточенному специализированному решению, способен обеспечить интенсивный обмен трафиком с огромным пулом серверов и рабочих станций при достаточно низкой стоимости используемой коммуникационной инфраструктуры (например, коммутаторов Gigabit Ethernet и медной витой пары).

SAN - сеть хранения данных. Обычно в SAN используется блочный доступ к данным, хотя возможно подключение к сетям хранения данных устройств, предоставляющих файловые сервисы, например NAS. В современных реализациях сети хранения данных чаще всего используют протокол Fibre Channel, но в общем случае это не является обязательным, в связи с чем, принято выделять отдельный класс Fibre Channel SAN (сети хранения данных на основе Fibre Channel).

Основой SAN является отдельная от LAN/WAN сеть, которая служит для организации доступа к данным серверов и рабочих станций, непосредственно занимающихся обработкой. Такая структура делает построение систем с высокой готовностью и высокой интенсивностью запросов относительно простой задачей. Несмотря на то, что SAN сегодня остается дорогим удовольствием, TCO (общая стоимость владения) для средних и больших систем, построенных с использованием технологии сетей хранения данных, является довольно низкой. Описание способов снижения TCO корпоративных систем хранения данных благодаря SAN можно найти на страницах ресурса techTarget: http://searchstorage.techtarget.com .

Сегодня стоимость дисковых накопителей с поддержкой Fibre Channel, как наиболее распространенного интерфейса для построения SAN, близка к стоимости систем с традиционными недорогими канальными интерфейсами (такими как параллельный SCSI). Главными стоимостными составляющими в SAN остается коммуникационная инфрастуктура, а также стоимость ее развёртывания и сопровождения. В связи с чем, в рамках SNIA и многих коммерческих организациях ведётся активная работа над технологиями IP Storage, что позволяет использовать значительно более недорогую аппаратуру и инфраструктуру IP-сетей, а также колоссальный опыт специалистов в этой сфере.

Примеров по эффективному использованию SAN можно привести достаточно много. Практически везде, где имеется необходимость использования нескольких серверов с совместной системой хранения данных, можно использовать SAN. Например, для организации коллективной работы над видеоданными или предварительной обработки печатной продукции. В такой сети каждый участник процесса обработки цифрового контента получает возможность практически одновременно работать над Терабайтами данных. Или, например, организация резервирования больших объемов данных, которыми пользуется множество серверов. При построении SAN и использовании независимого от LAN/WAN алгоритма резервирования данных и технологий «моментальной копии», можно резервировать почти любые объёмы информации без ущерба функциональности и производительности всего информационного комплекса.

Fibre Channel в сетях хранения данных

Безусловным фактом является то, что сегодня именно FC (Fibre Channel) доминирует в сетях хранения данных. И именно развитие этого интерфейса привело к развитию самой концепции SAN.

В проектировании FC принимали участие специалисты со значительным опытом в разработке как канальных, так и сетевых интерфейсов, и им удалось объединить все важные положительные черты обоих направлений. Одним из важнейших преимуществ Fibre Channel наряду со скоростными параметрами (которые, кстати, не всегда являются главными для пользователей SAN, и могут быть реализованы с помощью других технологий) является возможность работы на больших расстояниях и гибкость топологии, которая пришла в новый стандарт из сетевых технологий. Таким образом, концепция построения топологии сети хранения данных базируется на тех же принципах, что и традиционные локальные сети, на основе концентраторов, коммутаторов и маршрутизаторов, что значительно упрощает построение многоузловых конфигураций систем, в том числе без единой точки отказов.

Стоит также отметить, что в рамках Fibre Channel для передачи данных используются как оптоволоконные, так и медные среды. При организации доступа к территориально удаленным узлам на расстоянии до 10 киллометров используется стандартная аппаратура и одномодовое оптоволокно для передачи сигнала. Если же узлы разнесены на 10-ки или даже 100-ни километров используются специальные усилители. При построении таких SAN учитываются достаточно нетрадиционные для систем хранения данных параметры, например, скорость распространения сигнала в оптоволокне.

Тенденции развития систем хранения данных

Мир систем хранения данных чрезвычайно разнообразен. Возможности систем хранения данных, так и стоимость решений достаточно дифференцирована. Существуют решения, объединяющие в себе возможности обслуживания сотен тысяч запросов в секунду к десяткам и даже сотням Терабайт данных, а также решения для одного компьютера с недорогими дисками с IDE-интерфейсом.

IDE RAID

В последнее время максимальный объем дисков с IDE-интерфейсом колоссально увеличился и опережает SCSI-диски примерно в два раза, а если говорить о соотношении цена на единицу объёма, то IDE-диски лидируют с разрывом более чем в 6 раз. Это, к сожалению, не повлияло положительно на надежность IDE-дисков, но всё же сфера их применения в автономных системах хранения данных неумолимо увеличивается. Главным фактором в этом процессе является то, что потребность в больших объёмах данных растёт быстрее, чем объем одиночных дисков.

Еще несколько лет назад редкие производители решались выпускать автономные подсистемы, ориентированные на использование IDE-дисков. Сегодня их выпускает практически каждый производитель, ориентированный на рынок систем начального уровня. Наибольшее распространение в классе автономных подсистем с IDE-дисками наблюдается в NAS-системах начального уровня. Ведь если вы используете NAS в качестве файлового сервера с интерфейсом Fast Ethernet или даже Gigabit Ethernet, то в большинстве случаев быстродействия таких дисков является более чем достаточным, а их низкая надёжность компенсируется использованием технологии RAID.

Там, где необходим блочный доступ к данным при минимальной цене за единицу хранимой информации, сегодня активно используются системы с IDE-дисками внутри и с внешним SCSI-интерфейсом. Например, на системе JetStor IDE производства американской компании AC&NC для построения отказоустойчивого архива с объёмом хранимых данных в 10 Терабайт и возможностью быстрого блочного доступа к данным стоимость хранения одного Мегабайта будет составлять меньше 0,3 цента.

Ещё одной интересной и достаточно оригинальной технологией, с которой пришлось познакомиться совсем недавно, была система Raidsonic SR-2000 с внешним параллельным IDE-интерфейсом.

Рисунок 4. Автономный IDE RAID начального уровня

Это автономная дисковая система, рассчитанная на использование двух IDE дисков и ориентированная на монтаж внутри корпуса хост-системы. Она абсолютно независима от операционной системы на хост-машине. Система позволяет организовать RAID 1 (зеркало) или просто копирование данных с одного диска на другой с возможностью горячей замены дисков, без какого-либо ущерба или неудобства со стороны пользователя компьютера, чего не скажешь о шинно-ориентированых подсистемах, построенных на контроллерах PCI IDE RAID.

Следует заметить, что ведущие производители IDE-дисков анонсировали выпуск дисков среднего класса с интерфейсом Serial ATA, в которых будут использоваться высокоуровневые технологии. Это должно благоприятно повлиять на их надежность и увеличить долю ATA-решений в системах хранения данных.

Что нам принесёт Serial ATA

Первое и самое приятное, что можно найти в Serial ATA - это кабель. В связи с тем, что интерфейс ATA стал последовательным, кабель стал круглым, а коннектор - узким. Если вам приходилось укладывать кабели параллельного IDE-интерфейса в системе на восемь IDE-каналов, я уверен, что вам понравится эта особенность. Конечно, уже давно существовали круглые IDE-кабели, но коннектор у них всё же оставался широким и плоским, да и максимально допустимая длина параллельного ATA-кабеля не радует. При построении систем с большим количеством дисков, наличие стандартного кабеля вообще не сильно помогает, так как кабели приходится делать самостоятельно, и при этом их укладка становится едва ли не главной по времени задачей при сборке.

Кроме особенности кабельной системы, в Serial ATA есть другие нововведения, которые для параллельной версии интерфейса реализовать самостоятельно с помощью канцелярского ножа и другого подручного инструмента не удастся. В дисках с новым интерфейсом скоро должна появиться поддержка набора инструкций Native Command Queuing (конвейеризации команд). При использовании Native Command Queuing, контроллер Serial ATA анализирует запросы ввода-вывода и оптимизирует очередность их выполнения таким образом, чтобы минимизировать время поиска. Достаточно очевидна схожесть идеи Serial ATA Native Command Queuing с организацией очереди команд в SCSI, правда, для Serial ATA будет поддерживаться очередь до 32 команд, а не традиционных для SCSI - 256. Появилась также родная поддержка горячей замены устройств. Конечно, такая возможность существовала и ранее, но её реализация была за рамками стандарта и, соответственно, не могла получить широкое распространение. Говоря о новых скоростных возможностях Serial ATA, следует заметить, что сейчас от них радости пока большой нет, но главное здесь то, что на будущее есть хороший Roadmap, реализовать который в рамках параллельного ATA было бы очень не просто.

Учитывая сказанное, можно не сомневаться, что доля ATA-решений в системах хранения начального уровня должна увеличиться именно за счёт новых дисков Serial ATA и систем хранения данных, ориентированных на использование таких устройств.

Куда идет параллельный SCSI

Все, кто работает с системами хранения данных, даже начального уровня, вряд ли могут сказать, что им нравятся системы с IDE-дисками. Главное преимущество ATA дисков - их низкая цена, по сравнению со SCSI-устройствами ну и еще, наверное, более низкий уровень шума. И происходит всё это по простой причине, так как SCSI-интерфейс лучше подходит для использования в системах хранения данных и пока значительно дешевле, чем еще более функциональный интерфейс - Fibre Channel, то и диски со SCSI-интерфейсом производятся более качественные, надёжные и быстрые, чем с дешёвым IDE-интерфейсом.

Сегодня многие производители при проектировании систем хранения с параллельным SCSI используют Ultra 320 SCSI, самый новый интерфейс в семействе. Некогда во многих Roadmap были планы по выпуску устройств с интерфейсом Ultra 640 и даже Ultra 1280 SCSI, но всё шло к тому, что в интерфейсе нужно что-то менять кардинальным образом. Параллельный SCSI уже сейчас, на этапе использования Ultra 320, многих не устраивает, главным образом по причине неудобства использования классических кабелей.

К счастью, недавно появился новый интерфейс Serial Attached SCSI (SAS). У нового стандарта будут интересные особенности. Он объединяет в себе некоторые возможности Serial ATA и Fibre Channel. Несмотря на эту странность, следует сказать, что в таком переплетении есть некий здравый смысл. Стандарт возник на основе физических и электрических спецификаций последовательного ATA с такими усовершенствованиями, как увеличение уровня сигнала для соответствующего увеличения длинны кабеля, увеличение максимальной адресуемости устройств. А самое интересное то, что технологи обещают обеспечить совместимость устройств Serial ATA и SAS, но только в следующих версиях стандартов.

К наиболее важным особенностям SAS можно отнести:

интерфейс точка-точка;
двухканальный интерфейс;
поддержка 4096 устройств в домене;
стандартный набор команд SCSI;
кабель длинной до 10 метров;
кабель 4-жильный;
полный дуплекс.

Благодаря тому, что новый интерфейс предлагает использовать такой же миниатюрный коннектор, как и Serial ATA, у разработчиков появляется новая возможность по построению более компактных устройств с высокой производительностью. Стандарт SAS также предусматривает использование расширителей. Каждый расширитель будет поддерживать адресацию 64-х устройств с возможностью каскадирования до 4096 устройств в рамках домена. Это конечно значительно меньше, чем возможности Fibre Channel, но в рамках систем хранения начального и среднего уровней, с накопителями, напрямую подсоединенными к серверу, этого вполне достаточно.

Несмотря на все прелести, интерфейс Serial Attached SCSI вряд ли быстро заместит обычный параллельный интерфейс. В мире решений для предприятий разработки обычно ведутся более тщательно и, естественно, в течение большего времени, чем для настольных систем. Да и уходят старые технологии не очень быстро, так как период, за который они отрабатывают себя, тоже немаленький. Но всё же, в году 2004 устройства с интерфейсом SAS должны выйти на рынок. Естественно, сначала это будут в основном диски и PCI-контролеры, но ещё через годик подтянутся и системы хранения данных.

Для лучшего обобщения информации предлагаем ознакомиться со сравнением современных и новых интерфейсов для систем хранения данных в виде таблицы.

1 - Стандарт регламентирует расстояние до 10 км для одномодового оптоволокна, существуют реализации устройств для передачи данных на расстояние больше чем, 105 м.
2 - В рамках внутренней виртуальной топологии кольца работают концентраторы и некоторые коммутаторы FC, также существует много реализаций коммутаторов, которые обеспечивают соединение точка-точка любых устройств, подсоединенных к ним.
3 - Cуществуют реализации устройств со SCSI, FICON, ESCON, TCP/I, HIPPI, VI протоколами.
4 - Дело в том, что устройства будут взаимно совместимы (так обещают сделать в ближайшем будущем производители). То есть SATA-контроллеры будут поддерживать SAS-диски, а SAS-контроллеры - диски SATA.

Массовое увлечение NAS

Последнее время за рубежом отмечается просто-таки массовое увлечение NAS-накопителями. Дело в том, что с увеличением актуальности ориентированного на данные подхода к построению информационных систем увеличилась привлекательность специализации классических файл-серверов и формирование новой маркетинговой единицы - NAS. При этом опыт в построении подобных систем был достаточным для быстрого старта технологии накопителей, подсоединенных к сети, а стоимость их аппаратной реализации была предельно низкой. Сегодня NAS-накопители производят фактически все производители систем хранения данных, среди них и системы начального уровня за очень маленькие деньги, и среднего, и даже системы, отвечающие за хранение десятков Терабайт информации, способные обработать колоссальное количество запросов. В каждом классе NAS-систем есть свои интересные оригинальные решения.

NAS на основе PC за 30 минут

Мы хотим немного описать одно оригинальное решение начального уровня. О практической ценности его реализации можно спорить, но в оригинальности ему не откажешь.

По сути дела, NAS-накопитель начального уровня, да и не только начального, является достаточно простым персональным компьютером с неким количеством дисков и программной частью, которая обеспечивает доступ других участников сети к данным на файловом уровне. Таким образом, для построения NAS устройства достаточно взять указанные компоненты и соединить их между собой. Все дело в том, насколько качественно вы это сделаете, настолько же надежный и качественный доступ к данным получит рабочая группа, работающая с данными, доступ к которым обеспечивает ваше устройство. Именно учитывая эти факторы, а также время развёртывания решения, плюс некоторые дизайнерские изыскания строится NAS-накопитель начального уровня.

Разница между хорошим NAS-решением начального уровня с самостоятельно собранной и настроенной в рамках выбранной ОС персоналкой, если опять-таки опустить конструктивное исполнение, будет в том:

насколько быстро вы это сделаете;
насколько просто сможет обслуживаться эта система неквалифицированным персоналом;
насколько качественно это решение будет работать и поддерживаться.

Другими словами, в случае профессионального подбора комплектующих и существования некого изначально настроенного набора программного обеспечения, можно достичь хорошего результата. Истина вроде банальная, это же можно сказать о любой задаче, которая решается по схеме готовых компонентных решений: «hardware» плюс «software».

Что предлагает сделать компания «X»? Формируется достаточно ограниченый список совместимых комплектующих: материнских плат со всем интегрированным хозяйством, нужных NAS-серверу начального уровня жёстких дисков. Вы покупаете устанавливаемый в IDE-разъём на материнской плате FLASH диск с записанным программным обеспечением и получаете готовый NAS накопитель. Операционная система и утилиты, записанные на этот диск, загружаясь, конфигурируют нужные модули адекватным образом. И в результате пользователь получает устройство, которое может управляться как локально, так и удаленно через HTML-интерфейс и предоставлять доступ к дисковым накопителям, подключённым к нему.

Файловые протоколы в современных NAS

CIFS (Common Internet File System) - это стандартный протокол, который обеспечивает доступ к файлам и сервисам на удаленных компьютерах (в том числе и в Интернет). Протокол использует клиент-серверную модель взаимодействия. Клиент создает запрос к серверу на доступ к файлам или передачу сообщения программе, которая находится на сервере. Сервер выполняет запрос клиента и возвращает результат своей работы. CIFS - это открытый стандарт, который возник на основе SMB-протокола (Server Message Block Protocol), разработанного Microsoft, но, в отличие от последнего, CIFS учитывает возможность возникновения больших таймаутов, так как ориентирован на использование в том числе и в распределённых сетях. SMB-протокол традиционно использовался в локальных сетях с ОС Windows для доступа к файлам и печати. Для транспортировки данных CIFS использует TCP/IP протокол. CIFS обеспечивает функциональность похожую на FTP (File Transfer Protocol), но предоставляет клиентам улучшенный (похожий на прямой) контроль над файлами. Он также позволяет разделять доступ к файлам между клиентами, используя блокирование и автоматическое восстановление связи с сервером в случае сбоя сети.

NFS (Network File System) - это стандарт IETF, который включает в себя распределенную файловую систему и сетевой протокол. NFS был разработан компанией Sun Microsystem Computer Corporation. Он первоначально использовался только в UNIX-системах, позже реализации клиентской и серверной чатей стали распространенными и в других системах.

NFS, как и CIFS, использует клиент-серверную модель взаимодействия. Он обеспечивает доступ к файлам на удаленном компьютере (сервере) для записи и считывания так, как если бы они находились на компьютере пользователя. В ранних версиях NFS для транспортирования данных использовался UDP-протокол, в современных - используется TCP/IP. Для работы NFS в интерент компанией Sun был разработан протокол WebNFS, который использует расширения функциональности NFS для его корректной работы во всемирной сети.

DAFS (Direct Access File System) - это стандартный протокол файлового доступа, который базируется на NFSv4. Он позволяет прикладным задачам передавать данные в обход операционной системы и ее буферного пространства напрямую к транспортным ресурсам, сохраняя семантику, свойственную файловым системам. DAFS использует преимущества новейших технологий передачи данных по схеме память-память. Его использование обеспечивает высокие скорости файлового ввода-вывода, минимальную загрузку CPU и всей системы, благодаря значительному уменьшению количества операций и прерываний, которые обычно необходимы при обработке сетевых протоколов. Особенно эффективным является использование аппаратных средств поддержки VI (Virtual Interface).

DAFS проектировался с ориентацией на использование в кластерном и серверном окружении для баз данных и разнообразных интернет-приложений, ориентированных на непрерывную работу. Он обеспечивает наименьшие задержки доступа к общим файловым ресурсам и данным, а также поддерживает интеллектуальные механизмы восстановления работоспособности системы и данных, что делает его очень привлекательным для использования в High-End NAS-накопителях.

Все дороги ведут к IP Storage

В системах хранения данных высокого и среднего уровня за последние несколько лет появилось очень много новых интересных технологий.

Fibre Channel сети хранения данных сегодня уже достаточно известная и популярная технология. В то же время, их массовое распространение сегодня является проблематичным из-за ряда особенностей. К ним можно отнести высокую стоимость реализации и сложность построения географически распределённых систем. С одной стороны - это всего лишь особенности технологии уровня предприятия, но с другой, если SAN станет дешевле, и построение распределённых систем упростится, это должно дать просто-таки колоссальный прорыв в развитии сетей хранения данных.

В рамках работы над сетевыми технологиями хранения данных в Internet Engineering Task Force (IETF) была создана рабочая группа и форум IP Storage (IPS) по направлениям:

FCIP - Fibre Channel over TCP/IP, созданный на базе TCP/IP туннельный протокол, функцией которого является соединение географически удаленных FC SAN без какого либо воздействия на FC и IP протоколы.

iFCP - Internet Fibre Channel Protocol, созданный на базе TCP/IP протокол для соединения FC систем хранения данных ли FC сетей хранение данных, используя IP инфраструктуру совместно или вместо FC коммутационных и маршрутизирующих элементов.

iSNS - Internet Storage Name Service, протокол поддержке имён накопителей в сети Интернет.

iSCSI - Internet Small Computer Systems Interface, это протокол, который базируется на TCP/IP и разработан для установления взаимодействия и управления системами хранения данных, серверами и клиентами (Определение SNIA - IP Storage Forum: ).

Самым бурно развивающимся и самым интересным из перечисленных направлений является iSCSI.

iSCSI - новый стандарт

11 февраля 2003 года iSCSI стал официальным стандартом. Ратификация iSCSI обязательно повлияет на более широкий интерес к стандарту, который уже развивается достаточно активно. Быстрее всего развитие iSCSI послужит толчком к распространению SAN в малом и среднем бизнесе, так как использование соответствующего стандарту оборудования и подхода к обслуживанию (в том числе распространённого в рамках стандартных Ethernet сетей) позволит сделать сети хранения данных значительно дешевле. Что же касается использования iSCSI в Интернет, то сегодня здесь уже неплохо прижился FCIP, и конкуренция с ним будет трудной.

Новый стандарт охотно поддержали известные IT-компании. Есть, конечно, и противники, но всё же, практически все компании, которые активно участвуют в рынке систем начального и среднего уровня, уже работают над устройствами с поддержкой iSCSI. В Windows и Linux iSCSI драйверы уже включены, системы хранения данных iSCSI производит IBM, адаптеры - Intel, в ближайшее время подключиться к процессу освоения нового стандарта обещают HP, Dell, EMC.

Одной из очень интересных особенностей iSCSI является то, что для передачи данных на накопителе с интерфейсом iSCSI можно использовать не только носители, коммутаторы и маршрутизаторы существующих сетей LAN/WAN, но и обычные сетевые адаптеры Fast Ethernet или Gigabit Ethernet на стороне клиента. Правда, при этом возникают значительные накладные расходы процессорной мощности ПК, который использует такой адаптер. По утверждению разработчиков, программная реализация iSCSI может достичь скоростей среды передачи данных Gigabit Ethernet при значительной, до 100% загрузке современных CPU. В связи с чем рекомендуется использование специальных сетевых карточек, которые будут поддерживать механизмы разгрузки CPU от обработки стека TCP.

Виртуализация в сетях хранения данных

Ёщё одной важной технологией в построении современных накопителей и сетей хранения данных является виртуализация.

Виртуализация систем хранения данных - это представление физических ресурсов в некоем логическом, более удобном виде. Эта технология позволяет гибко распределять ресурсы между пользователями и эффективно ими управлять. В рамках виртуализации успешно реализуется удаленное копирование, моментальная копия, распределение запросов ввода-вывода на наиболее подходящие по характеру обслуживания накопители и множество других алгоритмов. Реализация алгоритмов виртуализации может осуществляться как средствами самого накопителя, так и с помощью внешних устройств виртуализации или же с помощью управляющих серверов, на которых работает специализированное программное обеспечение под стандартными ОС.

Это, конечно, очень малая часть того, что можно сказать о виртуализации. Эта тема очень интересна и обширна, поэтому мы решили посвятить ей отдельную публикацию.

Отправить вопрос по решению По будням отвечаем
в течение часа

Андрей Оловянников, a.olovjannikov@сайт

Давайте договоримся….

Целью этой статьи является не подробное изучение различных систем хранения данных (СХД). Мы не будем анализировать всевозможные интерфейсы - программные и аппаратные - которые используются при создании разных способов хранения данных. Не будем рассматривать «узкие места» тех или иных разновидностей организации СХД. Здесь вы не увидите подробного рассмотрения протоколов iSCSI и их реализации в виде FC (Fibre Channel), SCSI и т.д.

Наша задача куда скромнее - просто «Договориться о терминологии» с нашим потенциальным покупателем. Так два физика перед началом обсуждения какой-либо проблемы, приходят к соглашению о том, какой процесс или явление они будут обозначать теми или иными словами. Это необходимо для того, чтобы сэкономить и время и нервные клетки друг друга, и проводить беседу более продуктивно и к взаимному удовольствию.

СХД или… СХД?

Начнем, как говорится, с начала.

Под СХД мы будем понимать все же Системы Хранения Данных как совокупность программно-аппаратных средств, служащих для надежного, максимально скоростного и простого способа хранения и доступа к данным для организаций разного уровня как финансовых, так и структурных особенностей. Сразу хотим обратить ваше внимание, что у различных фирм разные потребности в хранении информации в том или ином виде и разные финансовые возможности для их воплощения. Но в любом случае, хотим отметить, что сколько бы не было денег или специалистов того или иного уровня в распоряжении покупателя, мы настаиваем, что все их потребности укладываются в наше определение СХД - будь то обычный набор дисков большого объема, или сложная многоуровневая структура PCS (Parallels Cloud Storage). Это определение, по нашему мнению, включает в себя и другую широко применяющуюся аббревиатуру, переведенную на английский язык - СХД как Сеть Хранения Данных (Storage Area Network) - SAN. SAN мы немного проиллюстрируем ниже, когда будем рассказывать о типичных способах реализации СХД.

Наиболее типичный и понятный способ исполнения СХД это DAS - Direct Attached Storages - накопители, подключающиеся напрямую к компьтеру, который управляет работой этих накопителей.

Самый простой пример DAS - обычный компьютер с установленным в нем жестким диском или DVD (CD) приводом с данными. Пример посложнее (см. рис) - внешнее устройство-накопитель (внешний жесткий диск, дисковая полка, ленточный накопитель и т.д.), которые общаются с компьютером напрямую посредством того или иного протокола и интерфейса (SCSI, eSATA, FC и т.д.). Мы предлагаем в качестве устройств СХД DAS дисковые полки или Сервера Хранения Данных (еще одна аббревиатура СХД).

Сервер хранения данных в данном случае подразумевает некий компьютер с собственным процессором, ОС и достаточным количеством памяти для обработки больших массивов данных, хранящихся на многочисленных дисках внутри сервера.

Нужно отметить, что при таком воплощении СХД данные напрямую видит только компьютер с DAS, все остальные пользователи имеют доступ к данным только “с разрешения” этого компьютера.

Базовые конфигурации СХД DAS вы можете посмотреть в

Системы хранения NAS

Еще одна достаточно простая реализация СХД - NAS (Network Attached Storage) - Сетевое Хранилище Данных (опять та же аббревиатура СХД).

Как становится понятно, доступ к данным осуществляется посредством сетевых протоколов, как правило, через привычную нам компьютерную локальную сеть (хотя сейчас уже получили распространение и боле сложные доступы к данным, хранящимся на сетевых ресурсах). Самый понятный и простой пример СХД NAS - бытовое хранилище музыки и фильмов, к которому имеют доступ сразу несколько пользователей домашней сети.

NAS хранит данные в виде файловой системы и, соответственно, предоставляет доступ к ресурсам посредством сетевых файловых протоколов (NFS, SMB, AFP…).

Простой пример реализации СХД NAS см. на рис. 2.

Сразу хотим отметить, что NAS в принципе, может считаться любое интеллектуальное устройство, имеющее собственный процессор, память и достаточно быстрые сетевые интерфейсы для передачи данных по сети разным пользователям. Также особое внимание необходимо уделить схорости дисковой подсистемы. Наиболее типичные конфигурации устройств NAS вы можете посмотреть в

Storage Area Network - один из способов реализации СХД как Системы Хранения Данных - см. выше.

Это программно - аппаратное, а также архитектурное решение для подключения различных устройств хранения данных таким образом, что операционная система «видит» эти устройства как локальные. Это достигается посредством подключения этих устройств к соответствующим серверам. Сами устройства могут быть различными - дисковые массивы, ленточные библиотеки, массивы оптических накопителей.

С развитием технологий хранения данных различие между системами SAN и NAS стало весьма условным. Условно их можно различить по способу хранения данных: SAN - блочные устройства, NAS - файловая система данных.

Протоколы реализации систем SAN могут быть различные - Fibre Channel, iSCSI, AoE.

Один из архитектурных способов реализации SAN представлен на рис. 3.

Типичные примеры СХД SAN можно посмотреть в

В заключение, выразим надежду, что нам удалось «договориться о терминологии» с вами и осталось только обсудить варианты создания СХД для вашего бизнеса и подобрать решения, подходящие вам по надежности, простоте и бюджету.