Hadoop 간단 아키텍처와 Disk RAID구성에 대하여

By | 2015-04-16

데이터 저장을 위해 가장 많이 사용하는 오픈소스인 HDFS, 즉 Hadoop Distributed File System(하둡 분산 파일시스템)에 대해 간략히 알아보고, 물리적인 HW 구성시 꼭 알아야할 Disk 구성, 즉, RAID(Redundant Array of Inexpensive (Independent) Disks) 구성에 대해 알아보고자 한다.

HDFS(Hadoop Distributed File System)의 물리적 아키텍처

hadoop architecture

Hadoop Architecture

 

Hadoop은 잘 아시다시피,

  • 블록 단위로 파일을 보관. 기본 설정은 64MB
  • 분산파일 시스템 : 블록을 다중 노드에 분산해서 보관
  • Replication : 하나의 블록은 여러 노드에 복제, 특정 노드 장애에 무정지 대응

고가용성(High Availability)을 유지,보장하기 위해 데이터를 Replication, 즉, 3배수 복제하여 저장을 하고,
특히, HDFS 2.0 버전 부터는 Name Node를 이중화(Active-Standby) 지원이 가능해졌다.
Name Node의 경우는 이중화가 가능해졌지만, 중요한 정보들을 가지고 있으므로, 물리적으로 Disk 백업체계를 고려해야하며,
Data Node의 경우는 Hadoop이 자체적인 Replication, 즉, 3배수 복제를 해서 고가용성을 보장하기 때문에 물리적인 Disk 백업이 필요치 않다.

RAID(Redundant Array of Inexpensive (Independent) Disks) 구성

Hadoop의 Master Node들과 Slave Node들 각각에 적합한 물리적 디스크 구조를 알아보기 위해 먼저 RAID 구조에 대해 설명하고자 한다.
RAID는 다양한 디스크 배열,구성 방식을 이용하여 중복성을 통해 저장기능과 신뢰성을 제공하는 기술이다.
여러 개의 디스크를 하나로 묶은 Stripe, 중복 저장하는 Mirroing 등을 방식을 묶어 다양하게 디스크를 배열해서 사용하는 것으로
RAID LEVEL 0부터 20여가지의 방식이 있으며, 일반적으로는 0,1,5,10 정도가 사용된다. 나머지는 실제 사용되지 않거나 전문 시스템용이다.

상세한 구성은 다음 글 “데이터 저장을 위한 Disk RAID 구성“에서 확인하면 된다.

HDFS를 위한 디스크 RAID 구성

 위에서 언급했듯이, Name Node의 경우는 이중화가 가능해졌지만, 중요한 정보들을 가지고 있으므로, 물리적으로 Disk 백업체계를 고려해야하며, Data Node의 경우는 Hadoop이 자체적인 Replication, 즉, 3배수 복제를 해서 고가용성을 보장하기 때문에 물리적인 Disk 백업이 필요치 않다.
따라서, 적어도 Name Node는 RAID 5 또는 여유가 된다면 RAID 10, Data Node는 RAID 0 으로 구성하면 적합하다.

 

Reference