HDFS ( Hadoop Distributed File System )

2022. 10. 3. 22:56Book/하둡 완벽 가이드

728x90
반응형

HDFS 특징

- 범용 하드웨어를 사용하여 분산 파일 시스템 구성

- 블록 단위로 저장

- 마스터 / 워커 구조

- 내고장성, 확장성 제공

HDFS Block

- 하나의 파일을 여러 블록으로 저장

- 하둡 2에서는 기본 블록 사이즈가 128MB ( 하둡 1은 64MB )

- 실제 파일크기가 블록 사이즈가 적은 경우 파일 크기만큼만 디스크 사용

왜 HDFS Block은 클까?

- 일반적인 디스크 블록에 비해 큼 ( 128MB )

- 탐색 비용 최소화

- 블록의 시작점을 탐색하는데 적게 걸림

- 메타 데이터 크기 감소

Block 단위 처리 이점

- 파일 하나의 크기가 실제 하나의 물리 디스크 사이즈보다 커질 수 있음

- 스토리지 관리 단순화

- 내고장성과 가용성을 지원하는 복제 기능 지원 적합

NameNode

- 메타 데이터 관리

  • FsImage ( 파일 시스템 이미지 ) : 네임스페이스를 포함한 데이터의 모든 정보
  • EditLog : 데이터 노드에서 발생한 데이터 변환 내역

- 데이터 노드 관리

Secondary NameNode

- NameNode의 Standby 역할이 아님

- 체크포인트

  • FsImage 와 EditLog를 주기적으로 병합

- 주기적으로 NameNode의 FsImage를 백업

DataNode

- 실제 파일을 로컬 파일 시스템에 HDFS 데이터를 저장

- 하트비트를 통한 데이터 노드 동작 여부 전달

- 저장하고 있는 블록의 목록울 주기적으로 네임노드에 보고

HDFS 읽기 연산

HDFS 쓰기 연산

728x90
반응형

'Book > 하둡 완벽 가이드' 카테고리의 다른 글

MapReduce  (0) 2022.10.05
YARN ( Yet Another Resource Negotiation )  (0) 2022.10.04
[MAC] 하둡 설치  (0) 2022.09.13
하둡이란?  (0) 2022.09.13