HDFS ( Hadoop Distributed File System )
2022. 10. 3. 22:56ㆍBook/하둡 완벽 가이드
728x90
반응형
HDFS 특징
- 범용 하드웨어를 사용하여 분산 파일 시스템 구성
- 블록 단위로 저장
- 마스터 / 워커 구조
- 내고장성, 확장성 제공
HDFS Block
- 하나의 파일을 여러 블록으로 저장
- 하둡 2에서는 기본 블록 사이즈가 128MB ( 하둡 1은 64MB )
- 실제 파일크기가 블록 사이즈가 적은 경우 파일 크기만큼만 디스크 사용
왜 HDFS Block은 클까?
- 일반적인 디스크 블록에 비해 큼 ( 128MB )
- 탐색 비용 최소화
- 블록의 시작점을 탐색하는데 적게 걸림
- 메타 데이터 크기 감소
Block 단위 처리 이점
- 파일 하나의 크기가 실제 하나의 물리 디스크 사이즈보다 커질 수 있음
- 스토리지 관리 단순화
- 내고장성과 가용성을 지원하는 복제 기능 지원 적합
NameNode
- 메타 데이터 관리
- FsImage ( 파일 시스템 이미지 ) : 네임스페이스를 포함한 데이터의 모든 정보
- EditLog : 데이터 노드에서 발생한 데이터 변환 내역
- 데이터 노드 관리
Secondary NameNode
- NameNode의 Standby 역할이 아님
- 체크포인트
- FsImage 와 EditLog를 주기적으로 병합
- 주기적으로 NameNode의 FsImage를 백업
DataNode
- 실제 파일을 로컬 파일 시스템에 HDFS 데이터를 저장
- 하트비트를 통한 데이터 노드 동작 여부 전달
- 저장하고 있는 블록의 목록울 주기적으로 네임노드에 보고
HDFS 읽기 연산
HDFS 쓰기 연산
728x90
반응형
'Book > 하둡 완벽 가이드' 카테고리의 다른 글
MapReduce (0) | 2022.10.05 |
---|---|
YARN ( Yet Another Resource Negotiation ) (0) | 2022.10.04 |
[MAC] 하둡 설치 (0) | 2022.09.13 |
하둡이란? (0) | 2022.09.13 |