Book/하둡 완벽 가이드(5)
-
MapReduce
MapReduce 란? - 2004년에 구글에서 발표한 데이터 처리 알고리즘 - Hadoop의 MapReduce는 구글에서 발표한 MapReduce 논문을 자바로 구현한 애플리케이션 MapReduce 처리과정 ▶ InputFormat ▶ SequenceFile - Hadoop에서 제공하는 Binary 파일 포맷 - Key - Value pair로 구성 - Binary로 저장되어 있어서 속도가 빠름 - 압축에 따른 포맷 Uncompressed Record - Compressed : 값만 압축 Block - Compressed : 키와 값 모두 블록에 압축 - 용도 작은 압축 파일들을 모아 SeqeunceFile로 묶어서 사용 압축을 통해 Shuffling의 트래픽 양을 줄이는데 사용 ▶ InputSplit..
2022.10.05 -
YARN ( Yet Another Resource Negotiation )
MapReduce 1 - 문제점 확장성 병목 신뢰성과 가용성 문제 맵리듀스 프로그램 모델만 지원 클러스터 이용률 문제 YARN ( Yet Another Resource Negotiation ) 의 등장 = MapReduce 2 - 특징 JobTracker의 두 가지 중요한 부분의 책임 분리 Resource Manager Application Master 확장성 개선 다양한 워크로드 지원 클러스터 이용률 개선 기존 맵리듀스 호환성 지원 YARN Architecture MapReduce 1 VS YARN YARN 컴포넌트 - Resource Manager 클러스터 리소스를 중재하는 마스터 주요 컴포넌트 Scheduler FIFO ( 선입선출 ) Capacity Scheduler Fair Scheduler A..
2022.10.04 -
HDFS ( Hadoop Distributed File System )
HDFS 특징 - 범용 하드웨어를 사용하여 분산 파일 시스템 구성 - 블록 단위로 저장 - 마스터 / 워커 구조 - 내고장성, 확장성 제공 HDFS Block - 하나의 파일을 여러 블록으로 저장 - 하둡 2에서는 기본 블록 사이즈가 128MB ( 하둡 1은 64MB ) - 실제 파일크기가 블록 사이즈가 적은 경우 파일 크기만큼만 디스크 사용 왜 HDFS Block은 클까? - 일반적인 디스크 블록에 비해 큼 ( 128MB ) - 탐색 비용 최소화 - 블록의 시작점을 탐색하는데 적게 걸림 - 메타 데이터 크기 감소 Block 단위 처리 이점 - 파일 하나의 크기가 실제 하나의 물리 디스크 사이즈보다 커질 수 있음 - 스토리지 관리 단순화 - 내고장성과 가용성을 지원하는 복제 기능 지원 적합 NameNod..
2022.10.03 -
[MAC] 하둡 설치
JAVA 설치 - JAVA 8 Java Archive Downloads - Java SE 8 We’re sorry. We could not find a match for your search. We suggest you try the following to help find what you’re looking for: Check the spelling of your keyword search. Use synonyms for the keyword you typed, for example, try "application" instead of www.oracle.com 하둡 설치 $ brew install hadoop ## 하둡의 버전과 설치된 경로를 확인 $ brew info hadoop ## 경로는 위 명..
2022.09.13 -
하둡이란?
빅데이터! - IDE는 " 디지털 세계 "의 크기가 2013년에는 4.4 zetabyte, 2020년에는 10배 증가한 44zetabyte에 다다를 것이라고 전망 - zetabyte는 10^21byte고, 1000엑사바이트, 100만 페타바이트, 10억 테라바이트와 동일 - zetabyte는 세상의 모든 사람이 각자 디스크를 하나씩 가진 것보다 더 큰 크기 - 수많은 곳에서 엄청난 데이터들이 만들어지고 있음 뉴욕증권거래소에서는 하루에 4.5테라바이트의 데이터 발생 페이스북은 2,400억 개의 사진을 보유하고 있으며, 매달 70페타바이트 증가 데이터 저장소와 분석 - 하드 디스크 용량은 지난 수년간 엄청나게 증가했지만 데이터를 읽는 속도는 그에 미치지 못함 - 단일 디스크의 데이터를 읽는데 너무 많은 시간..
2022.09.13