하둡이란?

2022. 9. 13. 20:19Book/하둡 완벽 가이드

728x90
반응형

빅데이터!

- IDE는 " 디지털 세계 "의 크기가 2013년에는 4.4 zetabyte, 2020년에는 10배 증가한 44zetabyte에 다다를 것이라고 전망

- zetabyte는 10^21byte고, 1000엑사바이트, 100만 페타바이트, 10억 테라바이트와 동일

- zetabyte는 세상의 모든 사람이 각자 디스크를 하나씩 가진 것보다 더 큰 크기

- 수많은 곳에서 엄청난 데이터들이 만들어지고 있음

  • 뉴욕증권거래소에서는 하루에 4.5테라바이트의 데이터 발생
  • 페이스북은 2,400억 개의 사진을 보유하고 있으며, 매달 70페타바이트 증가

데이터 저장소와 분석

- 하드 디스크 용량은 지난 수년간 엄청나게 증가했지만 데이터를 읽는 속도는 그에 미치지 못함

- 단일 디스크의 데이터를 읽는데 너무 많은 시간이 걸리고, 심지어 쓰는 것은 더 느림

- 시간을 줄이는 확실한 방법은 여러 개의 디스크에서 동시에 데이터를 읽는 것

여러개의 디스크에 데이터를 병렬로 쓰거나 읽을 때 문제점

▶ 하드웨어 장애

- 많은 하드웨어를 사용할수록 장애가 발생할 확률도 높아짐

- 데이터 손실을 막기 위한 일반적인 방법 → 데이터 여러 곳에 복제!!!! ( RAID )

▶ 분할된 데이터를 대부분의 분석 작업에서 어떤 식으로든 결합해야 한다는 것

- 맵리듀스는 디스크에서 데이터를 읽고 쓰는 문제를 키 - 값 쌍의 계산으로 변환한 추상화된 프로그래밍 모델을 제공

하둡 기반에서 작동되는 다양한 처리 패턴

▶ 대화형 SQL

- 장기 실행 전용 데몬 ( 임팔라 ) 이나 컨테이너를 재사용 분산쿼리엔진을 사용

- 대용량 데이터셋에 대한 확장성이 있으면서 하둡기반의 SQL 쿼리를 실행할 때 빠른 응답 속도를 가짐

▶ 반복처리

- 머신러닝과 같은 다수의 알고리즘은 근본적으로 반복연산

- 각 반복 단계마다 디스크에서 데이터를 불러오는 것 보다는 메모리에 임시 작업 데이터셋을 보존하는 것이 더 효율적

▶ 스트림 처리

- 스톰, 스파크 스트리밍, 삼자와 같은 스트리밍 시스템은 실시간으로 실행되고 경계가 없는 스트림 데이터를 분산 계산하여 그 결과를 하둡 저장소나 외부 시스템에 보낼 수 있음

▶ 검색

- 솔라 검색 플랫폼은 하둡 클러스터에서 실행될 수 있음

- 솔라는 문서를 색인하여 HDFS에 저장하고, HDFS에 저장된 색인을 기반으로 검색 쿼리를 제공

728x90
반응형

'Book > 하둡 완벽 가이드' 카테고리의 다른 글

MapReduce  (0) 2022.10.05
YARN ( Yet Another Resource Negotiation )  (0) 2022.10.04
HDFS ( Hadoop Distributed File System )  (1) 2022.10.03
[MAC] 하둡 설치  (0) 2022.09.13