Book(11)
-
HDFS ( Hadoop Distributed File System )
HDFS 특징 - 범용 하드웨어를 사용하여 분산 파일 시스템 구성 - 블록 단위로 저장 - 마스터 / 워커 구조 - 내고장성, 확장성 제공 HDFS Block - 하나의 파일을 여러 블록으로 저장 - 하둡 2에서는 기본 블록 사이즈가 128MB ( 하둡 1은 64MB ) - 실제 파일크기가 블록 사이즈가 적은 경우 파일 크기만큼만 디스크 사용 왜 HDFS Block은 클까? - 일반적인 디스크 블록에 비해 큼 ( 128MB ) - 탐색 비용 최소화 - 블록의 시작점을 탐색하는데 적게 걸림 - 메타 데이터 크기 감소 Block 단위 처리 이점 - 파일 하나의 크기가 실제 하나의 물리 디스크 사이즈보다 커질 수 있음 - 스토리지 관리 단순화 - 내고장성과 가용성을 지원하는 복제 기능 지원 적합 NameNod..
2022.10.03 -
[MAC] 하둡 설치
JAVA 설치 - JAVA 8 Java Archive Downloads - Java SE 8 We’re sorry. We could not find a match for your search. We suggest you try the following to help find what you’re looking for: Check the spelling of your keyword search. Use synonyms for the keyword you typed, for example, try "application" instead of www.oracle.com 하둡 설치 $ brew install hadoop ## 하둡의 버전과 설치된 경로를 확인 $ brew info hadoop ## 경로는 위 명..
2022.09.13 -
하둡이란?
빅데이터! - IDE는 " 디지털 세계 "의 크기가 2013년에는 4.4 zetabyte, 2020년에는 10배 증가한 44zetabyte에 다다를 것이라고 전망 - zetabyte는 10^21byte고, 1000엑사바이트, 100만 페타바이트, 10억 테라바이트와 동일 - zetabyte는 세상의 모든 사람이 각자 디스크를 하나씩 가진 것보다 더 큰 크기 - 수많은 곳에서 엄청난 데이터들이 만들어지고 있음 뉴욕증권거래소에서는 하루에 4.5테라바이트의 데이터 발생 페이스북은 2,400억 개의 사진을 보유하고 있으며, 매달 70페타바이트 증가 데이터 저장소와 분석 - 하드 디스크 용량은 지난 수년간 엄청나게 증가했지만 데이터를 읽는 속도는 그에 미치지 못함 - 단일 디스크의 데이터를 읽는데 너무 많은 시간..
2022.09.13 -
Airflow 시작
가상환경 설정 $ conda create --name airflow python==3.8 $ conda activate airflow Airflow 설치 $ export AIRFLOW_HOME=~/airflow $ AIRFLOW_VERSION=2.2.3 $ PYTHON_VERSION="$(python --version | cut -d " " -f 2 | cut -d "." -f 1-2)" $ CONSTRAINT_URL="https://raw.githubusercontent.com/apache/airflow/constraints-${AIRFLOW_VERSION}/constraints-${PYTHON_VERSION}.txt" $ pip install "apache-airflow==${AIRFLOW_VERSI..
2022.09.03 -
Airflow 소개
데이터파이프라인 소개 - 태스크를 병렬로 실행 -> 가용 컴퓨팅 리소스를 더 효율적으로 활용! - 파이프라인을 작은 점진적인 태스크로 명확하게 분리 할 수 있음. - 실패한 태스크만 재실행 하면됨 -> 효율적 ※ 모놀리식 : 파이프 라인의 중간 태스크가 실패하면 전체 스크립트를 재실행 해야함 -> 비효율적 Airflow DAG를 파이썬 코드로 정의할 때 장점 - 프로그래밍 접근 방식이 DAG를 구성하는데 많은 유연성을 제공할 수 있음. ※ DAG ( Directed Acyclic Graph, 방향성 비순환 그래프 ) Airflow 주요 구성요소 ▶ Airflow 스케줄러 DAG를 분석하고 현재 시점의 스케줄이 지난경우 Airflow 워커에 DAG의 태스크를 예약함. ■ Airflow 스케줄러 작업 단계 ..
2022.09.02