Project/FIFA Online 4 데이터 Airflow로 ETL 구성(4)
-
[Mac] HDFS에 있는 Parquet이 파일 읽기
로컬 HDFS에 있는 Parquet이 파일을 불러오는 방법은 hdfs 라이브러리 사용, pyarrow, spark 등등 여러 방법이 있었지만 spark를 사용하지 않고 파일을 불러올려고 노력을 했습니다. 1. hdfs 라이브러리와 pd.read_parquet() 사용 from hdfs import InsecureClient import pandas as pd file_path = '/path/to/directory' client = InsecureClient('http://:', user='') with client.open(file_path) as f: df = pd.read_parquet(f) df 이런식으로 진행을 하게 되면 Parquet 파일은 파일이 아니라 디렉토리 판정을 받기 때문에 파일 아니..
2023.03.29 -
[Mac] NameNode 나 DataNode가 실행되지 않을때
갑작스럽게 컴퓨터를 종료하거나 Hadoop 클러스터를 stop하지 않고 강제로 종료했을 때 간혹 가다 sbin/start_all.sh를 했을 경우 NameNode 나 DataNode가 나타나지 않는 문제가 생기곤 한다. 이 때 해결 할 수 있는 방법은 크게 3가지 정도로 1. core.site, hdfs.site 파일 확인하기 dfs.replication 1 dfs.namenode.name.dir /Users/jjwani/workspace/fastcampus/hadoop/hadoop-3.3.2/dfs/name dfs.datanode.data.dir /Users/jjwani/workspace/fastcampus/hadoop/hadoop-3.3.2/dfs/data dfs.namenode.checkpoint...
2023.03.22 -
DAG 1. 선수 데이터 DAG
라이브러리 불러오기 import requests import pandas as pd import io from airflow.operators.dummy import DummyOperator from airflow.operators.python import PythonOperator from airflow import DAG from airflow.hooks.S3_hook import S3Hook from datetime import datetime DAG 구성 매달마다 새로운 시즌이 나오기 때문에 한 달에 한 번 돌리도록 DAG를 구성 dag = DAG( dag_id = "player_data_write", description = "Player Data Crolling", start_date = da..
2023.01.02 -
FIFA Online 4 데이터 수집
데이터 구성 데이터는 매일 1시간 단위로 갱신을 시작하며 최대 한시간까지 소요될 수 있습니다. 갱신된 데이터는 갱신시작 시점을 기준으로 2시간 전 데이터까지 반영됩니다. (예를 들어, 4시 조회 시 2시까지 업데이트된 데이터를 조회할 수 있습니다.) https://developers.nexon.com/fifaonline4 개발자센터 FIFA 온라인 4에서 제공하는 Open API 공식경기 최근 매치 기록 및 각 선수 별 플레이 이력, 이적시장 정보 등 다양한 데이터를 활용하여 멋진 어플리케이션을 만들어보세요. developers.nexon.com 매치 상세 기록 MatchDTO matchId String 매치 고유 식별자 matchDate String 매치 일자 (ex. 2019-05-13T18:03:1..
2023.01.02