Project(38)
-
[Mac] HDFS에 있는 Parquet이 파일 읽기
로컬 HDFS에 있는 Parquet이 파일을 불러오는 방법은 hdfs 라이브러리 사용, pyarrow, spark 등등 여러 방법이 있었지만 spark를 사용하지 않고 파일을 불러올려고 노력을 했습니다. 1. hdfs 라이브러리와 pd.read_parquet() 사용 from hdfs import InsecureClient import pandas as pd file_path = '/path/to/directory' client = InsecureClient('http://:', user='') with client.open(file_path) as f: df = pd.read_parquet(f) df 이런식으로 진행을 하게 되면 Parquet 파일은 파일이 아니라 디렉토리 판정을 받기 때문에 파일 아니..
2023.03.29 -
[Mac] NameNode 나 DataNode가 실행되지 않을때
갑작스럽게 컴퓨터를 종료하거나 Hadoop 클러스터를 stop하지 않고 강제로 종료했을 때 간혹 가다 sbin/start_all.sh를 했을 경우 NameNode 나 DataNode가 나타나지 않는 문제가 생기곤 한다. 이 때 해결 할 수 있는 방법은 크게 3가지 정도로 1. core.site, hdfs.site 파일 확인하기 dfs.replication 1 dfs.namenode.name.dir /Users/jjwani/workspace/fastcampus/hadoop/hadoop-3.3.2/dfs/name dfs.datanode.data.dir /Users/jjwani/workspace/fastcampus/hadoop/hadoop-3.3.2/dfs/data dfs.namenode.checkpoint...
2023.03.22 -
DAG 1. 선수 데이터 DAG
라이브러리 불러오기 import requests import pandas as pd import io from airflow.operators.dummy import DummyOperator from airflow.operators.python import PythonOperator from airflow import DAG from airflow.hooks.S3_hook import S3Hook from datetime import datetime DAG 구성 매달마다 새로운 시즌이 나오기 때문에 한 달에 한 번 돌리도록 DAG를 구성 dag = DAG( dag_id = "player_data_write", description = "Player Data Crolling", start_date = da..
2023.01.02 -
FIFA Online 4 데이터 수집
데이터 구성 데이터는 매일 1시간 단위로 갱신을 시작하며 최대 한시간까지 소요될 수 있습니다. 갱신된 데이터는 갱신시작 시점을 기준으로 2시간 전 데이터까지 반영됩니다. (예를 들어, 4시 조회 시 2시까지 업데이트된 데이터를 조회할 수 있습니다.) https://developers.nexon.com/fifaonline4 개발자센터 FIFA 온라인 4에서 제공하는 Open API 공식경기 최근 매치 기록 및 각 선수 별 플레이 이력, 이적시장 정보 등 다양한 데이터를 활용하여 멋진 어플리케이션을 만들어보세요. developers.nexon.com 매치 상세 기록 MatchDTO matchId String 매치 고유 식별자 matchDate String 매치 일자 (ex. 2019-05-13T18:03:1..
2023.01.02 -
프로야구 분석하기 - 1. KBO 데이터 크롤링 하기
https://sports.news.naver.com/kbaseball/schedule/index?date=20221108&month=04&year=2022&teamCode= 네이버 스포츠 스포츠의 시작과 끝! sports.news.naver.com 1. 네이버 스포츠 야구 일정 주소창 확인 https://sports.news.naver.com/kbaseball/schedule/index?date=20221108&month=04&year=2022&teamCode= - "date="는 위에 보이는 날짜를 뜻함 - "month=" 는 일정에 보이는 달을 의미함 - "year=" 는 년도, "teamCode="해당 팀 일정만 볼 수 있는 것 - 2022년도의 전체적인 데이터 수집을 목표로 하기 때문에 일단 t..
2022.12.17 -
The Relationship between news and stocks 19
회고 - 팀 프로젝트에서 확실히 개인으로 했을 때 보다 좀 더 좋은 성과가 나왔음 - Kkma로 전처리를 할 때 약 48시간정도 걸려서 시간이 너무 오래걸렸음 - AWS 내부에서 DB를 따로 저장해서 언제든지 가져다 쓸 수 있었음 - AWS서버와 모델서버를 분리해서 웹을 배포함으로써 딜레이를 줄일 수 있었음 - 모델을 경량화시킴으로써 딜레이를 줄일 수 있었음 - 좀 더 고도의 모델을 사용해서 완성에 가까운 프로젝트를 완성 해보고 싶음
2022.08.08