Project/뉴스기사로 인한 주가 등락 예측(19)
-
The Relationship between news and stocks 7
회의록 - 4가지로 라벨링 고민 전날 종가 다음날 고가 당일 시작가 종가 당일 시작가 고가 -> 이렇게 되면 무조건 상승이거나 유지 라벨만 나오게 됨 전날 종가 다음날 종가 코드 AWS 서버 MySQL에서 데이터 불러오기 import pandas as pd import pymysql conn = pymysql.connect( user = 'stocks', passwd = 'Stocks!', host = "-", port = 3306, db = 'Data', charset = 'utf8' ) cur = conn.cursor() cur.execute(''' SELECT DISTINCT * FROM Stock_Price ''') result = cur.fetchall() df = pd.DataFrame(res..
2022.07.22 -
The Relationship between news and stocks 6
회의록 - Kkma 로 11만개 정도 데이터를 토큰화 하는데 대략 30~40시간 가량 걸림 ( 컴퓨터에 따라 다름 ) - Okt는 20시간 안되게 걸림 - 추후 두개 성능 비교 예정 - Kkma가 다 되는 동안 Mecab와 NLTK로 토큰화 추가 진행 코드 Pandas MySQL에 적재 from tqdm import tqdm import pandas as pd import pymysql conn = pymysql.connect( user = 'stocks', passwd = 'Stocks!', host = "-", port = 3306, db = 'Data', charset = 'utf8' ) cur = conn.cursor() for row in tqdm(news.itertuples()): sql = ..
2022.07.22 -
The Relationship between news and stocks 5
회의록 - 뉴스 기사 토큰화 Konlpy의 Kkma, Okt로 진행 - Kkma의 경우 시간이 너무 오래 걸림 - 일단 영어와 숫자 특수문자는 제거 했을 때와 하지 않았을 경우 두가지 모두 진행 코드 AWS 서버 MySQL 연결 import pandas as pd import pymysql conn = pymysql.connect( user = 'stocks', passwd = 'Stocks!', host = "-", port = 3306, db = 'Data', charset = 'utf8' ) cur = conn.cursor() 7월 15일 이전 데이터로만 불러오기 cur.execute(''' SELECT DISTINCT stock_id, text, date FROM Stock_News_2 Where..
2022.07.22 -
The Relationship between news and stocks 4
회의록 - 데이터 전처리시 영어와 숫자 그리고 %와 같은 특수문자를 어떻게 처리할지 고민 - 전날 종가와 당일 시가를 비교해서 라벨링을 진행 - 뉴스기사랑 주식 데이터의 상관관계 분석 관련 논문 찾아보기 코드 KOSPI 200 기업 관련 뉴스 기사 수집 def News(self): self.cur.execute('SELECT id FROM Stock_ID;') stock_id = self.cur.fetchall() for idx,id in enumerate(stock_id): for i in range(1, 500): url = f'https://finance.naver.com/item/news_news.naver?code={id[0]}&page={i}&sm=entity_id.basic&clusterId..
2022.07.19 -
The Relationship between news and stocks 3
회의록 - CV 와 NLP 주제 고민 - CV로 주제 선정시 Style GAN의 필요 성능이 너무 높아 불가능 할거라고 판단 - NLP 주제인 뉴스기사로 인한 주가 등락 예측 주제로 선정 - 네이버 주식 사이트에서 KOSPI 200 기업의 주식시세와 관련 뉴스 데이터 수집 코드 클래스 생성 class Crolling: def __init__(self): self.conn = pymysql.connect(user = 'stocks', passwd = '', host = "", port = 3306, db = 'Data', charset = 'utf8') self.cur = self.conn.cursor() self.driver = webdriver.Chrome(ChromeDriverManager().ins..
2022.07.16 -
The Relationship between news and stocks 2
회의록 - CV 와 NLP 주제 고민 - CV관련 주제를 중점으로 두고 논문 찾아보기
2022.07.15