Project(38)
-
The Relationship between news and stocks 12
코드 MySQL에 토큰화 데이터 저장 from tqdm import tqdm import pandas as pd import pymysql conn = pymysql.connect( user = 'stocks', passwd = 'Stocks!', host = "-", port = 3306, db = 'Data', charset = 'utf8' ) cur = conn.cursor() for row in tqdm(news.itertuples()): sql = (row[1], row[2], row[3], row[4], row[5]) cur.execute('INSERT IGNORE INTO Token (stock_id, text, date, token, label) VALUES (%s ,%s, %s, %s, ..
2022.07.28 -
The Relationship between news and stocks 11
코드 Konlpy Kkma를 사용해서 토큰화 진행 -> 너무 오래걸림 from konlpy.tag import Kkma from tqdm import tqdm, tqdm_pandas def token(news): return Kkma().morphs(news) tqdm.pandas() news['token'] = news.text.progress_apply(token) Stopword 처리하기 def stopword(x): stopword = [r'상승.*', r'하락.*', r'급등.*', r'급락.*', '상승세', '하락세', '폭등', '폭락', '오름세', '약세', '강세', '의', '가', '이', '은', '들', '는', '좀', '잘', '걍', '과', '도', '를', '으로', ..
2022.07.28 -
The Relationship between news and stocks 10
코드 데이터 전처리 - 7월 15일 이전 데이터만 불러오기 import pandas as pd import pymysql conn = pymysql.connect( user = 'stocks', passwd = 'Stocks!', host = "-", port = 3306, db = 'Data', charset = 'utf8' ) cur = conn.cursor() cur.execute(''' SELECT DISTINCT stock_id, text, date FROM Stock_News_2 Where date < '2022-07-16 00:00:00' ''') news = cur.fetchall() news = pd.DataFrame(news, columns=['stock_id', 'text', 'dat..
2022.07.26 -
The Relationship between news and stocks 9
코드 시장 활성화 시간을 13시 30분 -> 18시로 조정 import datetime from datetime import time from datetime import timedelta for i in tqdm(range(len(news))): if len(df.loc[(df["stock_id"] == news.loc[i][0]) & (df["date"] == news.loc[i][2].date())]) == 0: for j in range(1, 7): if len(df.loc[(df["stock_id"] == news.loc[i][0]) & (df["date"] == (news.loc[i][2] + timedelta(days=j)).date())]) == 0: continue news.loc[i, ..
2022.07.26 -
The Relationship between news and stocks 8
회의록 - 뉴스기사 15만 개의 데이터를 가져와서 경제관련단어 감성 분류 - 뉴스기사와 주식데이터의 상관관계 - 뉴스기사의 어떤 키워드와 주식 등락에 어떠한? 영향을 끼치는지? - 주식 등락에 뉴스기사 데이터를 쓰는 이유? 프레임 이론 SNA 분석 방법 시간, 비용 절약 공간적 제약 X 여러 형태의 분석가능 코드 시장 마감 15시 30분을 기준으로 이전은 당일 시가와 종가 비교, 이후는 당일 종가와 다음날 시가 비교 import datetime from datetime import time from datetime import timedelta for i in tqdm(range(len(news))): if len(df.loc[(df["stock_id"] == news.loc[i][0]) & (df["d..
2022.07.22 -
The Relationship between news and stocks 7
회의록 - 4가지로 라벨링 고민 전날 종가 다음날 고가 당일 시작가 종가 당일 시작가 고가 -> 이렇게 되면 무조건 상승이거나 유지 라벨만 나오게 됨 전날 종가 다음날 종가 코드 AWS 서버 MySQL에서 데이터 불러오기 import pandas as pd import pymysql conn = pymysql.connect( user = 'stocks', passwd = 'Stocks!', host = "-", port = 3306, db = 'Data', charset = 'utf8' ) cur = conn.cursor() cur.execute(''' SELECT DISTINCT * FROM Stock_Price ''') result = cur.fetchall() df = pd.DataFrame(res..
2022.07.22