The Relationship between news and stocks 13

2022. 7. 29. 21:26Project/뉴스기사로 인한 주가 등락 예측

728x90
반응형

코드

SQL파일 read_sql로 불러오기

import pymysql
import pandas as pd

conn = pymysql.connect(
                        user    = 'stocks',
                        passwd  = 'Stocks!',
                        host    = "AWS 주소",
                        port    = 3306,
                        db      = 'Data',
                        charset = 'utf8'
        )
        
sql = 'SELECT stock_id, text, date, token, label FROM Token'
news = pd.read_sql(sql, conn)

SQL로 적재된 파일 str -> list로 전환

import re

def str_to_list(d):
  text = re.sub(r'[\[\'\]]', '', d)
  return text.split(", ")

news["token"] = news.token.apply(str_to_list)

불용어처리 -> 숫자지우기

from tqdm import tqdm
def stopword(x):
  stopword = [r'상승.*', r'하락.*', r'급등.*', r'급락.*', '상승세', '하락세', '폭등', '폭락', '오름세', '약세', '강세', '의', '가', '이', '은', '들', '는', '좀', '잘', '걍', '과', '도', '를', '으로', '자', '에', '와', '한', '하다', '에', '은', '는', '하']
  return [i for i in x if i not in stopword and not i.isdigit()]
  
tqdm.pandas()
news["token"] = news.token.progress_apply(stopword)

 

728x90
반응형