The Relationship between news and stocks 6

2022. 7. 22. 00:32Project/뉴스기사로 인한 주가 등락 예측

728x90
반응형

회의록

- Kkma 로 11만개 정도 데이터를 토큰화 하는데 대략 30~40시간 가량 걸림 ( 컴퓨터에 따라 다름 )

- Okt는 20시간 안되게 걸림

- 추후 두개 성능 비교 예정

- Kkma가 다 되는 동안 Mecab와 NLTK로 토큰화 추가 진행

코드

Pandas MySQL에 적재

from tqdm import tqdm
import pandas as pd
import pymysql

conn = pymysql.connect(
                        user    = 'stocks',
                        passwd  = 'Stocks!',
                        host    = "-",
                        port    = 3306,
                        db      = 'Data',
                        charset = 'utf8'
        )

cur = conn.cursor()

for row in tqdm(news.itertuples()):

    sql = (row[1], row[2], row[3], row[4], row[5])
    cur.execute('INSERT IGNORE INTO Token (stock_id, text, date, token, label) VALUES (%s ,%s, %s, %s, %s)', sql)
    conn.commit()
conn.close()

MySQL 데이터 Pandas로 가져오기 방법 추가

sql = 'SELECT stock_id, text, date, token, label FROM Token'
news = pd.read_sql(sql, conn)
news
728x90
반응형