The Relationship between news and stocks 13
2022. 7. 29. 21:26ㆍProject/뉴스기사로 인한 주가 등락 예측
728x90
반응형
코드
SQL파일 read_sql로 불러오기
import pymysql
import pandas as pd
conn = pymysql.connect(
user = 'stocks',
passwd = 'Stocks!',
host = "AWS 주소",
port = 3306,
db = 'Data',
charset = 'utf8'
)
sql = 'SELECT stock_id, text, date, token, label FROM Token'
news = pd.read_sql(sql, conn)
SQL로 적재된 파일 str -> list로 전환
import re
def str_to_list(d):
text = re.sub(r'[\[\'\]]', '', d)
return text.split(", ")
news["token"] = news.token.apply(str_to_list)
불용어처리 -> 숫자지우기
from tqdm import tqdm
def stopword(x):
stopword = [r'상승.*', r'하락.*', r'급등.*', r'급락.*', '상승세', '하락세', '폭등', '폭락', '오름세', '약세', '강세', '의', '가', '이', '은', '들', '는', '좀', '잘', '걍', '과', '도', '를', '으로', '자', '에', '와', '한', '하다', '에', '은', '는', '하']
return [i for i in x if i not in stopword and not i.isdigit()]
tqdm.pandas()
news["token"] = news.token.progress_apply(stopword)
728x90
반응형
'Project > 뉴스기사로 인한 주가 등락 예측' 카테고리의 다른 글
The Relationship between news and stocks 15 (0) | 2022.08.03 |
---|---|
The Relationship between news and stocks 14 (0) | 2022.08.02 |
The Relationship between news and stocks 12 (0) | 2022.07.28 |
The Relationship between news and stocks 11 (0) | 2022.07.28 |
The Relationship between news and stocks 10 (0) | 2022.07.26 |