Project/뉴스기사로 인한 주가 등락 예측(19)
-
The Relationship between news and stocks 19
회고 - 팀 프로젝트에서 확실히 개인으로 했을 때 보다 좀 더 좋은 성과가 나왔음 - Kkma로 전처리를 할 때 약 48시간정도 걸려서 시간이 너무 오래걸렸음 - AWS 내부에서 DB를 따로 저장해서 언제든지 가져다 쓸 수 있었음 - AWS서버와 모델서버를 분리해서 웹을 배포함으로써 딜레이를 줄일 수 있었음 - 모델을 경량화시킴으로써 딜레이를 줄일 수 있었음 - 좀 더 고도의 모델을 사용해서 완성에 가까운 프로젝트를 완성 해보고 싶음
2022.08.08 -
The Relationship between news and stocks 18
코드 로컬 모델서버 from flask import Flask, request from konlpy.tag import Kkma, Okt from tensorflow.keras.preprocessing.text import Tokenizer from tensorflow.keras.preprocessing.sequence import pad_sequences import keras import re app1 = Flask(__name__) @app1.route('/') # 테스트용 def index() : return '모델 서버 입니다. 여기로 직접 접근하면 안됩니다.' @app1.route('/result', methods=['POST','GET']) # http://아이피:포트/api def api(..
2022.08.05 -
The Relationship between news and stocks 17
의미 연결망 분석 ( Semantic Network Analysis, SNA ) 이란? - 사회 연결망 분석 ( Social Network Analysis ) 는 분석 대상 및 분석 대상들간의 관계를 연결망 구조로 표현하고 이를 계량적으로 제시하는 분석 기법 - 사회 연결망 분석은 사람, 장소, 물품 등의 객체 간의 관계를 분석하는데 효과적이며 주로 친구 관계, 전력 공급 등을 분석하는데 사용 - 사회 연결망 분석 기법을 텍스트 내 단어의 관계에 적용한 것이 바로 의미 연결망 분석 - 의미 연결망 분석에서는 일정한 범위 내에서 어휘가 동시에 등장하면 서로 연결된 것으로 간주, 이 연결 관계들을 분석 ▶ N-gram import nltk nltk.download('punkt') from nltk impor..
2022.08.05 -
The Relationship between news and stocks 16
TextCNN 1. Word embedding vector를 input으로 받음 2. Filter와 Word embedding vector의 convolution 연산을 통해 feature map 생성 3. activation function을 통해 feature map을 activation map으로 사상 4. 각 activation map을 max pooling하여 concatenation 5. concat한 벡터를 fully-connected layer의 input으로 넣은 후 classification ▶ TextCNN 장점 - 문장의 문맥적 의미를 파악하는 과정에서 정보를 집약 → 연산속도 향상 - 분류 문제에서 RNN보다 좋은 성능을 보임 코드 필요 라이브러리 설치 %pip install ge..
2022.08.03 -
The Relationship between news and stocks 15
LSTM - LSTM에서는 출력, 입력, 삭제 게이트라는 3개의 게이트가 존재했 - GRU는 LSTM보다 학습 속도가 빠르다고 알려져있지만 여러 평가에서 GRU는 LSTM과 비슷한 성능을 보인다고 알려져 있음 - GRU와 LSTM 중 어떤 것이 모델의 성능면에서 더 낫다라고 단정지어 말할 수 없으며, 기존에 LSTM을 사용하면서 최적의 하이퍼파라미터를 찾아낸 상황이라면 굳이 GRU로 바꿔서 사용할 필요는 없음 - 데이터 양이 적을 때는 매개 변수의 앵이 적은 GRU가 조금 더 낫고, 데이터 양이 더 많으면 LSTM이 더 낫다고도 함 양방향 RNN모델 구성 - 출력값에 대한 손실을 최소롸하는 과정에서 모든 파라미터를 동시에 학습되는 종단간 학습 가능 - 단어와 구간 유사성을 입력벡터에 내재화하여 성능 개선..
2022.08.03 -
The Relationship between news and stocks 14
GRU - LSTM에서는 출력, 입력, 삭제 게이트라는 3개의 게이트가 존재했지만 GRU에서는 업데이트 게이트와 리셋 게이트 2가지 게이트만이 존재함 - GRU는 LSTM보다 학습 속도가 빠르다고 알려져있지만 여러 평가에서 GRU는 LSTM과 비슷한 성능을 보인다고 알려져 있음 양방향 RNN모델 구성 - 출력값에 대한 손실을 최소롸하는 과정에서 모든 파라미터를 동시에 학습되는 종단간 학습 가능 - 단어와 구간 유사성을 입력벡터에 내재화하여 성능 개선 - 데이터 길이가 길어도 성능이 저하되지 않음 코드 필요 라이브러리 설치 %pip install gensim --upgrade %pip install -U keras-tuner %pip install pymysql 라이브러리 불러오기 import IPytho..
2022.08.02