금융 시장 예측을 위한 앙상블 접근: 스태킹과 롤링 윈도우를 중심으로

한재윤, & 이경전. (2017). 금융 시장 예측을 위한 앙상블 접근. 한국지능정보시스템학회 학술대회논문집, 54-55. (link)

ABSTRACT

금융시장을 예측하는 것은 학문적, 실무적으로 큰 가치를 지니고 있지만 큰 어려움을 지니고 있다. 이를 해결하고자 최근 기계학습을 도입하였으며, 다양한 연구들이 진행되고 있다. 그러나 대부분의 연구는 단일 모델의 성능에 초점을 맞추고 있으며, 여러 모델을 결합하는 앙상블 접근법을 활요한 수는 매우 적다. 본 연구에서는 다양한 기계학습 모델들의 성능을 확인하고, 앙상블 기법으로는 스태킹(stacking)을 사용해 예측을 시도했다. 이 때, 데이터에 포함되어 있는 금융 시장의 변동성의 영향을 줄이기 위해, 로그 수익률과 타임래그 등의 데이터 전처리를 하였다. 또한 금융시장의 변동성에 의해 생기는 문제를 해결하기 위해 롤링 윈도우 기법을 사용하였고, 이는 모델 성능 향상에 큰 기여를 하였다. 실험 결과, 스태킹을 사용한 모델의 성능이 다른 단일 모델보다 뛰어났다. 또한 정확도, 결정계수, RMSE, MAPE 등의 다양한 평가의 관점에서 각각의 평가 기준에 대해 더 좋은 성능을 보이는 타임 래그와 윈도우 크기가 존재한다는 사실을 확인하였다.

Advertisements

앙상블 모델을 통한 인간과 인공지능 간의 최적 운용 시스템 제안: 투자회사를 중심으로

황보유정, 김진호, & 이경전. (2017). 앙상블 모델을 통한 인간과 인공지능 간의 최적 운용 시스템 제안. 한국지능정보시스템학회 학술대회논문집, 14-15. (link)

ABSTRACT

빅데이터 시대가 도래하면서, 다양한 데이터에서 규칙이나 패턴을 통해 의를 찾아내는 연구가 진행되고 있다. 다양한 머신러닝 기법들과 대용량 데이터 분석에 각광받고 있는 딥러닝 기법까지 빅데이터를 기반으로 연구되고 있다. 이렇게 다양한 방ㅂ버을 통하여 예측 모델을 만들어 사용하는 연구는 학계와 산업계에서 많이 연구되고 있다. 하지만 하나의 모델을 만드는 방법은 많이 연구되었지만, 다양한 모델들이 있을 때 어떤 모델을 사용해야하는가에 관한 연구는 많이 진행되지 않았다.

이에 본 연구에서는 다양한 예측 모델들이 있을 때 모델 선택(Decision) 관점과 모델 운영(Operation) 관점을 나누어서 연구하였다. 투자 회사의 예측 모델 선택과 운영 관점을 중심으로 18 개의 주가 지수를 사용하여, 다음날의 주가를 예측하는 예측력이 서로 다른 모델ㅇ르 3 개를 가지고 앙상블 연구를 진행하였다. LSTM, Ridge, LASSO Regression 3 가지 모델을 DNN (Deep Neural Network) 앙상블을 통해 예측력을 높일 수 있는지를 도출하고, 더 나아가 다양한 모델들이 있을 때 모델을 선택하고, 선택한 모델의 진출입까지 머신러닝 방법 중 하나인 의사결정나무 (Decision Tree)로 구현하고자 하였다.

기계학습과 롤링 윈도우 기법을 활용한 주식시장 및 환율 예측 모델 구현

한재윤, 김진호, 황보유정, & 이경전. (2017). 기계학습과 롤링 윈도우 기법을 활용한 주식시장 및 환율 예측 모델 구현. 한국지능정보시스템학회 학술대회논문집, 69-70. (link)

ABSTRACT

최근 기계학습의 기법과 성능이 발전함에 따라, 금융권에서도 기계학습을 활용하여 주식시장 및 환율 등을 예측하려는 시도가 많아지고 있다. 하지만, 단순히 경제지표를 예측하는 경우, 변동성이 크다는 특징으로 인해 낮은 성능을 보이는 문제가 발생한다. 이에 본 연구에서는 주식 시장에 성질을 안녕 하는 기법들을 탐색, 활용하여 주식시장과 환율이 증감과 지수값을 높은 성능으로 예측하는 모델을 구현하였다. 다양한 국가 기반을 가진 18 개 지수를 사용하였으며, 변동성의 영향ㅇ을 최대한 줄이기 위해 롤링 윈도우 기법을 적용한 기계학습 모델을 구현하였다. 또한 타임래그와 로그 변환 등의 데이터 전처리 기법을 적용하여 기계학습 모델의 성능을 전반적으로 향상시켰다. 그 결과, 모든 주가지수의 증감에 대한 정확도는 평균 0.793 으로 높은 성능을 보였으며, 몇몇 변수에 대해서는 0.90 을 넘는 성능을 보였다. 또한 정화도, MAPE, RMSE, R2 등의 다양한 평가 기준에 대해서 더 좋은 성능을 보이는 타임래그가 존재한다는 사실을 확인하였다.