카테고리 없음
[#8] 시계열 데이터 분석 - 변수 추출 (Pearson 상관계수)
AndaCondaa
2022. 6. 7. 23:45
클러스터링을 통해 서울시와 관련이 있다는 인사이트를 도출하고, 이를 통해 서울시 가격지수와 군집별 평균 가격지수를 피쳐로 추가해 예측하였습니다.
이전보다는 상당히 개선된 예측 결과를 얻어낼 수 있었지만, 각 시기별 RMSE값을 더 낮출 필요가 있어보였습니다.
따라서 모든 변수를 가져다 쓰는 것이 아니라, 각 변수들의 상관성을 분석하고 상관성이 높은 변수를 사용할 필요성이 있다는 판단을 한 후, 각 변수에 대한 Pearson 상관계수를 분석하게 됩니다.
변수와 군집별 상관관계를 분석한 뒤, 통계학에서 강한 상관성이 있다고 판단되는 기준인 0.7을 기준값으로 잡아서 0.7 이상인 변수들만 추출했습니다.
변수 추출 후 새로 LSTM을 모델링하여 예측한 결과입니다.
변수 추출 이후 개선된 예측값을 얻어낼 수 있었습니다. 이를 통해 거시경제변수와 일부 변수들을 수정한 LSTM 모델을 완성합니다.