20대 마무리

[#9] 시계열 데이터 분석 - 양방향 LSTM 본문

PROJECT/부동산 저평가 지역 예측

[#9] 시계열 데이터 분석 - 양방향 LSTM

AndaCondaa 2022. 6. 7. 23:55

변수를 추출하여 새롭게 모델링을 진행했습니다. 지금까지만으로 군집1과 군집3의 속한 도시들에 대해서는 충분히 만족할 만한 예측결과를 얻어낼 수 있었습니다. 

그러나 군집2에서는 예측이 잘 안되는 도시들이 있었습니다. 

군집2는 서울과 가장 먼 동심원을 그리는 군집이기 때문에, 지역성이나 시차등을 반영하지 못한 것이라고 판단했습니다.

해당 가설을 가지고, 군집2와 서울과의 상관계수를 시기별로 나눠서 정리해보았습니다.

전체 데이터에 대한 상관계수
4년 전까지의 데이터를 이용한 상관계수
1년 전까지의 데이터를 이용한 상관계수

 

 

세 개의 표를 보면, 전체 데이터, 4년 전 데이터, 1년 전 데이터로 갈수록 군집2와 서울과의 상관계수가 높아지는 것을 확인할 수 있습니다. 

 

최근으로 갈수록 다른 군집들과 달리 군집2는 상당히 상관계수가 높아짐을 알 수 있습니다. 이런 경향성을 반영할 수 있는 모델로 양방향LSTM을 도입하게 됩니다.

 

이후 RMSE 값을 비교한 결과입니다.

단방향 LSTM 평가지수
양방향 LSTM 평가지수

 

군집 2의 속한 도시들에 대해서 단방향과 양방향 LSTM의 예측 결과를 토대로 평가지수들을 비교해보았습니다.

예측이 잘 되지 않았던 안성시등에서 오차값이 개선됨을 확인할 수 있었고, 이를 토대로 양방향 LSTM을 최종모델로 선정하게 됩니다.