20대 마무리

[#7] 시계열 데이터 분석 - 클러스터링 본문

PROJECT/부동산 저평가 지역 예측

[#7] 시계열 데이터 분석 - 클러스터링

AndaCondaa 2022. 6. 7. 23:34

거시경제변수를 추가하여 예측한 결과가 이전의 두 모델보다는 좋은 예측 결과를 보여주었지만, 전체적인 경향성을 따라가는 정도가 아닌, 각 시기별 RMSE값을 줄일 수 있는 방법이 필요했습니다.

 

부동산의 지역성을 반영할 수 있는 변수를 만들기 위해, 경기도 각 시별 데이터를 가지고 클러스터링을 진행하게 됩니다.

 

특히 클러스터링 방법에는 DTW(Dynamic Time Warping) 방법을 사용합니다.

기존 유클리디언 방식은 수직으로 그 거리를 측정하기 때문에, 시차가 있는 경향을 반영하기 힘들지만, 동적인 시간차이를 반영할 수 있는 DTW방식은 저희가 분석하고자 하는 시차가 존재하는 부동산 데이터 클러스터링에 더 적합하다고 판단했습니다.

 

군집 개수 선정에는 실루엣 계수 분석을 이용했습니다.

 

K=3
K=4

 

 

실루엣 계수 분석을 통해 K=3으로 설정하여 클러스터링을 진행했습니다.

 

 

클러스터링 결과입니다.

 

 

 

군집 1 및 군집 1에 속한 도시들의 가격지수 평균
군집 2 및 군집 2에 속한 도시들의 가격지수 평균
군집 3 및 군집 3에 속한 도시들의 가격지수 평균

 

 

처음 예상했던 것보다, 각 도시들의 경향성이 잘 반영된 클러스터링 결과를 얻어낼 수 있었습니다.

클러스터링 목적자체가 부동산의 지역성을 반영하고자 하는 것이었고, 따라서 QGIS로 시각화를 해보았습니다.

 

군집1: 주황색, 군집2: 파란색, 군집3: 노란색

 

시각화 결과는 더욱 만족스러웠습니다. 서울을 기준으로 군집별로 동심원 형태를 띄는 것을 알 수 있었습니다.

 

 

이 결과를 토대로 서울과의 거리에 따라 가격지수의 변화가 어떤 차이가 있을 것이라는 가설을 토대로 코릴레이션 메서드를 적용해보았습니다.

서울시 가격지수와 각 군집 평균 가격지수의 상관계수

서울시 가격지수 데이터를 추가하여 각 군집 평균 가격지수와 상관도를 알아보았습니다.

가설을 설정했던 대로, 군집이 서울과 먼 동심원일수록 가격지수에서 낮은 상관계수를 보임을 알 수 있습니다.

 

 

추가로 서울시의 가격지수 데이터와 각 군집 평균 데이터는 해당 도시를 예측하는데 분명히 상관성이 있다고 판단하였고, 이를 통해 두 데이터를 피쳐로 추가하여 LSTM 모델링을 진행했습니다.

 

서울시 가격지수와 군집 평균 가격지수를 피쳐로 추가하여 예측한 그래프

 

이전에 거시경제변수만을 추가하여 예측했을 때 나왔던 들쑥날쑥한 데이터보다 훨씬 좋은 예측을 보여줌을 확인할 수 있습니다.

이를 두 데이터를 최종적으로 추가하여 LSTM 모델링을 진행했습니다.