일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- 빅데이터
- 네이버
- 네이버데이터랩
- KDT
- 파이캐럿
- python
- 아파트가격비교
- 주피터노트북
- 데이터분석
- =======
- 부동산 저평가 지역
- LF will be replaced by CRLF the next time Git touches it
- 부동산저평가
- >>>>>>HEAD
- 판다스
- pycaret
- 파이썬
- pandas
- 리치고
- seaborn
- 부동산
- 크롤링
- 실거래가분석
- 집값예측
- 부동산 저평가
- 부동산 집값 예측
- 빅데이터분석
- 데이터시각화
- 데이터랩
- 네이버트렌드
- Today
- Total
20대 마무리
[#7] 시계열 데이터 분석 - 클러스터링 본문
거시경제변수를 추가하여 예측한 결과가 이전의 두 모델보다는 좋은 예측 결과를 보여주었지만, 전체적인 경향성을 따라가는 정도가 아닌, 각 시기별 RMSE값을 줄일 수 있는 방법이 필요했습니다.
부동산의 지역성을 반영할 수 있는 변수를 만들기 위해, 경기도 각 시별 데이터를 가지고 클러스터링을 진행하게 됩니다.
특히 클러스터링 방법에는 DTW(Dynamic Time Warping) 방법을 사용합니다.
기존 유클리디언 방식은 수직으로 그 거리를 측정하기 때문에, 시차가 있는 경향을 반영하기 힘들지만, 동적인 시간차이를 반영할 수 있는 DTW방식은 저희가 분석하고자 하는 시차가 존재하는 부동산 데이터 클러스터링에 더 적합하다고 판단했습니다.
군집 개수 선정에는 실루엣 계수 분석을 이용했습니다.
실루엣 계수 분석을 통해 K=3으로 설정하여 클러스터링을 진행했습니다.
클러스터링 결과입니다.
처음 예상했던 것보다, 각 도시들의 경향성이 잘 반영된 클러스터링 결과를 얻어낼 수 있었습니다.
클러스터링 목적자체가 부동산의 지역성을 반영하고자 하는 것이었고, 따라서 QGIS로 시각화를 해보았습니다.
시각화 결과는 더욱 만족스러웠습니다. 서울을 기준으로 군집별로 동심원 형태를 띄는 것을 알 수 있었습니다.
이 결과를 토대로 서울과의 거리에 따라 가격지수의 변화가 어떤 차이가 있을 것이라는 가설을 토대로 코릴레이션 메서드를 적용해보았습니다.
서울시 가격지수 데이터를 추가하여 각 군집 평균 가격지수와 상관도를 알아보았습니다.
가설을 설정했던 대로, 군집이 서울과 먼 동심원일수록 가격지수에서 낮은 상관계수를 보임을 알 수 있습니다.
추가로 서울시의 가격지수 데이터와 각 군집 평균 데이터는 해당 도시를 예측하는데 분명히 상관성이 있다고 판단하였고, 이를 통해 두 데이터를 피쳐로 추가하여 LSTM 모델링을 진행했습니다.
이전에 거시경제변수만을 추가하여 예측했을 때 나왔던 들쑥날쑥한 데이터보다 훨씬 좋은 예측을 보여줌을 확인할 수 있습니다.
이를 두 데이터를 최종적으로 추가하여 LSTM 모델링을 진행했습니다.
'PROJECT > 부동산 저평가 지역 예측' 카테고리의 다른 글
[#10] 예측 결과 분석 - 인사이트 도출 (0) | 2022.06.08 |
---|---|
[#9] 시계열 데이터 분석 - 양방향 LSTM (0) | 2022.06.07 |
[#6] 시계열 데이터 분석 - 모델 선정 (LSTM) 및 변수 설정 (0) | 2022.06.07 |
[#5] 시계열 데이터 분석 - 모델 선정 (ARIMA vs FBprophet) (0) | 2022.06.06 |
[#4] 데이터 수집 - 경기도 부동산 가격지수 (0) | 2022.06.06 |