일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- pandas
- 부동산저평가
- 데이터시각화
- python
- pycaret
- 파이캐럿
- 판다스
- 데이터분석
- 집값예측
- 네이버데이터랩
- 빅데이터
- 파이썬
- 빅데이터분석
- LF will be replaced by CRLF the next time Git touches it
- 아파트가격비교
- 리치고
- 데이터랩
- >>>>>>HEAD
- 부동산 저평가 지역
- 부동산 집값 예측
- 부동산 저평가
- =======
- 부동산
- 실거래가분석
- KDT
- 주피터노트북
- 네이버트렌드
- 크롤링
- 네이버
- seaborn
- Today
- Total
목록PROJECT/부동산 저평가 지역 예측 (12)
20대 마무리

약 한 달간의 프로젝트를 마무리하게 되었습니다. 부동산 데이터라는 변수가 많은 데이터를 어떻게 분석해야 할지에 대한 고민과, 초기 ARIMA와 FBprophet 예측에서의 실패 때문에 많은 좌절감을 경험한 프로젝트였습니다. 특히 모델링 과정에서 이론적으로 이해하는데 많은 시간을 쏟았지만, 진행속도가 나지 않는 부분에서 상당히 고된 프로젝트였지만, 결과적으로 만족할만한 인사이트를 얻었고, 또 예측 데이터를 통해 서비스 구현을 이뤄냈습니다. 추가로, 분석된 결과와 실제 서비스로 운영하고 있는 회사에서 예측한 데이터를 비교해보는 것과 시계열 데이터를 분석하는 또 다른 모델을 구현해봐도 좋을 것 같습니다. 그 간의 프로젝트 기록들을 보시고, 부족한 부분이나 오류가 있는 부분은 언제든 댓글 달아주시면 감사하겠습니..
해당 예측 데이터를 가지고, 앱을 구현하고자 하였으나 기술과 시간의 한계로 인해 피그마를 통해 서비스 방향을 표현하였습니다. 서비스는 실수요자를 위한 정보 제공 서비스입니다. 투기가 과열되면서 실수요자들은 내집마련을 위한 대출 시기등을 고려해야 하는 상황이 많이 생기는데, 가격지수의 경향성 정도를 보여줄 수 있다면, 대출시기를 고려하는데 도움이 될 수 있을 것이라고 판단했습니다.

최종 모델을 양방향 LSTM으로 설정하고, 검증데이터를 갖기 위해, 실제 데이터가 있는 2022년 1월~3월을 포함해 총 6개월의 데이터를 예측했습니다. 전체적인 평균 RMSE는 2.38 수준의 값을 가졌고, 해당 RMSE를 갖는 예측 데이터가 사용할 만한 것인지에 대한 평가는 추후 타 서비스와의 비교를 통해 판단해야 할 것입니다. 추가로 인사이트를 얻은 부분은 이천시를 포함한 비규제지역과 관련된 부분입니다. 정부는 2020년 부동산 투기를 방지하는 투기과열지구지정제도로 경기도 다수의 지역을 추가 선정하였고, 아래 그림에서 보이는 파란색 지역들은 해당 과열지구 지정에서 벗어난 지역입니다. 투기과열지구로 지정된 지역들은 가격지수가 유지세 혹은 완만한 하락세를 보이는데 반해, 파란색으로 표시된 지역들은 풍선..

변수를 추출하여 새롭게 모델링을 진행했습니다. 지금까지만으로 군집1과 군집3의 속한 도시들에 대해서는 충분히 만족할 만한 예측결과를 얻어낼 수 있었습니다. 그러나 군집2에서는 예측이 잘 안되는 도시들이 있었습니다. 군집2는 서울과 가장 먼 동심원을 그리는 군집이기 때문에, 지역성이나 시차등을 반영하지 못한 것이라고 판단했습니다. 해당 가설을 가지고, 군집2와 서울과의 상관계수를 시기별로 나눠서 정리해보았습니다. 세 개의 표를 보면, 전체 데이터, 4년 전 데이터, 1년 전 데이터로 갈수록 군집2와 서울과의 상관계수가 높아지는 것을 확인할 수 있습니다. 최근으로 갈수록 다른 군집들과 달리 군집2는 상당히 상관계수가 높아짐을 알 수 있습니다. 이런 경향성을 반영할 수 있는 모델로 양방향LSTM을 도입하게 됩..

거시경제변수를 추가하여 예측한 결과가 이전의 두 모델보다는 좋은 예측 결과를 보여주었지만, 전체적인 경향성을 따라가는 정도가 아닌, 각 시기별 RMSE값을 줄일 수 있는 방법이 필요했습니다. 부동산의 지역성을 반영할 수 있는 변수를 만들기 위해, 경기도 각 시별 데이터를 가지고 클러스터링을 진행하게 됩니다. 특히 클러스터링 방법에는 DTW(Dynamic Time Warping) 방법을 사용합니다. 기존 유클리디언 방식은 수직으로 그 거리를 측정하기 때문에, 시차가 있는 경향을 반영하기 힘들지만, 동적인 시간차이를 반영할 수 있는 DTW방식은 저희가 분석하고자 하는 시차가 존재하는 부동산 데이터 클러스터링에 더 적합하다고 판단했습니다. 군집 개수 선정에는 실루엣 계수 분석을 이용했습니다. 실루엣 계수 분석..

이전에 ARIMA와 FBprophet으로 부동산 데이터를 잘 예측하지 못하는 것을 확인한 후, 논문을 참고하여 새로운 모델인 LSTM 모델을 선정했습니다. LSTM 모델은 다른 모델과 다르게 다른 변수들을 추가할 수 있고, Epoch과 학습률을 조정할 수 있다는 점에서 선택했습니다. 추가로 LSTM 모델을 부동산 데이터 예측에 적용하는 과정에서, 부동산 데이터가 상당히 많은 변수들의 영향을 받는다는 점을 인지하고 여러가지 거시경제 변수들을 추가하였습니다. 변수들은 기존에 유사서비스 분석에서 소개한 '리치고' 모델에서 사용했던 변수들과, 여러가지 부동산 시계열 데이터 예측 논문들에서 사용한 변수들을 참고했습니다. 사용한 거시경제변수 -MMI(광공업지수) -CPI(소비자물가지수) -대출금리 -환율 -M2(통..

스콥을 줄여서 경기도 지역의 아파트 매매 가격지수라는 데이터를 확보했고, 이제 데이터를 분석해야 할 시간입니다. 부동산 가격 데이터는 시계열 데이터이고, 이 시계열 데이터를 어떻게 분석해야 하는지에 대한 고민을 하게 되었습니다. 우선 통계학에서 전통적인 방법인 ARIMA 모델과 페이스북에서 개발했고, 시계열 데이터에서 좋은 퍼포먼스를 보이는 FBprophet을 비교하게 되었습니다. ARIMA ARIMA 모델은 AR,MA, ARMA 모델과 다르게, 차분이라는 개념을 통해서 실제 시계열 데이터의 흔한 상태인 non-stationary한 상황에서 좀 더 나은 예측 성능을 갖는 것이 목표입니다. 따라서 ARIMA에서 설정할 수 있는 변수는 차분 차수 d를 포함하여 ARIMA(p,d,q)로 표현되는데, 모델 학습..

이전 단계에서 경기도 지역에 대한 분석으로 스콥을 줄인 뒤, 해당 데이터를 수집했습니다. 데이터는 KOSIS에 공개된 '아파트 매매 실거래가격지수'를 활용했습니다. 경기도 내의 각 시별 가격지수 데이터를 정리한 모습입니다. 데이터는 2013년 01월부터 2022년 03월까지 월별 데이터입니다. 가격지수는 2021년 06월의 데이터를 100 기준으로 계산한 값입니다. 위와 같이 데이터 수집을 완료하였고, 이제 이를 통해서 다양한 분석을 통해 인사이트를 도출하여 보겠습니다.