일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 네이버
- 빅데이터분석
- 주피터노트북
- 판다스
- seaborn
- 리치고
- 데이터분석
- 빅데이터
- 아파트가격비교
- 부동산
- 파이캐럿
- 부동산 저평가 지역
- 집값예측
- =======
- python
- 부동산 저평가
- >>>>>>HEAD
- 데이터랩
- 네이버데이터랩
- 네이버트렌드
- 실거래가분석
- 파이썬
- 크롤링
- KDT
- 부동산 집값 예측
- LF will be replaced by CRLF the next time Git touches it
- pandas
- 데이터시각화
- pycaret
- 부동산저평가
- Today
- Total
목록HOME (25)
20대 마무리

깃허브에 커밋을 할 때, 새로운 오류를 만났다. error: The following untracked working tree files would be overwritten by merge: 해당 커밋을 진행하는 repository가 파일을 push 할때마다 새로운 폴더로 변경해줘서, git pull을 하는 과정에서 오류가 생기는 듯 하다. git add -A git stash 두 가지 명령어로 해결했다. 이 후 git pull을 시도하면 원활하게 진행된다.

약 한 달간의 프로젝트를 마무리하게 되었습니다. 부동산 데이터라는 변수가 많은 데이터를 어떻게 분석해야 할지에 대한 고민과, 초기 ARIMA와 FBprophet 예측에서의 실패 때문에 많은 좌절감을 경험한 프로젝트였습니다. 특히 모델링 과정에서 이론적으로 이해하는데 많은 시간을 쏟았지만, 진행속도가 나지 않는 부분에서 상당히 고된 프로젝트였지만, 결과적으로 만족할만한 인사이트를 얻었고, 또 예측 데이터를 통해 서비스 구현을 이뤄냈습니다. 추가로, 분석된 결과와 실제 서비스로 운영하고 있는 회사에서 예측한 데이터를 비교해보는 것과 시계열 데이터를 분석하는 또 다른 모델을 구현해봐도 좋을 것 같습니다. 그 간의 프로젝트 기록들을 보시고, 부족한 부분이나 오류가 있는 부분은 언제든 댓글 달아주시면 감사하겠습니..
해당 예측 데이터를 가지고, 앱을 구현하고자 하였으나 기술과 시간의 한계로 인해 피그마를 통해 서비스 방향을 표현하였습니다. 서비스는 실수요자를 위한 정보 제공 서비스입니다. 투기가 과열되면서 실수요자들은 내집마련을 위한 대출 시기등을 고려해야 하는 상황이 많이 생기는데, 가격지수의 경향성 정도를 보여줄 수 있다면, 대출시기를 고려하는데 도움이 될 수 있을 것이라고 판단했습니다.

최종 모델을 양방향 LSTM으로 설정하고, 검증데이터를 갖기 위해, 실제 데이터가 있는 2022년 1월~3월을 포함해 총 6개월의 데이터를 예측했습니다. 전체적인 평균 RMSE는 2.38 수준의 값을 가졌고, 해당 RMSE를 갖는 예측 데이터가 사용할 만한 것인지에 대한 평가는 추후 타 서비스와의 비교를 통해 판단해야 할 것입니다. 추가로 인사이트를 얻은 부분은 이천시를 포함한 비규제지역과 관련된 부분입니다. 정부는 2020년 부동산 투기를 방지하는 투기과열지구지정제도로 경기도 다수의 지역을 추가 선정하였고, 아래 그림에서 보이는 파란색 지역들은 해당 과열지구 지정에서 벗어난 지역입니다. 투기과열지구로 지정된 지역들은 가격지수가 유지세 혹은 완만한 하락세를 보이는데 반해, 파란색으로 표시된 지역들은 풍선..

변수를 추출하여 새롭게 모델링을 진행했습니다. 지금까지만으로 군집1과 군집3의 속한 도시들에 대해서는 충분히 만족할 만한 예측결과를 얻어낼 수 있었습니다. 그러나 군집2에서는 예측이 잘 안되는 도시들이 있었습니다. 군집2는 서울과 가장 먼 동심원을 그리는 군집이기 때문에, 지역성이나 시차등을 반영하지 못한 것이라고 판단했습니다. 해당 가설을 가지고, 군집2와 서울과의 상관계수를 시기별로 나눠서 정리해보았습니다. 세 개의 표를 보면, 전체 데이터, 4년 전 데이터, 1년 전 데이터로 갈수록 군집2와 서울과의 상관계수가 높아지는 것을 확인할 수 있습니다. 최근으로 갈수록 다른 군집들과 달리 군집2는 상당히 상관계수가 높아짐을 알 수 있습니다. 이런 경향성을 반영할 수 있는 모델로 양방향LSTM을 도입하게 됩..

클러스터링을 통해 서울시와 관련이 있다는 인사이트를 도출하고, 이를 통해 서울시 가격지수와 군집별 평균 가격지수를 피쳐로 추가해 예측하였습니다. 이전보다는 상당히 개선된 예측 결과를 얻어낼 수 있었지만, 각 시기별 RMSE값을 더 낮출 필요가 있어보였습니다. 따라서 모든 변수를 가져다 쓰는 것이 아니라, 각 변수들의 상관성을 분석하고 상관성이 높은 변수를 사용할 필요성이 있다는 판단을 한 후, 각 변수에 대한 Pearson 상관계수를 분석하게 됩니다. 변수와 군집별 상관관계를 분석한 뒤, 통계학에서 강한 상관성이 있다고 판단되는 기준인 0.7을 기준값으로 잡아서 0.7 이상인 변수들만 추출했습니다. 변수 추출 후 새로 LSTM을 모델링하여 예측한 결과입니다. 변수 추출 이후 개선된 예측값을 얻어낼 수 있..

거시경제변수를 추가하여 예측한 결과가 이전의 두 모델보다는 좋은 예측 결과를 보여주었지만, 전체적인 경향성을 따라가는 정도가 아닌, 각 시기별 RMSE값을 줄일 수 있는 방법이 필요했습니다. 부동산의 지역성을 반영할 수 있는 변수를 만들기 위해, 경기도 각 시별 데이터를 가지고 클러스터링을 진행하게 됩니다. 특히 클러스터링 방법에는 DTW(Dynamic Time Warping) 방법을 사용합니다. 기존 유클리디언 방식은 수직으로 그 거리를 측정하기 때문에, 시차가 있는 경향을 반영하기 힘들지만, 동적인 시간차이를 반영할 수 있는 DTW방식은 저희가 분석하고자 하는 시차가 존재하는 부동산 데이터 클러스터링에 더 적합하다고 판단했습니다. 군집 개수 선정에는 실루엣 계수 분석을 이용했습니다. 실루엣 계수 분석..

이전에 ARIMA와 FBprophet으로 부동산 데이터를 잘 예측하지 못하는 것을 확인한 후, 논문을 참고하여 새로운 모델인 LSTM 모델을 선정했습니다. LSTM 모델은 다른 모델과 다르게 다른 변수들을 추가할 수 있고, Epoch과 학습률을 조정할 수 있다는 점에서 선택했습니다. 추가로 LSTM 모델을 부동산 데이터 예측에 적용하는 과정에서, 부동산 데이터가 상당히 많은 변수들의 영향을 받는다는 점을 인지하고 여러가지 거시경제 변수들을 추가하였습니다. 변수들은 기존에 유사서비스 분석에서 소개한 '리치고' 모델에서 사용했던 변수들과, 여러가지 부동산 시계열 데이터 예측 논문들에서 사용한 변수들을 참고했습니다. 사용한 거시경제변수 -MMI(광공업지수) -CPI(소비자물가지수) -대출금리 -환율 -M2(통..