일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 파이썬
- 네이버트렌드
- 네이버
- LF will be replaced by CRLF the next time Git touches it
- 데이터시각화
- =======
- 주피터노트북
- 부동산 집값 예측
- python
- pycaret
- 실거래가분석
- 크롤링
- 데이터분석
- 빅데이터
- seaborn
- 부동산 저평가
- >>>>>>HEAD
- 네이버데이터랩
- 파이캐럿
- pandas
- 부동산 저평가 지역
- 데이터랩
- 부동산저평가
- 집값예측
- 빅데이터분석
- 리치고
- KDT
- 판다스
- 부동산
- 아파트가격비교
- Today
- Total
목록전체 글 (25)
20대 마무리
프로젝트 진행 중에 다양한 PC에서 작업하다보니 git hub로 저장하여 코드를 옮겨 작업하는 일이 많아졌다. 그런데 git bash에서 git add . add 작업을 할 때마다, 위와 같은 오류가 발생했다. 대충 직역하면, 다음 번에 터치할 때 LF가 CRLF로 대체된다고 한다. LF? CRLF? LF는 Line-Feed, CRLF는 Carriage-Return+Line-Feed라고 한다. 알아보니 OS별로 LF방식, CR방식, CRLF방식으로 다 다른데, git이 볼 때, 어느 쪽을 선택할지 몰라서 경고를 띄워준 것이라고 한다. 참고로 mac,linux는 LF, Windws는 CRLF를 사용한다고 한다. 강의장 노트북과 나의 노트북 모두 Windows환경인데 왜 이런 문구가 뜨는지는 모르겠다. 추가..
강의를 들으면서, 기존에 쓰던 노트북이 아닌 강의장 컴퓨터에서 커밋할 일이 생겼다. 초기 설정을 다시 해야함! Git Bash 방법 git config --global user.email "내 이메일" git config --global user.name "내 이름" 해당 방법으로 git bash에서 로그인하고 init 후 이전 방식과 동일하게 커밋하면 된다.
크롤링을 이용해서 네이버 트렌드와 관련된 간단한 분석을 진행해보았습니다. 크롤링은 데이터 분석에서 가장 기초가 되는 부분이라고 생각합니다. 이번 크롤링에서 아쉬웠던 점은, 데이터의 숫자와 제한된 시각화 방법이였습니다. 분석을 위한 충분한 데이터의 확보와 다양한 방식의 시각화를 통해 다양한 인사이트의 도출이 필요해보입니다. 해당 문제는 for문을 통해 네이버쇼핑내의 페이지를 넘겨가며 크롤링을 진행하여 더 많은 데이터를 확보하는 방법과 matplotlib 등 다른 시각화 라이브러리를 사용하는 방식으로 해결할 수 있을 것이라고 생각합니다.

이전에 네이버 쇼핑에서 항목과 가격을 데이터 프레임에 저장했습니다. 데이터는 보고단계에서 시각화가 꼭 필요합니다. 이번에는 저장된 데이터 프레임을 이용하여 시각화를 진행해보겠습니다. 먼저 라이브러리를 임포트합니다. 추가로 sort_values 를 통해 우리가 중요하게 생각하는 가격에 맞춰 데이터를 정리합니다. 데이터 분석의 핵심은 데이터를 통해 인사이트를 내는것이기 때문에, 시각적으로 인사이트를 잘 도출해 낼 수 있는 형태로 변환하는 것은 사소하지만 중요한 것이라고 생각합니다. Seaborn 라이브러리를 임포트해서 sns.distplot 함수를 통해 히스토그램을 그려보았습니다. 네이버 트렌드를 통해 인기있는 품목이 '에코백'이라는 것을 알아냈고, 네이버 쇼핑 검색을 통해 현재 네이버 쇼핑에 등록된 에코백..

이번에는 네이버 트렌드 분석을 통해 나온 제품을 네이버쇼핑에서 검색 후, 상품 가격을 크롤링 해보겠습니다. 먼저 앞에서 Rank 리스트에 인기검색어 순위를 저장했는데, 거기서 인덱스 0 항목인 1위 항목을 keyword 변수에 담았습니다. keyword 변수를 검색창에 입력하는 코드입니다. 이제 드디어 본격적인 크롤링을 해보겠습니다. 네이버 쇼핑에서 검색한 품목들의 상품명과 가격의 태그값을 먼저 추출합니다. 크롤링 코드입니다. 상품명과 가격에 해당하는 css 태그값을 입력해서 name과 price라는 이름으로 저장했습니다. 하지만 이렇게 추출한 name과 price는 바로 사용하기 어렵습니다. 사용자가 직접 확인할 수 있는 형태인 문자와 숫자로 변환해야합니다. price의 경우, 계산이나 시각화를 위해서..

본격적인 스크래핑을 진행하기 전에, 최신 트렌드를 확인했습니다. 네이버 데이터랩에 있는, 카테고리별 작일 인기검색어 1위가 무엇인지 확인하고 추출하겠습니다. 이후에 해당 품목을 네이버 쇼핑에서 검색해서 크롤링하여 해당 품목의 가격들을 비교해보도록 하겠습니다. 우선 네이버 데이터랩을 이용해 최신 트렌드를 확인해보겠습니다. 1. 크롬드라이버를 통해 네이버 데이터랩에 접속 저는 Jupyter Notebook 환경에서 셀을 분할하여 진행했지만, 셀을 병합하여 한꺼번에 실행할 경우, 충돌이 일어나는 경우가 생기기때문에 time.sleep() 을 넣어주었습니다. 2. 카테고리 목록을 뽑아서, 사용자에게 검색하고자 하는 카테고리를 입력 받기 CSS 셀렉터를 이용해서 a 태그의 클래스를 기입하고, click() 메서드..

크롤링의 방법에는 여러가지 방법이 있습니다. 그 중 저는 Selenium 라이브러리에서 크롬드라이버를 통해 크롤링을 진행했습니다. 1. Jupyter Notebook에서 크롬드라이버 및 Selenium 설치 2. Selenium을 비롯한 각종 라이브러리 import 하기

몇 년 전, 아마존과 알리바바가 전세계적인 전자상거래 시장의 메카로 떠오르던 시기가 있었습니다. Made in Korea 손톱깎이 하나로 아마존에서 수만불의 월매출을 기록했다는 기사가 떠돌고, 전자상거래에 많은 관심이 쏠리곤 했었습니다. 퇴사 후 아마존으로 억대연봉? (예시) 그 당시에는 위와 같은 문구로 아마존 전자상거래 강의, 알리바바 전자상거래 강의 등 전자상거래에 도전하는 개인 오퍼상들이 급격하게 많아졌었고, 저도 그 강의를 수강해본 한 사람이었습니다. 많은 돈을 벌기 위해 수많은 사람들이 뛰어들었지만, 대부분 시작단계에서 멈추고 말았는데, 그 이유가 무엇이었을까요? 바로 뭘 팔아야 할지 모르는 사람이 대다수였다는 것입니다. 물건을 직접 브랜딩하고 제작해서 판매까지하는 기업이 아닌 오퍼상은, 시즌..