마이너스
www.fastcampus.co.kr
Copyright ⓒ FAST CAMPUS Corp. All Rights Reserved. 무단전재 및 재배포 금지
1조
기원선, 김다운, 김도연, 서상혁, 신동혁
Data Miners & Minus Loss
www.fastcampus.co.kr
Copyright ⓒ FAST CAMPUS Corp. All Rights Reserved. 무단전재 및 재배포 금지
Content
01. 팀원 소개
02. 대회 소개
03. Data Description
05. 결과
04. Strategy
06. FeedBack
01
팀원 소개
www.fastcampus.co.kr
Copyright ⓒ FAST CAMPUS Corp. All Rights Reserved. 무단전재 및 재배포 금지
www.fastcampus.co.kr
Copyright ⓒ FAST CAMPUS Corp. All Rights Reserved. 무단전재 및 재배포 금지
팀원 소개
02
대회 소개
www.fastcampus.co.kr
Copyright ⓒ FAST CAMPUS Corp. All Rights Reserved. 무단전재 및 재배포 금지
www.fastcampus.co.kr
Copyright ⓒ FAST CAMPUS Corp. All Rights Reserved. 무단전재 및 재배포 금지
대회 개요
www.fastcampus.co.kr
Copyright ⓒ FAST CAMPUS Corp. All Rights Reserved. 무단전재 및 재배포 금지
평가 지표
www.fastcampus.co.kr
Copyright ⓒ FAST CAMPUS Corp. All Rights Reserved. 무단전재 및 재배포 금지
제출 파일
03
Data Description
www.fastcampus.co.kr
Copyright ⓒ FAST CAMPUS Corp. All Rights Reserved. 무단전재 및 재배포 금지
www.fastcampus.co.kr
Copyright ⓒ FAST CAMPUS Corp. All Rights Reserved. 무단전재 및 재배포 금지
데이터 설명
버스 및 지하철 데이터가
기본 확장 데이터로 주어짐
계약일에 따른 아파트의 정보와
타겟인 아파트의 가격이 담긴 DataSet
📘 Train & Test
📕 Extension
www.fastcampus.co.kr
Copyright ⓒ FAST CAMPUS Corp. All Rights Reserved. 무단전재 및 재배포 금지
📘 Describe
📕 Info
데이터 기초통계 및 정보 요약
표를 이용해
연속형 변수의 대체적인 분포를 확인
변수의 형태가 어떻게 이루어져 있는지
info를 활용하여 확인
04
Strategy
www.fastcampus.co.kr
Copyright ⓒ FAST CAMPUS Corp. All Rights Reserved. 무단전재 및 재배포 금지
www.fastcampus.co.kr
Copyright ⓒ FAST CAMPUS Corp. All Rights Reserved. 무단전재 및 재배포 금지
EDA
📘 Target Distribution
📕 Log Scale
실제 Target의 분포를 나타낸 그래프
Right Skewed된 것을 확인할 수 있음
Target을 Log Scale로 변환하여 변수를 확인
정규분포와 비슷한 형태를 보임
www.fastcampus.co.kr
Copyright ⓒ FAST CAMPUS Corp. All Rights Reserved. 무단전재 및 재배포 금지
EDA
아파트 면적에 따른
실거래 빈도 수를 확인
📘 Area Distribution
📕 Union
비슷한 면적의 아파트에 대해
그룹화를 진행
범주 단순화 진행한 것을
시각화
www.fastcampus.co.kr
Copyright ⓒ FAST CAMPUS Corp. All Rights Reserved. 무단전재 및 재배포 금지
EDA
현재년도를 기준으로 건축년도에 따른 target의 경향성이 눈에 띄게 보이지 않으며
건축년도가 1980년대 이전 건축물도 높은 target을 보이므로 건축년도와 target간의 관계는 보이지 않음
📘 건축년도
www.fastcampus.co.kr
Copyright ⓒ FAST CAMPUS Corp. All Rights Reserved. 무단전재 및 재배포 금지
EDA
현재년도를 기준으로 계약년일에 따른 target의 경향성이 2017년을 기준으로 크게 변동,
예측하고자 하는 데이터의 일자가 2023년 7월부터 9월 말까지 이므로 �변동성이 큰 2017년 01월 01일을 기준으로 이후 데이터를 사용
📘 Time Split
2017
www.fastcampus.co.kr
Copyright ⓒ FAST CAMPUS Corp. All Rights Reserved. 무단전재 및 재배포 금지
EDA
www.fastcampus.co.kr
Copyright ⓒ FAST CAMPUS Corp. All Rights Reserved. 무단전재 및 재배포 금지
외부 데이터 활용
학군
(서울시 학군 정보)
한강 및 지천 생활권
도시공원 생활권
전세가율
(KB부동산)
금리�(한국은행)
GDP�(한국은행)
대통령 득표율
아파트 정보 크롤링
(네이버 페이 부동산)
역세권�(버스, 지하철)
한강 대교 거리
(하버사인)
산책 생활권
숲세권 생활권
www.fastcampus.co.kr
Copyright ⓒ FAST CAMPUS Corp. All Rights Reserved. 무단전재 및 재배포 금지
Strategy I
www.fastcampus.co.kr
Copyright ⓒ FAST CAMPUS Corp. All Rights Reserved. 무단전재 및 재배포 금지
Feature Select
📘 금리(interest rate)
금리 인상이 집값에 영향을 줄 수 있는 것을
확인할 수 있었음
1년 전의 금리와 비교
금리 변동에 집값이 영향을 미침
www.fastcampus.co.kr
Copyright ⓒ FAST CAMPUS Corp. All Rights Reserved. 무단전재 및 재배포 금지
Feature Select
📘 GDP
📕 학군
www.fastcampus.co.kr
Copyright ⓒ FAST CAMPUS Corp. All Rights Reserved. 무단전재 및 재배포 금지
Feature Select
지구의 곡면을 고려하는
거리 계산식 활용
📘 harversin Distance
📕 한강대교 거리
📗 역세권
한강대교까지 거리를
하버사인 거리로 계산
교통수단 역 좌표로
가장 가까운 역의 유동인구,
최단거리, 역세권 반영
www.fastcampus.co.kr
Copyright ⓒ FAST CAMPUS Corp. All Rights Reserved. 무단전재 및 재배포 금지
데이터 전처리
KNN
Imputator
Train
Test Train merge -> Test Null 149
SPACE_APT_AVG | |
15000 | 0 |
19000 | 1 |
21500 | 2 |
24000 | 3 |
… | |
700000 | 72 |
800000 | 73 |
900000 | 74 |
1000000 | 75 |
1100000 | 76 |
1200000 | 77 |
동별 아파트명
(Categorical)
아파트명
(Categorical)
동
(Categorical)
전용면적//3.3
(Numerical)
동평 아파트명
(Categorical)
target
(Categorical)
동평 아파트별 평균값 분류
(Numerical)
www.fastcampus.co.kr
Copyright ⓒ FAST CAMPUS Corp. All Rights Reserved. 무단전재 및 재배포 금지
데이터 전처리
DONG_RANK
동 평균을 순위로 나타냄
www.fastcampus.co.kr
Copyright ⓒ FAST CAMPUS Corp. All Rights Reserved. 무단전재 및 재배포 금지
Model Select
📘 Model Voting Ensemble
Feature
Feature
Feature
www.fastcampus.co.kr
Copyright ⓒ FAST CAMPUS Corp. All Rights Reserved. 무단전재 및 재배포 금지
RESULT
RMSE test: 8468.879900564043
RMSE : 89667.8434
www.fastcampus.co.kr
Copyright ⓒ FAST CAMPUS Corp. All Rights Reserved. 무단전재 및 재배포 금지
Strategy II
www.fastcampus.co.kr
Copyright ⓒ FAST CAMPUS Corp. All Rights Reserved. 무단전재 및 재배포 금지
EDA
📘 Transaction date & Target 3 Groups
📕 Transaction date & Target 4 Groups
10억 이하 / 10억 - 40억 / 40억 초과
3군으로 나누어 Scatter Plot 으로 나타냄
(전체적으로 우상향)
2억 5천 이하 / 2억 5천 - 5억 / 5억 - 10억 / 10억 초과
4군으로 나누어 Scatter Plot으로 나타냄
(1군 빼고 시계열의 경향을 띄지 않음)
www.fastcampus.co.kr
Copyright ⓒ FAST CAMPUS Corp. All Rights Reserved. 무단전재 및 재배포 금지
데이터 전처리
아파트명으로 Train 데이터 가격의 평균을 계산
📘 Price Means
📕 K-means Clustering
📗 Set Group
K = 5
K-means clustering 활용
평균가격을 기준으로
아파트 군집화
(cluster)
www.fastcampus.co.kr
Copyright ⓒ FAST CAMPUS Corp. All Rights Reserved. 무단전재 및 재배포 금지
데이터 전처리
📘 bucket area
📕 floor
60이하 / 60초과 85이하 / 85초과
전용면적을 3개의 범주로 분리
3층 이하를 저층구간으로 설정
www.fastcampus.co.kr
Copyright ⓒ FAST CAMPUS Corp. All Rights Reserved. 무단전재 및 재배포 금지
데이터 전처리
아파트_ID
(Numerical)
시군구
(Categorical)
아파트명
(Categorical)
www.fastcampus.co.kr
Copyright ⓒ FAST CAMPUS Corp. All Rights Reserved. 무단전재 및 재배포 금지
Feature Engineering
매매일 기준으로 이전에 매매된 같은 동네, 비슷한 면적의 아파트의 정보 불러옴
부동산 평가 시 최근에 거래된 매물을 바탕으로 아파트 가격을 평가하는 경우가 많음
최근 아파트 가격
recent_price
최근 3개월 간 같은 동네의
아파트 거래량의 빈도수
거래량이 증가할 수록 아파트 집 값이
상승하는 경향을 보임
아파트 최근 거래량
transaction_cnt
📘 최근 아파트 가격(recent_price)
📕 아파트 최근 거래량(transaction cnt)
www.fastcampus.co.kr
Copyright ⓒ FAST CAMPUS Corp. All Rights Reserved. 무단전재 및 재배포 금지
Feature Engineering
📘 금리(interest rate)
금리 인상이 집값에 영향을 줄 수 있는 것을
확인할 수 있었음
실제로 1년 shift하여 비교
금리 변동에 집값이 영향을 미침
www.fastcampus.co.kr
Copyright ⓒ FAST CAMPUS Corp. All Rights Reserved. 무단전재 및 재배포 금지
Feature Select
📘 Select Feature
아파트 최근 거래가
계약년
(transaction year)
건축년도
clustered Group
아파트 최근 거래량
금리(1년 전 금리)
(interest rate)
www.fastcampus.co.kr
Copyright ⓒ FAST CAMPUS Corp. All Rights Reserved. 무단전재 및 재배포 금지
Model Select
Feature
📘 Model Ensemble
Feature
Baseline code
www.fastcampus.co.kr
Copyright ⓒ FAST CAMPUS Corp. All Rights Reserved. 무단전재 및 재배포 금지
Feature Importance
📘 Feature Importance Graph
05
결과
www.fastcampus.co.kr
Copyright ⓒ FAST CAMPUS Corp. All Rights Reserved. 무단전재 및 재배포 금지
www.fastcampus.co.kr
Copyright ⓒ FAST CAMPUS Corp. All Rights Reserved. 무단전재 및 재배포 금지
최종 순위 및 평가 지표 결과
06
FeedBack
www.fastcampus.co.kr
Copyright ⓒ FAST CAMPUS Corp. All Rights Reserved. 무단전재 및 재배포 금지
* 프로젝트 시작 단계에서 팀원들과의 협의를 통해 분류 선정(Model 선정, Feature 선정 등…) 등의 태스크 분배
www.fastcampus.co.kr
Copyright ⓒ FAST CAMPUS Corp. All Rights Reserved. 무단전재 및 재배포 금지
Task 분할
입력�데이터 타입
시계열성 검증
결측치 보간
FeedBack
* Task 위주가 아닌 각 Task의 분류에 따라 분담을 하고 토의를 통해 결과를 병합
* 결측치 존재 데이터와 결측치 제거 데이터로 모델을 통해 비교분석하면 결측치가 모델에 미치는 영향을 알 수 있음
* 결측치 보간 방법으로는 보간 모델 생성, imputation 방법(K-NN)등이 존재, 많은 결측치에 대해 제거 또한 고려
* 단, 시계열 학습을 위해 lag_feature를 생성하거나 rolling_window_feature를 생성하는 방향으로 학습 가능
* 시계열로 학습하기 위해서는 시간에 따라 변동하는 여러 시계열 데이터가 필요, 해당 데이터는 시계열 데이터가 부족함
* 대소관계가 명확할 때는 Numerical Type을 사용, 대소관계없이 라벨 자체에 의미가 존재 Categorical Type 사용
* 넣는 Feature의 데이터 타입은 크게 중요하지 않음
* 복잡한 형태의 데이터를 가공하여 각 데이터의 특성에 맞게 파생변수를 만들고 target 값을 예측하는 시간을 가졌다.
www.fastcampus.co.kr
Copyright ⓒ FAST CAMPUS Corp. All Rights Reserved. 무단전재 및 재배포 금지
의 의
차기 아이디어
아쉬운 점
배운점
Project 소감
* 데이터를 깊게 이해하고 도메인 지식을 결합하여 결과를 해석해볼 수 있는 시간을 가졌다.
* 시계열 모델링을 해보려했으나, 시계열적 변화를 표현할 수 있는 데이터가 명확하지 않았다. 시계열 모델의 특성을
확인해볼 수 있는 시간이었다.
* 복합적인 형태의 데이터를 활용한 Modeling 활용성을 확실하게 체감하며 배울 수 있는 시간이었다.
* 다양한 아이디어가 많았는데 생각만하고 실제로 구현해보지 못한 것이 아쉬웠다.
* 찾아놓은 여러 외부 데이터들을 시간 부족으로 전부 사용해보지 못한 것이 아쉬웠다.
* 기존 Feature에서 새로운 파생변수를 생성하면 높은 성능을 달성할 수 있을 것이다.(ex : 아파트별1평당Target평균)
* 시간 제한으로 적합하지 못한 추가 크롤링 데이터를 적합하면 더 좋은 정보를 가져올 것이다. (ex : 로얄층, 1평당Target)
* 결측값을 채울 수 있는 여러 가지 Imputator를 직접 적용시켜보고 특성을 알 수 있는 시간이었다.
* TREE모델 기준으로 CATEGORICAL과 INT, FLOAT을 바라보는 관점에 대해서 더 깊게 이해할 수 있는 시간이었다.
* 협업 과정에서 일어날 수 있는 문제를 마주할 수 있었고 이에 대응하는 방법에 대해 경험할 수 있었다.
* Feature의 개수를 줄이기 위해 PCA, 차원 축소 기법을 사용해 볼 수 있을 것이다.
* TEST data를 예측하기에 앞서, Valid data를 최근 3개월로 구성해서 RMSE를 추출해보자는 의견이 나왔는데 실행해보지 못해서 아쉬웠다.
Q&A
www.fastcampus.co.kr
Copyright ⓒ FAST CAMPUS Corp. All Rights Reserved. 무단전재 및 재배포 금지
감사합니다.