1 of 43

마이너스

www.fastcampus.co.kr

Copyright ⓒ FAST CAMPUS Corp. All Rights Reserved. 무단전재 및 재배포 금지

1조

기원선, 김다운, 김도연, 서상혁, 신동혁

Data Miners & Minus Loss

2 of 43

www.fastcampus.co.kr

Copyright ⓒ FAST CAMPUS Corp. All Rights Reserved. 무단전재 및 재배포 금지

Content

01. 팀원 소개

02. 대회 소개

03. Data Description

05. 결과

04. Strategy

06. FeedBack

3 of 43

01

팀원 소개

www.fastcampus.co.kr

Copyright ⓒ FAST CAMPUS Corp. All Rights Reserved. 무단전재 및 재배포 금지

4 of 43

www.fastcampus.co.kr

Copyright ⓒ FAST CAMPUS Corp. All Rights Reserved. 무단전재 및 재배포 금지

팀원 소개

5 of 43

02

대회 소개

www.fastcampus.co.kr

Copyright ⓒ FAST CAMPUS Corp. All Rights Reserved. 무단전재 및 재배포 금지

6 of 43

www.fastcampus.co.kr

Copyright ⓒ FAST CAMPUS Corp. All Rights Reserved. 무단전재 및 재배포 금지

대회 개요

7 of 43

www.fastcampus.co.kr

Copyright ⓒ FAST CAMPUS Corp. All Rights Reserved. 무단전재 및 재배포 금지

평가 지표

8 of 43

www.fastcampus.co.kr

Copyright ⓒ FAST CAMPUS Corp. All Rights Reserved. 무단전재 및 재배포 금지

제출 파일

9 of 43

03

Data Description

www.fastcampus.co.kr

Copyright ⓒ FAST CAMPUS Corp. All Rights Reserved. 무단전재 및 재배포 금지

10 of 43

www.fastcampus.co.kr

Copyright ⓒ FAST CAMPUS Corp. All Rights Reserved. 무단전재 및 재배포 금지

데이터 설명

버스 및 지하철 데이터가

기본 확장 데이터로 주어짐

계약일에 따른 아파트의 정보와

타겟인 아파트의 가격이 담긴 DataSet

📘 Train & Test

📕 Extension

11 of 43

www.fastcampus.co.kr

Copyright ⓒ FAST CAMPUS Corp. All Rights Reserved. 무단전재 및 재배포 금지

📘 Describe

📕 Info

데이터 기초통계 및 정보 요약

표를 이용해

연속형 변수의 대체적인 분포를 확인

변수의 형태가 어떻게 이루어져 있는지

info를 활용하여 확인

12 of 43

04

Strategy

www.fastcampus.co.kr

Copyright ⓒ FAST CAMPUS Corp. All Rights Reserved. 무단전재 및 재배포 금지

13 of 43

www.fastcampus.co.kr

Copyright ⓒ FAST CAMPUS Corp. All Rights Reserved. 무단전재 및 재배포 금지

EDA

📘 Target Distribution

📕 Log Scale

실제 Target의 분포를 나타낸 그래프

Right Skewed된 것을 확인할 수 있음

Target을 Log Scale로 변환하여 변수를 확인

정규분포와 비슷한 형태를 보임

14 of 43

www.fastcampus.co.kr

Copyright ⓒ FAST CAMPUS Corp. All Rights Reserved. 무단전재 및 재배포 금지

EDA

아파트 면적에 따른

실거래 빈도 수를 확인

📘 Area Distribution

📕 Union

비슷한 면적의 아파트에 대해

그룹화를 진행

범주 단순화 진행한 것을

시각화

15 of 43

www.fastcampus.co.kr

Copyright ⓒ FAST CAMPUS Corp. All Rights Reserved. 무단전재 및 재배포 금지

EDA

현재년도를 기준으로 건축년도에 따른 target의 경향성이 눈에 띄게 보이지 않으며

건축년도가 1980년대 이전 건축물도 높은 target을 보이므로 건축년도와 target간의 관계는 보이지 않음

📘 건축년도

16 of 43

www.fastcampus.co.kr

Copyright ⓒ FAST CAMPUS Corp. All Rights Reserved. 무단전재 및 재배포 금지

EDA

현재년도를 기준으로 계약년일에 따른 target의 경향성이 2017년을 기준으로 크게 변동,

예측하고자 하는 데이터의 일자가 2023년 7월부터 9월 말까지 이므로 �변동성이 큰 2017년 01월 01일을 기준으로 이후 데이터를 사용

📘 Time Split

2017

17 of 43

www.fastcampus.co.kr

Copyright ⓒ FAST CAMPUS Corp. All Rights Reserved. 무단전재 및 재배포 금지

EDA

18 of 43

www.fastcampus.co.kr

Copyright ⓒ FAST CAMPUS Corp. All Rights Reserved. 무단전재 및 재배포 금지

외부 데이터 활용

학군

(서울시 학군 정보)

한강 및 지천 생활권

도시공원 생활권

전세가율

(KB부동산)

금리�(한국은행)

GDP�(한국은행)

대통령 득표율

아파트 정보 크롤링

(네이버 페이 부동산)

역세권�(버스, 지하철)

한강 대교 거리

(하버사인)

산책 생활권

숲세권 생활권

19 of 43

www.fastcampus.co.kr

Copyright ⓒ FAST CAMPUS Corp. All Rights Reserved. 무단전재 및 재배포 금지

Strategy I

20 of 43

www.fastcampus.co.kr

Copyright ⓒ FAST CAMPUS Corp. All Rights Reserved. 무단전재 및 재배포 금지

Feature Select

📘 금리(interest rate)

금리 인상이 집값에 영향을 줄 수 있는 것을

확인할 수 있었음

1년 전의 금리와 비교

금리 변동에 집값이 영향을 미침

21 of 43

www.fastcampus.co.kr

Copyright ⓒ FAST CAMPUS Corp. All Rights Reserved. 무단전재 및 재배포 금지

Feature Select

📘 GDP

📕 학군

22 of 43

www.fastcampus.co.kr

Copyright ⓒ FAST CAMPUS Corp. All Rights Reserved. 무단전재 및 재배포 금지

Feature Select

지구의 곡면을 고려하는

거리 계산식 활용

📘 harversin Distance

📕 한강대교 거리

📗 역세권

한강대교까지 거리를

하버사인 거리로 계산

교통수단 역 좌표로

가장 가까운 역의 유동인구,

최단거리, 역세권 반영

23 of 43

www.fastcampus.co.kr

Copyright ⓒ FAST CAMPUS Corp. All Rights Reserved. 무단전재 및 재배포 금지

데이터 전처리

KNN

Imputator

Train

Test Train merge -> Test Null 149

SPACE_APT_AVG

15000

0

19000

1

21500

2

24000

3

700000

72

800000

73

900000

74

1000000

75

1100000

76

1200000

77

동별 아파트명

(Categorical)

아파트명

(Categorical)

(Categorical)

전용면적//3.3

(Numerical)

동평 아파트명

(Categorical)

target

(Categorical)

동평 아파트별 평균값 분류

(Numerical)

24 of 43

www.fastcampus.co.kr

Copyright ⓒ FAST CAMPUS Corp. All Rights Reserved. 무단전재 및 재배포 금지

데이터 전처리

DONG_RANK

동 평균을 순위로 나타냄

25 of 43

www.fastcampus.co.kr

Copyright ⓒ FAST CAMPUS Corp. All Rights Reserved. 무단전재 및 재배포 금지

Model Select

📘 Model Voting Ensemble

Feature

  1. 동별 아파트 및 아파트의 전용 면적별 평균값 분류
  2. 동 평균값을 순위로 나타냄
  3. 계약 년월
  4. 외부 데이터 (금리,GDP,하버사인, 전세가율, 학군)

Feature

  • 동별 아파트 및 아파트의 전용 면적별 평균값 분류
  • 동 평균값을 순위로 나타냄
  • 계약 년월
  • 외부 데이터 (금리,GDP,하버사인, 전세가율, 학군)

Feature

  • 동별 아파트 및 아파트의 전용 면적별 평균값 분류
  • 동 평균값을 순위로 나타냄
  • 계약 년월
  • 외부 데이터 (금리,GDP,하버사인, 전세가율, 학군)

26 of 43

www.fastcampus.co.kr

Copyright ⓒ FAST CAMPUS Corp. All Rights Reserved. 무단전재 및 재배포 금지

RESULT

RMSE test: 8468.879900564043

RMSE : 89667.8434

27 of 43

www.fastcampus.co.kr

Copyright ⓒ FAST CAMPUS Corp. All Rights Reserved. 무단전재 및 재배포 금지

Strategy II

28 of 43

www.fastcampus.co.kr

Copyright ⓒ FAST CAMPUS Corp. All Rights Reserved. 무단전재 및 재배포 금지

EDA

📘 Transaction date & Target 3 Groups

📕 Transaction date & Target 4 Groups

10억 이하 / 10억 - 40억 / 40억 초과

3군으로 나누어 Scatter Plot 으로 나타냄

(전체적으로 우상향)

2억 5천 이하 / 2억 5천 - 5억 / 5억 - 10억 / 10억 초과

4군으로 나누어 Scatter Plot으로 나타냄

(1군 빼고 시계열의 경향을 띄지 않음)

29 of 43

www.fastcampus.co.kr

Copyright ⓒ FAST CAMPUS Corp. All Rights Reserved. 무단전재 및 재배포 금지

데이터 전처리

아파트명으로 Train 데이터 가격의 평균을 계산

📘 Price Means

📕 K-means Clustering

📗 Set Group

K = 5

K-means clustering 활용

평균가격을 기준으로

아파트 군집화

(cluster)

30 of 43

www.fastcampus.co.kr

Copyright ⓒ FAST CAMPUS Corp. All Rights Reserved. 무단전재 및 재배포 금지

데이터 전처리

📘 bucket area

📕 floor

60이하 / 60초과 85이하 / 85초과

전용면적을 3개의 범주로 분리

3층 이하를 저층구간으로 설정

31 of 43

www.fastcampus.co.kr

Copyright ⓒ FAST CAMPUS Corp. All Rights Reserved. 무단전재 및 재배포 금지

데이터 전처리

아파트_ID

(Numerical)

시군구

(Categorical)

아파트명

(Categorical)

32 of 43

www.fastcampus.co.kr

Copyright ⓒ FAST CAMPUS Corp. All Rights Reserved. 무단전재 및 재배포 금지

Feature Engineering

매매일 기준으로 이전에 매매된 같은 동네, 비슷한 면적의 아파트의 정보 불러옴

부동산 평가 시 최근에 거래된 매물을 바탕으로 아파트 가격을 평가하는 경우가 많음

최근 아파트 가격

recent_price

최근 3개월 간 같은 동네의

아파트 거래량의 빈도수

거래량이 증가할 수록 아파트 집 값이

상승하는 경향을 보임

아파트 최근 거래량

transaction_cnt

📘 최근 아파트 가격(recent_price)

📕 아파트 최근 거래량(transaction cnt)

33 of 43

www.fastcampus.co.kr

Copyright ⓒ FAST CAMPUS Corp. All Rights Reserved. 무단전재 및 재배포 금지

Feature Engineering

📘 금리(interest rate)

금리 인상이 집값에 영향을 줄 수 있는 것을

확인할 수 있었음

실제로 1년 shift하여 비교

금리 변동에 집값이 영향을 미침

34 of 43

www.fastcampus.co.kr

Copyright ⓒ FAST CAMPUS Corp. All Rights Reserved. 무단전재 및 재배포 금지

Feature Select

📘 Select Feature

아파트 최근 거래가

계약년

(transaction year)

건축년도

clustered Group

아파트 최근 거래량

금리(1년 전 금리)

(interest rate)

35 of 43

www.fastcampus.co.kr

Copyright ⓒ FAST CAMPUS Corp. All Rights Reserved. 무단전재 및 재배포 금지

Model Select

Feature

  • X 좌표
  • 전용면적
  • 아파트 브랜드명

📘 Model Ensemble

Feature

  • 아파트 최근 거래가격
  • 아파트 최근 거래량
  • 1년전 금리
  • cluster
  • 건축년도

Baseline code

36 of 43

www.fastcampus.co.kr

Copyright ⓒ FAST CAMPUS Corp. All Rights Reserved. 무단전재 및 재배포 금지

Feature Importance

📘 Feature Importance Graph

37 of 43

05

결과

www.fastcampus.co.kr

Copyright ⓒ FAST CAMPUS Corp. All Rights Reserved. 무단전재 및 재배포 금지

38 of 43

www.fastcampus.co.kr

Copyright ⓒ FAST CAMPUS Corp. All Rights Reserved. 무단전재 및 재배포 금지

최종 순위 및 평가 지표 결과

39 of 43

06

FeedBack

www.fastcampus.co.kr

Copyright ⓒ FAST CAMPUS Corp. All Rights Reserved. 무단전재 및 재배포 금지

40 of 43

* 프로젝트 시작 단계에서 팀원들과의 협의를 통해 분류 선정(Model 선정, Feature 선정 등…) 등의 태스크 분배

www.fastcampus.co.kr

Copyright ⓒ FAST CAMPUS Corp. All Rights Reserved. 무단전재 및 재배포 금지

Task 분할

입력�데이터 타입

시계열성 검증

결측치 보간

FeedBack

* Task 위주가 아닌 각 Task의 분류에 따라 분담을 하고 토의를 통해 결과를 병합

* 결측치 존재 데이터와 결측치 제거 데이터로 모델을 통해 비교분석하면 결측치가 모델에 미치는 영향을 알 수 있음

* 결측치 보간 방법으로는 보간 모델 생성, imputation 방법(K-NN)등이 존재, 많은 결측치에 대해 제거 또한 고려

* 단, 시계열 학습을 위해 lag_feature를 생성하거나 rolling_window_feature를 생성하는 방향으로 학습 가능

* 시계열로 학습하기 위해서는 시간에 따라 변동하는 여러 시계열 데이터가 필요, 해당 데이터는 시계열 데이터가 부족함

* 대소관계가 명확할 때는 Numerical Type을 사용, 대소관계없이 라벨 자체에 의미가 존재 Categorical Type 사용

* 넣는 Feature의 데이터 타입은 크게 중요하지 않음

41 of 43

* 복잡한 형태의 데이터를 가공하여 각 데이터의 특성에 맞게 파생변수를 만들고 target 값을 예측하는 시간을 가졌다.

www.fastcampus.co.kr

Copyright ⓒ FAST CAMPUS Corp. All Rights Reserved. 무단전재 및 재배포 금지

의 의

차기 아이디어

아쉬운 점

배운점

Project 소감

* 데이터를 깊게 이해하고 도메인 지식을 결합하여 결과를 해석해볼 수 있는 시간을 가졌다.

* 시계열 모델링을 해보려했으나, 시계열적 변화를 표현할 수 있는 데이터가 명확하지 않았다. 시계열 모델의 특성을

확인해볼 수 있는 시간이었다.

* 복합적인 형태의 데이터를 활용한 Modeling 활용성을 확실하게 체감하며 배울 수 있는 시간이었다.

* 다양한 아이디어가 많았는데 생각만하고 실제로 구현해보지 못한 것이 아쉬웠다.

* 찾아놓은 여러 외부 데이터들을 시간 부족으로 전부 사용해보지 못한 것이 아쉬웠다.

* 기존 Feature에서 새로운 파생변수를 생성하면 높은 성능을 달성할 수 있을 것이다.(ex : 아파트별1평당Target평균)

* 시간 제한으로 적합하지 못한 추가 크롤링 데이터를 적합하면 더 좋은 정보를 가져올 것이다. (ex : 로얄층, 1평당Target)

* 결측값을 채울 수 있는 여러 가지 Imputator를 직접 적용시켜보고 특성을 알 수 있는 시간이었다.

* TREE모델 기준으로 CATEGORICAL과 INT, FLOAT을 바라보는 관점에 대해서 더 깊게 이해할 수 있는 시간이었다.

* 협업 과정에서 일어날 수 있는 문제를 마주할 수 있었고 이에 대응하는 방법에 대해 경험할 수 있었다.

* Feature의 개수를 줄이기 위해 PCA, 차원 축소 기법을 사용해 볼 수 있을 것이다.

* TEST data를 예측하기에 앞서, Valid data를 최근 3개월로 구성해서 RMSE를 추출해보자는 의견이 나왔는데 실행해보지 못해서 아쉬웠다.

42 of 43

Q&A

www.fastcampus.co.kr

Copyright ⓒ FAST CAMPUS Corp. All Rights Reserved. 무단전재 및 재배포 금지

43 of 43

감사합니다.