1 of 26

Florida Airbnb 영업 데이터 기반 Host의 수익 향상을 위한 예약률 예측 모델 연구

캡스톤 디자인 최종발표회

엔프로(강수정, 김지민, 송현지)

2023.12.16.

This work was supported by Dr.Jinwon Kim who is an Associate Professor

(Department of Tourism, Hospitality and Event Management, University of Florida, USA) and a Director of the Center for Sustainable Business and Community Analytics.

2 of 26

목차

1) 연구배경 및 목적

2) 연구 가설

3) 연구 방법

- 데이터 전처리, 탐색적 데이터 분석, 차원축소, 군집화, 모델 학습

4) 연구내용 및 결과

5) 결론

2 / 25

3 of 26

1. 연구배경 및 목적

    • 미국 인플레이션 9.1% 증가에 따른 미국 내 Airbnb

신규 호스트 50% 이상 증가

‘22년 미국 인플레이션 상승 효과

    • 경제적 압박에 따른 수익 창출의 수단으로 호스트

사업 시작(미국인의 약 41%)

    • '21년 기준 플로리다 키시미 활성 호스트: 약 46,600명

호스트가 하나의 일자리로 대체

[출처] Airbnb’s Post(Linkedin)

[출처] AllTheRooms Insights Articles

미국 인플레이션 증가에 따른 수익 창출의 기회로 Airbnb 신규 호스트 급증 및 플로리다 호스트 급여 격차는 지속 증가 예상

[출처] ZipRecruiter

    • ‘23.12월 기준 플로리다 에어비앤비 호스트 Salary 통계

플로리다 Host들 간의 수익 양극화를 줄이고 예약률이 저조한 호스트들의 예약률 향상을 위한

숙소 정보 등록 및 운영 시점에

‘예약률 예측 + 지속 관리 feature’ 제안 서비스

3 / 25

4 of 26

2. 연구 가설

  • 평균 1박 가격이 저렴하면 예약률이 높을 것이다.
  • 유사한 특성을 가진 숙소별 군집 간에는 서로 다른 예약률 패턴과 연관

변수들을 가질 것이다.

4 / 25

5 of 26

3. 연구 방법

4) 군집별 모델 학습

3) 숙소별 군집화

2) SPCA를 통한 차원축소

1) 데이터 전처리 및 상관관계 파악

[ 분석 방안 ]

  • 데이터 수: 43,219개(결측치 X)
  • 데이터 타입 변환
  • Sparse PCA를 통한 주성분 파악 및 개수 선정

  • 추출한 주성분 개수로 차원축소 진행

  • 주성분 10차원 축소
  • 유사한 특성을 가진 숙소 군집을 위해 K-means clustering 진행

  • 적절한 군집 수 선정 지표: 실루엣 계수, DBI score, 3D 산점도 활용

  • 최종 군집 수: 3개
  • 군집별 EDA 시각화
  • 활용 모델

1) Multiple Regression

2) Random Forest

3) Support Vector

Regression

4) Gradient Boosting

  • 변수 간 Correlation 파악
  • 로그변환을 통한 데이터 정규분포화
  • OLS 회귀분석 실시
  • 설명변수 간 다중공선성 여부 확인
  • 예약률 예측에 활용할 설명변수 선정
  • 군집별 성능 평가 및 최종 모델 확정
  • Shap value 기여도 분석
  • 고객 리뷰 Wordcloud 분석

5 / 25

6 of 26

4. 연구내용 및 결과

1-1) 데이터 전처리

  • 데이터 수: 43,219개
  • 중복변수, 불필요한 변수 제거 및 Label Encoder를 통한 데이터 타입 변환 → 1차 설명변수: 21개

설명변수

ADR

평균 1박 요금

Guest

예약 가능한

게스트 수

Ministay

최소 숙박 수

Checkrating

체크인

용이성(10점)

ARL

평균 연간 수익

Response

응답률

photonum

사진 수

Locaterating

위치 만족도

(10점)

Booking

예약 수

Superhost

슈퍼호스트

여부

Overall

전체 평점(%)

Valuerating

가치 만족도

(10점)

Reviewnum

리뷰 수

Deposit

보증금

Commrating

소통 평점

(10점)

Bedrooms

침대 수

Cleaningfee

청소 요금

Accuracyrating

광고 대비

만족도(10점)

Bathrooms

화장실 수

Nightfee

1일 숙박요금

Cleanrating

청결도(10점)

반응변수

Occupancy

(예약률)

6 / 25

7 of 26

4. 연구내용 및 결과

1-2) EDA를 통한 전체 데이터 분포 확인

7 / 25

8 of 26

4. 연구내용 및 결과

1-2) EDA를 통한 전체 데이터 분포 확인

8 / 25

9 of 26

4. 연구내용 및 결과

1-3) 변수 간 상관관계 파악 및 데이터 정규분포화

  • 로그변환을 통한 전체 데이터 정규분포화
  • Heatmap을 활용한 correlation 파악
  • 1박 요금 ⬄ 연간 수익 / Bedrooms ⬄ Bathrooms ⬄ guest 간 높은 상관관계
  • Rating 변수들의 데이터 편중이 높음

[ ADR 로그 변환 전 ]

[ ADR 로그 변환 후 ]

9 / 25

10 of 26

4. 연구내용 및 결과

1-4) 예약률 예측에 활용할 설명변수 선정 과정

  • 설명변수 간 다중공선성 진단을 위한 VIF 지수 확인
  • OLS 검정을 통한 다중회귀 분석
  • 예약률에 대한 설명변수의 설명력(R-suqared): 약 46%
  • ministay, 일부 rating의 p-value 값이 0.5를 넘어 귀무가설 수용
  • VIF 지수 10 이상 변수

- Bathrooms / guest / Bedrooms / rating 변수

'예측 성능을 저하시킬 수

있는 요인으로 판단됨'

OLS 회귀분석, VIF 지수를 활용해 단순히 변수들을 삭제하지 않고

예약률 예측에 의미있다고 생각하는 설명변수

최종 17개 선정

10 / 25

11 of 26

4. 연구내용 및 결과

2-1) Sparse PCA를 통한 차원축소

  • 주성분 개수 별 가중치가 낮은 변수들은 0으로 수렴
  • 데이터의 설명력을 높이기 위해 누적기여율 70-90% 구간의 주성분 개수 선정

주성분 10개 선정

주성분 개수 별 기여율 및 누적기여율 확인

주성분 구성 변수 파악 및 10 차원 축소

11 / 25

12 of 26

4. 연구내용 및 결과

3-1) 주성분 데이터 기반 K-means 클러스터링

  • 실루엣 계수: 군집 수 2~4의 평균 20~35% 사이
  • DBI 지표: 낮은 score 기준으로 cluster 3이 가장 적절하다고 판단

실루엣 계수, DBI 지표를 활용한 군집 수 선정

[3개의 군집화 결과]

12 / 25

13 of 26

4. 연구내용 및 결과

3-2) 클러스터링 3D 산점도 분포

13 / 25

14 of 26

4. 연구내용 및 결과

3-3) EDA를 통한 군집별 특징

군집 1

  • 위도, 경도로 숙소 분포 지역 확인

군집 2

군집 3

'전체적으로 숙소들이 해변가에 몰려있고 지리적 위치는 비슷하나

cluster 1의 숙소들이 cluster 2,3보다 각 위치에 집중되어 있는 편'

14 / 25

15 of 26

4. 연구내용 및 결과

3-3) EDA를 통한 군집별 특징

  • ADR(평균 1박 가격) 및 ARL(평균 연간 수익) 평균 비교

21만

47만

20만

628만

6287만

3600만

15 / 25

16 of 26

4. 연구내용 및 결과

3-3) EDA를 통한 군집별 특징

  • 숙소 리뷰 수 및 호스트가 등록하는 숙소 사진 수 평균 비교

13개

14개

67개

22개

33개

29개

16 / 25

17 of 26

4. 연구내용 및 결과

3-3) EDA를 통한 군집별 특징

  • 군집별 예약률과 각 변수 간의 상관관계

‘3개의 군집 모두 평균 1박 가격이 저렴하면 예약률이 높아지는 경향’

’고객들은 침실보다는 화장실의 갯수나 청결도를 좀 더 고려하는 편’

17 / 25

18 of 26

4. 연구내용 및 결과

4-1) 군집별 예약률 예측 모형

  • 군집별 예약률 예측 성능 평가 지표: RMSER, R-squared
  • 군집 1의 설명력이 약 67%로 가장 높은 예측력을 보임

군집 1

군집 2

군집 3

n_estimaters

800

1000

1000

min_sample_split

2

2

2

min_sample_leaf

2

2

2

max_features

Auto

Auto

Auto

max_depth

50

50

50

예측 과정

Train / Test data 분리: 70 : 30

최적의 Hyper parameter 설정(비선형 모델)

모델

군집

RMSE

R-squared

Multiple Regression

1

0.211

0.505

2

0.138

0.416

3

0.116

0.458

Random Forest

(Regression)

1

0.171

0.674

2

0.115

0.593

3

0.100

0.595

Support Vector

Regression

1

0.214

0.488

2

0.139

0.409

3

0.117

0.454

Gradient Boosting

Regression

1

0.179

0.643

2

0.119

0.564

3

0.104

0.562

최종 모형 선택

18 / 25

19 of 26

4. 연구내용 및 결과

4-1) 군집별 예약률 예측 모형

  • Test data 기준 실제 예약률 – 예측 예약률 비교

군집 1

군집 2

군집 3

차이

차이

차이

19 / 25

20 of 26

4. 연구내용 및 결과

4-2) SHAP value를 통한 변수 기여도 분석

  • 예약률은 공통적으로 ADR, ARL과 같은 가격적 요소에 가장 영향을 많이 받음

군집 1

군집 2

군집 3

  • 실제 예약률 평균: 0.489
  • 변수 영향도: 리뷰 수, 응답시간 등 �숙소 평가 위주
  • 실제 예약률 평균: 0.549
  • 변수 영향도: 1박 가격, 최소 숙박일수,

보증금 등 경제적 요소 위주

  • 실제 예약률 평균: 0.646
  • 변수 영향도: 리뷰 수, 게스트 수, 화장실 수 등

전반적인 숙소 상태 위주

20 / 25

21 of 26

4. 연구내용 및 결과

4-3) 군집별 예약률(occupancy)과 예약일 수(booking) 관계

  • 군집 1 예약일 수 평균 : 6.61
  • 군집 2 예약일 수 평균 : 34.6
  • 군집 3 예약일 수 평균 : 44.2
  • 군집 1 예약률 평균 : 0.489
  • 군집 2 예약률 평균 : 0.549
  • 군집 3 예약률 평균 : 0.646

21 / 25

22 of 26

4. 연구내용 및 결과

4-3) 군집별 예약률(occupancy)과 예약일 수(booking) 관계

22 / 25

23 of 26

4. 연구내용 및 결과

4-3) 텍스트 감성분석 데이터 기반 Wordcloud 분석

[ 긍정 리뷰 명사 및 형용사 ]

[ 부정 리뷰 명사 및 형용사 ]

실제 숙박 이용 후, 고객은 ADR, deposit 등 정량적인 요소보다는 place(위치), host(호스트 친절도), 숙소 청결도, Amenity 관리 등 정성적인 요소에 더 민감하게 반응함

23 / 25

24 of 26

5. 결론

5-1) 서비스 예상 시나리오

3) 예약률 예측을 통한 대시보드 안내 > 호스트 숙소 정보 개선

2) 랜덤 포레스트 알고리즘 동작

1) 호스트 숙소 정보 셋팅

24 / 25

25 of 26

5. 결론

군집 1 Host 제안 변수

숙소별 Shap 가중치 높은 변수 출력

5-2) 연구 결과

- 데이터 복잡성을 줄이고, 예측 성능을 높이기 위해 SPCA 차원축소. K-means 활용 3개 군집으로 분류

- 선형/비선형 모델을 적용하여 RMSE, R계수를 기준으로 예측력을 비교한 결과, 예약률 예측에 적합한 최종 모형은

‘Random Forest’로 결정

- SHAP value를 통해 ’평균 1박 가격이 저렴하면 예약률이 높아진다’는 연구가설 입증

- SHAP value를 통해 숙소별 예약률 예측에 기여한 변수들을 기반으로 군집별 Host가 숙소 정보 등록 및 운영 시점에

지속적으로 관리해야 할 요소들을 제안한다면 효과적인 호스팅 비즈니스 운영이 가능할 것으로 판단

ADR

Nightfee

Photonum

Reviewnum

군집 2 Host 제안 변수

군집 3 Host 제안 변수

response

ADR

Nightfee

Minimum stay

deposit

ADR

Nightfee

Photonum

Reviewnum

guest

deposit

25 / 25

26 of 26

감사합니다