�
Florida Airbnb 영업 데이터 기반 Host의 수익 향상을 위한 예약률 예측 모델 연구
캡스톤 디자인 최종발표회
엔프로(강수정, 김지민, 송현지)
2023.12.16.
This work was supported by Dr.Jinwon Kim who is an Associate Professor
(Department of Tourism, Hospitality and Event Management, University of Florida, USA) and a Director of the Center for Sustainable Business and Community Analytics.
�
목차
1) 연구배경 및 목적
2) 연구 가설
3) 연구 방법
- 데이터 전처리, 탐색적 데이터 분석, 차원축소, 군집화, 모델 학습
4) 연구내용 및 결과
5) 결론
2 / 25
1. 연구배경 및 목적
신규 호스트 50% 이상 증가
‘22년 미국 인플레이션 상승 효과
사업 시작(미국인의 약 41%)
호스트가 하나의 일자리로 대체
[출처] Airbnb’s Post(Linkedin)
[출처] AllTheRooms Insights Articles
미국 인플레이션 증가에 따른 수익 창출의 기회로 Airbnb 신규 호스트 급증 및 플로리다 호스트 급여 격차는 지속 증가 예상
[출처] ZipRecruiter
플로리다 Host들 간의 수익 양극화를 줄이고 예약률이 저조한 호스트들의 예약률 향상을 위한
숙소 정보 등록 및 운영 시점에
‘예약률 예측 + 지속 관리 feature’ 제안 서비스
3 / 25
2. 연구 가설
변수들을 가질 것이다.
4 / 25
3. 연구 방법
4) 군집별 모델 학습
3) 숙소별 군집화
2) SPCA를 통한 차원축소
1) 데이터 전처리 및 상관관계 파악
[ 분석 방안 ]
1) Multiple Regression
2) Random Forest
3) Support Vector
Regression
4) Gradient Boosting
5 / 25
4. 연구내용 및 결과
1-1) 데이터 전처리
설명변수 | |||||||
ADR | 평균 1박 요금 | Guest | 예약 가능한 게스트 수 | Ministay | 최소 숙박 수 | Checkrating | 체크인 용이성(10점) |
ARL | 평균 연간 수익 | Response | 응답률 | photonum | 사진 수 | Locaterating | 위치 만족도 (10점) |
Booking | 예약 수 | Superhost | 슈퍼호스트 여부 | Overall | 전체 평점(%) | Valuerating | 가치 만족도 (10점) |
Reviewnum | 리뷰 수 | Deposit | 보증금 | Commrating | 소통 평점 (10점) | | |
Bedrooms | 침대 수 | Cleaningfee | 청소 요금 | Accuracyrating | 광고 대비 만족도(10점) | | |
Bathrooms | 화장실 수 | Nightfee | 1일 숙박요금 | Cleanrating | 청결도(10점) | | |
반응변수 |
Occupancy (예약률) |
6 / 25
4. 연구내용 및 결과
1-2) EDA를 통한 전체 데이터 분포 확인
7 / 25
4. 연구내용 및 결과
1-2) EDA를 통한 전체 데이터 분포 확인
8 / 25
4. 연구내용 및 결과
1-3) 변수 간 상관관계 파악 및 데이터 정규분포화
[ ADR 로그 변환 전 ]
[ ADR 로그 변환 후 ]
9 / 25
4. 연구내용 및 결과
1-4) 예약률 예측에 활용할 설명변수 선정 과정
- Bathrooms / guest / Bedrooms / rating 변수
'예측 성능을 저하시킬 수
있는 요인으로 판단됨'
OLS 회귀분석, VIF 지수를 활용해 단순히 변수들을 삭제하지 않고
예약률 예측에 의미있다고 생각하는 설명변수
최종 17개 선정
10 / 25
4. 연구내용 및 결과
2-1) Sparse PCA를 통한 차원축소
주성분 10개 선정
주성분 개수 별 기여율 및 누적기여율 확인
주성분 구성 변수 파악 및 10 차원 축소
11 / 25
4. 연구내용 및 결과
3-1) 주성분 데이터 기반 K-means 클러스터링
실루엣 계수, DBI 지표를 활용한 군집 수 선정
[3개의 군집화 결과]
12 / 25
4. 연구내용 및 결과
3-2) 클러스터링 3D 산점도 분포
13 / 25
4. 연구내용 및 결과
3-3) EDA를 통한 군집별 특징
군집 1
군집 2
군집 3
'전체적으로 숙소들이 해변가에 몰려있고 지리적 위치는 비슷하나
cluster 1의 숙소들이 cluster 2,3보다 각 위치에 집중되어 있는 편'
14 / 25
4. 연구내용 및 결과
3-3) EDA를 통한 군집별 특징
₩ 21만 | ₩ 47만 | ₩ 20만 |
₩ 628만 | ₩ 6287만 | ₩ 3600만 |
15 / 25
4. 연구내용 및 결과
3-3) EDA를 통한 군집별 특징
13개 | 14개 | 67개 |
22개 | 33개 | 29개 |
16 / 25
4. 연구내용 및 결과
3-3) EDA를 통한 군집별 특징
‘3개의 군집 모두 평균 1박 가격이 저렴하면 예약률이 높아지는 경향’
’고객들은 침실보다는 화장실의 갯수나 청결도를 좀 더 고려하는 편’
17 / 25
4. 연구내용 및 결과
4-1) 군집별 예약률 예측 모형
| 군집 1 | 군집 2 | 군집 3 |
n_estimaters | 800 | 1000 | 1000 |
min_sample_split | 2 | 2 | 2 |
min_sample_leaf | 2 | 2 | 2 |
max_features | Auto | Auto | Auto |
max_depth | 50 | 50 | 50 |
예측 과정 |
|
Train / Test data 분리: 70 : 30
최적의 Hyper parameter 설정(비선형 모델)
모델 | 군집 | RMSE | R-squared |
Multiple Regression | 1 | 0.211 | 0.505 |
2 | 0.138 | 0.416 | |
3 | 0.116 | 0.458 | |
Random Forest (Regression) | 1 | 0.171 | 0.674 |
2 | 0.115 | 0.593 | |
3 | 0.100 | 0.595 | |
Support Vector Regression | 1 | 0.214 | 0.488 |
2 | 0.139 | 0.409 | |
3 | 0.117 | 0.454 | |
Gradient Boosting Regression | 1 | 0.179 | 0.643 |
2 | 0.119 | 0.564 | |
3 | 0.104 | 0.562 |
최종 모형 선택
18 / 25
4. 연구내용 및 결과
4-1) 군집별 예약률 예측 모형
군집 1
군집 2
군집 3
차이
차이
차이
19 / 25
4. 연구내용 및 결과
4-2) SHAP value를 통한 변수 기여도 분석
군집 1
군집 2
군집 3
보증금 등 경제적 요소 위주
전반적인 숙소 상태 위주
20 / 25
4. 연구내용 및 결과
4-3) 군집별 예약률(occupancy)과 예약일 수(booking) 관계
21 / 25
4. 연구내용 및 결과
4-3) 군집별 예약률(occupancy)과 예약일 수(booking) 관계
22 / 25
4. 연구내용 및 결과
4-3) 텍스트 감성분석 데이터 기반 Wordcloud 분석
[ 긍정 리뷰 명사 및 형용사 ]
[ 부정 리뷰 명사 및 형용사 ]
실제 숙박 이용 후, 고객은 ADR, deposit 등 정량적인 요소보다는 place(위치), host(호스트 친절도), 숙소 청결도, Amenity 관리 등 정성적인 요소에 더 민감하게 반응함 ‘
23 / 25
5. 결론
5-1) 서비스 예상 시나리오
3) 예약률 예측을 통한 대시보드 안내 > 호스트 숙소 정보 개선
2) 랜덤 포레스트 알고리즘 동작
1) 호스트 숙소 정보 셋팅
24 / 25
5. 결론
군집 1 Host 제안 변수 |
|
숙소별 Shap 가중치 높은 변수 출력 |
|
5-2) 연구 결과
- 데이터 복잡성을 줄이고, 예측 성능을 높이기 위해 SPCA 차원축소. K-means 활용 3개 군집으로 분류
- 선형/비선형 모델을 적용하여 RMSE, R계수를 기준으로 예측력을 비교한 결과, 예약률 예측에 적합한 최종 모형은
‘Random Forest’로 결정
- SHAP value를 통해 ’평균 1박 가격이 저렴하면 예약률이 높아진다’는 연구가설 입증
- SHAP value를 통해 숙소별 예약률 예측에 기여한 변수들을 기반으로 군집별 Host가 숙소 정보 등록 및 운영 시점에
지속적으로 관리해야 할 요소들을 제안한다면 효과적인 호스팅 비즈니스 운영이 가능할 것으로 판단
ADR
Nightfee
Photonum
Reviewnum
군집 2 Host 제안 변수 |
|
군집 3 Host 제안 변수 |
|
response
ADR
Nightfee
Minimum stay
deposit
ADR
Nightfee
Photonum
Reviewnum
guest
deposit
25 / 25
감사합니다