1 of 25

MÔ HÌNH MÁY HỌC TIÊN ĐOÁN

SỐC DENGUE Ở TRẺ EM

Nguyễn Ngọc Rạng , Lâm Thị Huệ, Phạm Văn Hưng , Bùi Quang Nghĩa, ĐHYD Cần Thơ

2 of 25

MỞ ĐẦU

+ Tiên đoán sốc sớm, can thiệp kịp thời giảm tử vong và biến chứng

+ Mô hình truyền thống: hạn chế

+ Mô hình máy học (Machine learning): tiên đoán tốt hơn

3 of 25

1- Thu thập dữ liệu

2- Chuẩn bị dữ liệu, phân chia 2 sets

3- Chọn mô hình MC KNN, RF, NB, NNA, SVM…

4- Huấn luyện mô hình Cross-validation

5- Đánh giá mô hình AUROC, Accuracy, F1 score…

6- Tinh chỉnh tham số (hyperparameter tuning)

7- Đưa ra dự đoán

CÁC BƯỚC XÂY DỰNG MÔ HÌNH MÁY HỌC

4 of 25

CHUẨN BỊ DỮ LIỆU (PREPROCESSING)

+ Xử lý dữ liệu thiếu (Missing Data)

+ Xử lý dữ liệu nhiễu (trị ngoại lai)

+ Chuẩn hóa (Normalization/Standardization) center, scale

+ Cấu trúc dữ liệu

+ Chia dữ liệu (Data Splitting): tập huấn luyện và tập kiểm tra

+ Lưu dữ liệu : csv, rda…

5 of 25

Accuracy

Recall

Precision

PHÂN CHIA 2 TẬP: HUẤN LUYỆN VÀ KIỂM TRA

6 of 25

CHỌN MÔ HÌNH MÁY HỌC

7 of 25

RANDOM FOREST NEURON NETWORK XGBOOST, ADABOOST

CHỌN MÔ HÌNH MÁY HỌC

8 of 25

HUẤN LUYỆN MÔ HÌNH ( R )

9 of 25

HUẤN LUYỆN MÔ HÌNH (PYTHON)

10 of 25

HUẤN LUYỆN MÔ HÌNH

11 of 25

TINH CHỈNH MÔ HÌNH

12 of 25

ĐÁNH GIÁ MÔ HÌNH

13 of 25

  • Độ chính xác (Accuracy)
  • Độ nhạy (Sensitivity, Recall)
  • Độ đặc hiệu (Specificity)
  • PPV (Precision)
  • NPV
  • Chỉ số F 1
  • AUROC

CÁC CHỈ SỐ ĐÁNH GIÁ HIỆU SUẤT

14 of 25

ĐƯỜNG CONG ROC

15 of 25

Bảng 1. Đặc điểm cơ bản 2 nhóm sốc và không sốc

KẾT QUẢ

16 of 25

Bảng 2. Hiệu suất các mô hình máy học ở tập kiểm tra (test set)

KẾT QUẢ

17 of 25

Bảng 3. Hiệu suất các mô hình máy học ở tập huấn luyện (training set)

KẾT QUẢ

18 of 25

Đặc trưng quan trọng (Feature importance)

KẾT QUẢ

19 of 25

Biểu đồ Nomogram

Albumin (100) +AST (50) + Platelet (55)= 205 points ( Sốc: 80%)

KẾT QUẢ

20 of 25

Calibrate biểu đồ nomogram

KẾT QUẢ

21 of 25

BÀN LUẬN

Phân tích gộp có 18 YT liên quan đến sốc dengue

Tuổi, giới nữ, TC thần kinh, nôn ói, đau bụng, gan to, XHTH , HCT, hạ albumin, hạ protein, dịch ổ bụng, dịch màng phổi, giảm tiểu cầu, AST, ALT, APTT, ALT, fibrinogen, tái nhiễm, DEN-2

Huy NT et al. Factors associated with DSS: a systematic review and meta- analysis. PLoS Negl Trop Dis. 2013

22 of 25

BÀN LUẬN

23 of 25

  • Cỡ mẫu nhỏ, thực hiện tại 1 bệnh viện
  • Các biến đặc trưng là biến nhị phân làm giảm khả năng tiên đoán của mô hình
  • Không bao gồm các biến lâm sàng (ói, đau bụng, gan to)
  • Không xác định tình trạng sơ/tái nhiễm và type huyết thanh của DEN

HẠN CHẾ

24 of 25

“Mô hình dựa vào máy học có khả tiên đoán tốt HCSD ở trẻ em điều trị nội trú. Biểu đồ trực quan gồm 5 YTNC (albumin, APTT, fibrinogen, AST, tiểu cầu) giúp cho các nhà lâm sàng phát hiện sốc SXH sớm”

 

KẾT LUẬN

25 of 25

Xin cảm ơn