ABCDEFGHIJKLMNOPQRSTUVWXYZ
1
Python 4 Data (P4D) - Thành thạo Python & Gen AI để khai phá dữ liệu chuyên nghiệp
2
Tổng quan lộ trình
3
4
5
THÔNG TIN CHUNG KHÓA HỌC PYTHON 4 DATA (P4D)

THÀNH THẠO PYTHON & GEN AI ĐỂ KHAI PHÁ DỮ LIỆU CHUYÊN NGHIỆP
6
7
Tổng quan- Khóa P4D thiết kế cho các bạn đang làm trong những lĩnh vực như Marketing, Bán hàng, Tài chính, Kế toán, Công nghệ, Nhân sự, Sản xuất...
- Giúp các bạn biết cách vận dụng Python và Trí tuệ nhân tạo tạo sinh (Gen AI) vào việc thu thập, khám phá và phân tích dữ liệu trong các bài toán thực tiễn.
8
Mục tiêu- Vận dụng các kiến thức và kỹ năng được học để thu thập các nguồn dữ liệu khác nhau trên internet (Web, Forum, Trang tin tức, Facebook, TikTok, Youtube, Sàn TMĐT,...)
- Học viên được tiếp cận với các bài toán phân tích dữ liệu thực tiễn của doanh nghiệp.
9
Thời lượng2.5 tháng (10 tuần)
10
Công cụ học tậpJupyter Notebook, Python và Gen AI (OpenAI, promptperfect...)
11
Phương pháp đào tạoSmartData Learning = Học trực tiếp cùng giảng viên qua Zoom theo phương pháp Project-based Coaching (2 buổi/tuần) + Học bổ trợ thêm ở nhà cùng mentor trên hệ thống Data-driven eLearning
12
Đầu vào- Có tư duy Logic
- Có đam mê, hứng thú với công nghệ và phân tích dữ liệu
- Đảm bảo thời gian học, luyện tập và tham gia project-based trong khóa học
13
Đầu ra- Nắm vững kiến thức, kỹ năng và công cụ được trang bị
- Hoàn thành các task, mission trong project-based từ doanh nghiệp
- Hoàn thành bảo vệ, presentation dự án cuối khoá học
14
Giai đoạn 1: Python căn bản cho người làm Dữ liệu
15
16
Học phầnThời lượngHình thức học tậpLịch trình học tập
17
Nội dung buổi CoachingBài học Video ElearningThực hành
18
Tuần 12h30'Zoom onlineBuổi Coaching số 1 - Bắt đầu với Python
- Giới thiệu về Python, các quy tắc cần lưu ý khi sử dụng Python
- Chương trình đầu tiên với Python statement
- Naming convention trong python
- Biến, phép gán trong Python
- Python data types: Number, String (các phương thức chuẩn hóa dữ liệu String)
- Operators: Số học, logic, quan hệ, so sánh
- Cấu trúc rẽ nhánh: If, else
- Cấu trúc lặp: For, range, while
- Input/Output của dữ liệu trong Python
Python elearning 01 - Cấu trúc cơ bản trong Python
Bài Py-1.1. Cài đặt Python 3.x
Bài Py-1.2. Cài đặt Pycharm và cấu hình Venv
Bài Py-1.3. Chương trình đầu tiên với Python statement
Bài Py-1.4. Biến, naming convention & phép gán trong Python
Bài Py-1.5. Number, String & Operators: Số học, logic, quan hệ, so sánh
Bài Py-1.6. Cấu trúc rẽ nhánh: If, else
Bài Py-1.7. Cấu trúc lặp: For, range, while
Bài Py-1.8. Input/Output của dữ liệu trong Python
Installation:
- Hỗ trợ học viên cài các phần mềm cần dùng.
- Sử dụng: Python 3.x
- Sử dụng: Anaconda hoặc Jupyter Notebook
Practice:
- Thực hành các chương trình đầu tiên với python
19
2h30'Zoom onlineBuổi Coaching số 2 - Dữ liệu danh sách trong Python
- Kiểu dữ liệu danh sách trong Python:
● Dictionary
● Set
- Các phương thức làm việc với dữ liệu danh sách
Python elearning 02 - List, Dictionary & Hàm:
Bài Py-2.1. List
Bài Py-2.2. Tuple
Bài Py-2.3. Dictionary
Bài Py-2.4. Set
Practice:
- Xử lý với kiểu dữ liệu danh sách
20
Tuần 22h30', 2h30'Zoom onlineBuổi Coaching số 3, 4 - Hàm trong Python
- Function: Build-in, Open, Custom
- Custom funtion: Parametter, Variable (Local, Nonlocal, Global)
- Ngoại lệ try-except
- Lamda Function
Python elearning 03 & 04 - Thư viện
Bài Py-3.1. Basic built-in functions
Bài Py-3.2. Import thư viện trong Python
Bài Py-3.3. Module, Package
Bài Py-3.4. Class
Bài Py-3.5. Thuộc tính (Attribute)
Bài Py-3.6. Phương thức (Method)
Bài Py-3.7. Thể hiện (instance, object)
Bài Py-3.8. Giới hạn truy cập: private, public
Practice:
- Build-in function
- Customer function
- Lamda function
21
Tuần 32h30', 2h30'Zoom onlineBuổi Coaching số 5, 6 - Thao tác với File, Pandas trong Python
- Module, Package
- File IO: Read, write file text, json với thư viện Pandas
- Xử lý, tổng hợp, thống kê theo yêu cầu với FILE IO
- Import thư viện trong Python
- Phân tích khám phá và tiền xử lý dữ liệu với pandas:
- Đọc và load dữ liệu vào dataframe trong pandas.
- Tiền xử lý dữ liệu: giá trị khuyết thiếu, kiểu dữ liệu không đồng bộ, dữ liệu trùng lặp, dữ liệu ngoại lai.
- Chuyển đổi, làm giàu dữ liệu với dataframe.
- Merge, concat nhiều dataframe.
- Sorting và filtering.
Python elearning 05 & 06 - Thao tác với file & thư viện pandas
Bài Py-3.9. File IO trong python
Bài Py-3.10. Tạo và lưu file với File IO
Bài Py-6.1. Pandas Read/Write file với Dataframe
Bài Py-6.2. Data từ API và xử lý với Pandas
Bài Py-6.3. Case study 4
Practice:
- Xử lý, chuyển đổi và load dữ liệu file với pandas
- Bài Py-6.6. Case study 4
- Bài Py-7.1. Case study 5
- Bài Py-7.2. Case study 6
22
Tuần 42h30', 2h30'Zoom onlineBuổi Coaching số 7, 8 - Tổng quan Gen AI và vận dụng thực hành Thống kê mô tả với Python, Pandas
Tổng quan Gen AI:
- Tổng quan về NLP, các mô hình ngôn ngữ lớn (LLMs) và Gen AI.
- Mô hình ngôn ngữ lớn (LLM) và Gen AI được tạo ra như thế nào?
- Năng lực của Gen AI: Tạo sinh dữ liệu text / image / video hiện nay với Transformer.
- Qui trình tạo sinh ngôn ngữ với Gen AI.
- Đạo đức và chính sách AI.
- Một số mô hình phổ biến: Google Gemini / ChatGPT* / Copilot.
Prompt và prompting:
- Kỹ thuật Prompt cơ bản (Drafting Prompt).
- Prompt dành cho Data Analysis.
- Prompt cơ bản cho mô tả thống kê với dữ liệu từ file bằng python.
- Kỹ thuật prompt hiệu quả (Refining Prompt).
- Priming Prompt.
Practice: Vận dụng ChatGPT trong học tập và làm việc với dữ liệu bằng Python dành cho người mới bắt đầu.
Practice: Vận dụng kỹ thuật Prompt cơ bản trong tính toán dữ liệu tổng hợp với Python.thư viện Selenium giả lập người dùng trên Dynamic Website
Practice:
Practice: Vận dụng ChatGPT trong học tập và làm việc với dữ liệu bằng Python dành cho người mới bắt đầu.
Practice: Vận dụng kỹ thuật Prompt cơ bản trong tính toán dữ liệu tổng hợp với Python.
23
Giai đoạn 2: Vận dụng Python trong project data thực tiễn
24
25
Giai đoạn 2, học viên sẽ chọn 1 trong 2 hướng sau:
1. Hướng Data Engineering: Cào và thu thập dữ liệu
2. Hướng Data Analytics và Data Science: Phân tích dữ liệu
26
2.1: Hướng Data Engineering (Cào và thu thập dữ liệu)
27
28
29
Học phầnThời lượngHình thức học tậpLịch trình học tập
30
Nội dung buổi CoachingBài học Video ElearningHoạt động của học viên và Kết quả sở hữu
31
Tuần 52h30', 2h30'Zoom onlineBuổi Coaching số 9, 10 - Web Scraping với Python, Gen AI: Hiểu về HTML, crawling và trích xuất (tách) dữ liệu (1 - Static Website)
- HTML, nguyên lý crawling và trích xuất dữ liệu từ HTML file
- Hiểu về cấu trúc HTML: Tags, Attribute name, Attribute value
- Sử dụng thư viện BeautifulSoup, Requests, Pillow python
- Class, object, thuộc tính, phương thức để Crawl data của thư viện BeautifulSoup
- Trích xuất dữ liệu với Parser theo thẻ HTML
- Lưu dữ liệu trích xuất với Flat file: excel, csv
Practice 1: Crawl và extract dữ liệu, thống kê theo keyword từ Content Website
Practice 2: Crawl và extract dữ liệu tài chính, bản tin tài chính từ Cafef (Finance).File IO: Read, write file text, json với thư viện Pandas
Python elearning 09 & 10. Thư viện request, BeautifulSoup
- HTML, nguyên lý crawling và trích xuất dữ liệu từ HTML file
- Hiểu về cấu trúc HTML: Tags, Attribute name, Attribute value
- Thư viện request
- requests: get, encoding, text
- Thư viện BeautifulSoup
- Parse trích xuất dữ liệu từ HTML
Practice:
- Khởi tạo object
- Sử dụng các phương thức, thuộc tính
- Các phương thức, thuộc tính căn bản của thư viện BeautifulSoup
- Crawl data từ các website động với BeautifulSoup
32
Tuần 62h30', 2h30'Zoom onlineBuổi Coaching số 11, 12 - Web Scraping với Python, Gen AI: Crawl và trích xuất (tách) dữ liệu (2 - DynamicWebsite)
- Nguyên lý tải, lưu dữ liệu với ajax, script trên Dynamic Website
- Sử dụng thư viện Selenium giả lập người dùng trên Dynamic Website
- Class, object, thuộc tính, phương thức để Crawl dynamic của thư viện Selenium
- Lưu dữ liệu trích xuất với Selenium
Practice 1: Thu thập, trích xuất dữ liệu với giả lập người dùng từ Google
Practice 2: Thu thập, trích xuất comment trên Youtube, Facebook (Social listening).
Practice 3: Dữ liệu bán hàng sàn thương mại điện tử (E-commerce transaction).
Practice 4: Dữ liệu feedback của khách hàng trên sàn thương mại điện tử (E-commerce product review).
Python elearning 11 & 12. Thư viện selenium
- Cấu trúc dữ liệu Dynamic Website
- Thư viện Selenium và các phương thức giả lập căn bản
- Selenium: methods thường dùng trích xuất dữ liệu
- Case-study: Thu thập, trích xuất dữ liệu với giả lập người dùng từ Google
Practice:
- Khởi tạo object
- Sử dụng các phương thức, thuộc tính
- Các phương thức, thuộc tính căn bản của thư viện Selenium
- Crawl data từ các website động với Selenium
33
Tuần 7,82h30', 2h30', 2h30', 2h30'Zoom onlineBuổi Coaching số 13, 14, 15, 16 - Lấy dữ liệu từ API: Collection / pipeline ETL, ELT / automation workflow / processing dữ liệu với Python
- Đọc và trích xuất dữ liệu từ file: excel / text và pdf.
- API - Application Programming Interface - là gì? Json là gì?
- Quy trình lấy dữ liệu với API.
- Cấu trúc, phương thức kết nối và trích xuất dữ liệu từ API.
- Tạo luồng tự động thu thập, tổng hợp dữ liệu.
- Pipeline là gì? Phân bietj ETL, ELT.
- Xây dựng các Pipeline với python
- Tiền xử lý, chuẩn hóa dữ liệu với pandas:
Practice 1: Thu thập và xây dựng Pipeline cho dữ liệu E-commerce transaction.
Practice 2: Thu thập và xây dựng Pipeline cho dữ liệu Social listening.
Practice 3: Thu thập và xây dựng Pipeline cho dữ liệu tài chính Finance.
Python elearning 13-16 - API, trích xuất dữ liệu bằng phương thức API
- API - Application Programming Interface - là gì? Json là gì?
- Quy trình lấy dữ liệu với API
- Cấu trúc, phương thức gọi và trích xuất dữ liệu từ API
- Case study 4
- Case study 5
- Case study 6

Practice:
- Xử lý, chuyển đổi và load dữ liệu file với pandas
- Case study 4
- Case study 5
- Case study 6
34
2.2: Hướng Data Analytics và Data Science (Phân tích dữ liệu)
35
36
37
Học phầnThời lượngHình thức học tậpLịch trình học tập
38
Nội dung buổi CoachingBài học Video ElearningHoạt động của học viên và Kết quả sở hữu
39
Tuần 5, 62h30', 2h30', 2h30', 2h30'Zoom onlineBuổi Coaching số 9, 10, 11, 12 - Trực quan hóa và EDA (Phân tích khám phá dữ liệu) với Thống kê mô tả (Vận dụng cùng Gen AI)
- Thống kê mô tả cơ bản.
- EDA là gì? Các kỹ thuật, chỉ số EDA cơ bản.
- Tại sao cần EDA dữ liệu.
- Xây dựng bộ chỉ số giám sát và phân tích dữ liệu.
- Nguyên lý và cách thiết kế report và dashboard (sử dụng thư viện Matplotlib/Seaborn).
- Trực quan hóa với các biểu đồ cơ bản: pie, bar, line…
- Trực quan hóa với các biểu đồ nâng cao.
- Phân biệt dashboard / analytical reports / operation reports.
- Các kỹ thuật phân tích định lượng cơ bản: factor, cohort, cluster, time series.
- Các kỹ thuật phân tích định tính cơ bản: text analysis, thematic, sentiment.
Practice 1: Xây dựng chỉ số phân tích và các dashboard dành cho E-commerce transaction.
Practice 2: Xây dựng chỉ số phân tích và các dashboard dành cho Social listening.
Practice 3: Xây dựng chỉ số phân tích và các dashboard dành cho Finance.
Python elearning 09-12 - Trực quan hóa và phân tích dữ liệu
Bài Py-8.1 Thư viện Matplotlib dành cho Trực quan, phân tích dữ liệu (1)
Bài Py-8.2. Thư viện Matplotlib dành cho Trực quan, phân tích dữ liệu (2)
Practice:
- Case-study 7: Thu thập dữ liệu sản phẩm theo phân loại trên sàn TMĐT, phân tích dự báo nhằm ra kế hoạch kinh doanh hoặc tiếp thị liên kết theo dòng sản phẩm
40
Tuần 7, 82h30', 2h30', 2h30', 2h30'Zoom onlineBuổi Coaching số 13. 14. 15, 16 - Khai phá dữ liệu Luật kết hợp: hiểu dữ liệu, insight, data storytelling, recommendation và bài toán dự báo cơ bản (forecasting)
- Khai phá dữ liệu là gì?
- Các bài toán cơ bản trong Khoa học dữ liệu.
- Khai phá luật kết hợp trong Khoa học dữ liệu và các bài toán vận dụng.
- Đọc, hiểu các chỉ số của biểu đồ.
- Phân tích và tìm insight.
- Trình bầy và kể chuyện dữ liệu.
- Khuyến nghị.
Practice 1: Khai phá và kể chuyện dữ liệu E-commerce transaction.
Practice 2: Khai phá và kể chuyện dữ liệu Social listening.
Practice 3: Khai phá và kể chuyện dữ liệu Finance.
41
Giai đoạn 3: Hoàn thành Project và Portfolios
42
43
Học phầnThời lượngHình thức học tậpLịch trình học tập
44
Nội dung buổi CoachingBài học Video ElearningHoạt động của học viên và Kết quả sở hữu
45
Tuần 92h30'Zoom onlineLựa chọn Project và xác định yêu cầu/chỉ số
- Với DE: Xây dựng các Pipeline thu thập, xử lý, chuẩn hóa và thống kê mô tả
- Với DA/DS: Trực quan hóa, phân tích và kể chuyện dữ liệu
46
Tuần 102h30'Zoom online1. Nộp sản phẩm và bài thuyết trình (slide)
2. Bảo vệ dự án cuối khóa học