ABCDEFGHIJKLMNOPQRSTUVWXYZ
1
Import & Cleaning Data (ICD) - Xử lý dữ liệu đa nền tảng, hoàn toàn tự động với AI Agent & n8n
2
Tổng quan lộ trình
3
4
5
THÔNG TIN CHUNG KHÓA HỌC IMPORT & CLEANING DATA (ICD)

XỬ LÝ DỮ LIỆU ĐA NỀN TẢNG, HOÀN TOÀN TỰ ĐỘNG VỚI AI AGENT & N8N
6
7
Tổng quanTrong khóa học này, học viên sẽ được hướng dẫn cách sử dụng n8n và AI Agent để tự động hóa quy trình thu thập và tiền xử lý dữ liệu. Những kỹ năng này giúp giải quyết bài toán thực tế trong các lĩnh vực như Kinh doanh, Marketing, Tài chính, Kế toán, Công nghệ, Nhân sự, Sản xuất, và nhiều lĩnh vực khác.

Học viên sẽ nắm được cách:
Tự động hóa việc thu thập dữ liệu từ nhiều nguồn khác nhau bằng n8n:
- Kết nối và thu thập dữ liệu từ API công khai (REST API), web scraping, cơ sở dữ liệu, file CSV/Excel, v.v.
- Sử dụng AI Agent để hỗ trợ thu thập thông minh, tối ưu hóa tốc độ và nâng cao độ chính xác khi xử lý dữ liệu phức tạp.
Tiền xử lý dữ liệu tự động phục vụ cho các tác vụ phân tích dữ liệu:
- Làm sạch và chuẩn hóa dữ liệu (loại bỏ dữ liệu trùng lặp, xử lý null value, chuẩn hóa định dạng).
- Chuyển đổi dữ liệu từ nhiều định dạng khác nhau để phù hợp với hệ thống phân tích.
- Ánh xạ, kết hợp dữ liệu từ nhiều nguồn để tạo ra một bộ dữ liệu hoàn chỉnh và nhất quán.
- Sử dụng AI Agent để xử lý logic nâng cao trong các trường hợp yêu cầu phân loại, dự đoán, hoặc xử lý văn bản (NLP).

Xây dựng nhà kho dữ liệu đơn giản (Data Warehouse) nhằm:
- Lưu trữ tập trung và tổng hợp dữ liệu từ nhiều nguồn.

Khóa học theo phương pháp Project-based Coaching: Huấn luyện dựa trên dự án thực tiễn.
8
Mục tiêu- Cung cấp cho học viên bộ kĩ năng, công cụ liên quan đến việc thu thập, tiền xử lý và lưu trữ dữ liệu từ rất nhiều nguồn mà không học ngôn ngữ lập trình phức tạp.
- Vận dụng các kiến thức và kỹ năng được học để áp dụng vào bài toán doanh nghiệp hoặc giải quyết nhu cầu cá nhân
9
Thời lượng6 tuần
10
Công cụ học tậpHtml, API, n8n, Postman
11
Phương pháp đào tạoSmartData Learning = Học trực tiếp cùng giảng viên qua Zoom theo phương pháp Project-based Coaching (2 buổi/tuần) + Học bổ trợ thêm ở nhà cùng mentor trên hệ thống Data-driven eLearning
12
Đầu vào- Có đam mê, hứng thú với công nghệ và dữ liệu
- Đảm bảo thời gian học, luyện tập và tham gia project-based trong khóa học
13
Đầu ra- Nắm vững kiến thức, kỹ năng và công cụ được trang bị để lấy dữ liệu từ nhiều nguồn và thực hiện các thao tác tiền xử lý
- Hoàn thành các task, mission trong project-based
- Hoàn thành bảo vệ, presentation dự án cuối khoá học
14
Thu thâp, chuẩn hóa và xây dựng kho dữ liệu tập trung
15
16
Học phầnThời lượngHình thức học tậpLịch trình học tập
17
Nội dung chínhBài học elearning chi tiết theo lịch trìnhThực hành
18
Học phần 01 - Thu thập dữ liệu từ nhiều nguồn3hHọc online trên hệ thống Data-driven eLearningICD 01 - Kiến thức nền tảng
- Nắm vững các kiến thức nền tảng liên quan đến thu thập dữ liệu từ các nguồn khác nhau (HTML, API, File, Cơ sở dữ liệu).
Website - HTML
Bài P-1.1: Tổng quan về HTML
Bài P-1.2: Giới thiệu cấu trúc tiêu chuẩn của một tài liệu HTML
Bài P-1.3: Các thẻ cơ bản trong HTML
Bài P-1.4: Thu thập dữ liệu từ HTML như thế nào?, XPath, CSS Selector

API Public/ API Private
Bài P-1.5: Tổng quan về API và các loại API phổ biến
Bài P-1.6: Giới thiệu REST API
Bài P-1.7: Ý nghĩa của các phương thức HTTP
Bài P-1.8: Bảo mật trong REST API
Bài P-1.9: Thu thập dữ liệu từ REST API như thế nào?

File
Bài P-1.10: Một số loại file phổ biến cho việc thu thập dữ liệu
Bài P-1.11: Ý nghĩa của từng loại file và các use case trong thực tế

Cơ sở dữ liệu
Bài P-1.12: Tổng quan về cơ sở dữ liệu
Bài P-1.13: Một số loại cơ sở dữ liệu phổ biến trên thị trường
Bài P-1.14: SQL và các thao tác cơ bản với cơ sở dữ liệu
Bài P-1.15: Thu thập dữ liệu từ cơ sở dữ liệu như thế nào?

MỘt số công cụ bổ trợ
Bài P-1.16. Postman
Thực hành:
- Học viên tự thực hành các bài tập trên nền tảng elearning
19
2h30Huấn luyện qua Zoom theo phương pháp Project-based CoachingCoaching01
- Data Coach review tiến độ, củng cố kiến thức, giải đáp thắc mắc và chữa bài tập học phần ICD 01 của học viên

- Chia sẻ các bài toán thu thập thực tế dựa trên lý thyết đã học.
- Các lưu ý trong quá trình thu thập
:Thực hành
- Hướng dẫn học viên thực hành
20
3hHọc online trên hệ thống Data-driven eLearningICD 02 - Thu thập dữ liệu với n8n và AI Agent - P1
- Xây dựng tư duy cần thiết khi giải quyết các bài toán thu thập dữ liệu.
- Hiểu các khái niệm (concept) cơ bản về sử dụng n8n trong quá trình thu thập dữ liệu.
Mindset (Coaching)
P-2.1: Tư duy phân tích nguồn dữ liệu – Xác định nguồn và mục tiêu thu thập dữ liệu.
P-2.2: Tư duy thiết kế quy trình thu thập dữ liệu hiệu quả.

Công cụ n8n
P-2.3: Giới thiệu tổng quan về công cụ n8n.
P-2.4: Hướng dẫn cài đặt n8n phiên bản local.
P-2.5: Giới thiệu giao diện chính của n8n.
P-2.6: Workflow là gì? Cách tạo và quản lý workflows.
P-2.7: Các loại nodes phổ biến và chức năng của chúng. ( Trigger Nodes, Action Nodes)
P-2.8: Kết nối giữa các nodes (Connections).
P-2.9: Thực hành: Xây dựng workflow cơ bản với n8n.
P-2.10: Giới thiệu AI Agent.
Thực hành:
- Học viên tự thực hành các bài tập trên nền tảng elearning
21
2h30'Huấn luyện qua Zoom theo phương pháp Project-based CoachingCoaching02
- Data Coach sẽ review tiến độ học tập, củng cố kiến thức, giải đáp thắc mắc và chữa bài tập liên quan đến học phần ICD 02 cho học viên.
Chia sẻ và mở rộng kiến thức với các nội dung chính:
- Tư duy tích hợp AI với n8n nhằm nâng cao hiệu quả thu thập dữ liệu.
- Một số use case thực tế trong quá trình thu thập dữ liệu.
Thực hành:
- Tìm hiểu API của một số nền tảng Ecommerce, Webíte nổi tiếng
- Tìm hiểu phương án khái phá dữ liệu từ API
22
3hHọc online trên hệ thống Data-driven eLearningICD 03 - Thu thập dữ liệu với n8n và AI Agent - P2
- Một số bài toán thu thập dữ liệu thực tế
- Tự động hóa luồng thu thập
Mindset (Coaching)
P-3.1: Quản lý rủi ro trong thu thập dữ liệu
P-3.2: Chất lượng và tính toàn vẹn của dữ liệu
P-3.3: Tư duy về tối ưu hóa nguồn lực trong thu thập dữ liệu

Công cụ n8n
P-3.4: Làm việc với API trong n8n.
P-3.5: Thu thập dữ liệu từ web bằng n8n.
P-3.6: Thu thập dữ liệu từ file (CSV, Excel, JSON) trong n8n.
P-3.7: Xử lý dữ liệu động với Expression Editor (ví dụ: {{ $json.fieldName }}).
P-3.8: Quy trình xây dựng workflow trên n8n
P-3.9: Use case: Thu thập dữ liệu từ API công khai (ví dụ: OpenWeatherMap, Twitter API) để lấy thông tin dự báo thời tiết
Thực hành:
- Học viên tự thực hành các bài tập trên nền tảng elearning
23
2h30'Huấn luyện qua Zoom theo phương pháp Project-based CoachingCoaching03
Data Coach sẽ review tiến độ học tập, củng cố kiến thức, giải đáp thắc mắc và chữa bài tập liên quan đến học phần ICD 02 cho học viên.
Chia sẻ và mở rộng kiến thức với các nội dung chính:
- Tư duy tích hợp AI với n8n để tối ưu và nâng cao hiệu quả thu thập dữ liệu.
- Thảo luận một số use case thực tế trong quá trình thu thập dữ liệu nhằm giúp học viên nắm vững cách ứng dụng vào công việc.
Thực hành
- Hướng dẫn học viên thực hành
24
2h30Huấn luyện qua Zoom theo phương pháp Project-based CoachingICD 04/Coaching04
- Thực hành sử dụng N8n thu thập dữ liệu từ:
+ API của sàn thương mại điện tử
+ Extract dữ liệu từ website thương mại điện tử
Thực hành
- Hướng dẫn học viên thực hành
25
2h30Huấn luyện qua Zoom theo phương pháp Project-based CoachingICD 05/Coaching05

- Thực hành ứng dụng AI agent trong sử dụng N8n thu thập dữ liệu từ:
+ Dữ liệu giao dịch trên sàn chứng khoán
Thực hành
- Hướng dẫn học viên thực hành
26
Học phần 02 - Chuẩn hóa dữ liệu3hHọc cùng mentor trên hệ thống Data-driven eLearningICD 06 - Tiền xử lý dữ liệu - P1
- Làm quen với kiến trúc dữ liệu và công cụ
- Hướng dẫn sử dụng hai bộ công cụ N8n cho bài toan tiền xử lý dữ liệu


Mindset (Coaching)

Bài P-6.1: Tại sao cần tiền xử lý dữ liệu? Tầm quan trọng và mục tiêu của tiền xử lý.
Bài P-6.2: Tư duy nhận diện và phân tích vấn đề dữ liệu thô.
Bài P-6.3: Tư duy thiết kế quy trình tiền xử lý dữ liệu hiệu quả.




Công cụ n8n
Bài P-6.4: Tổng quan các node phục vụ tiền xử lý dữ liệu?
Bài P-6.5: Làm sạch dữ liệu: Loại bỏ giá trị null, dữ liệu trùng lặp, hoặc không hợp lệ.
Bài P-6.6: Chuyển đổi định dạng dữ liệu: Chuẩn hóa ngày tháng, đơn vị đo lường, hoặc kiểu dữ liệu.
Bài P-6.7: Lọc dữ liệu: Áp dụng các điều kiện để chọn lọc thông tin cần thiết.
Bài P-6.8: Ánh xạ dữ liệu: Biến đổi cấu trúc dữ liệu từ nguồn (input) sang định dạng đích (output) phù hợp.
Bài P-6.9: Kết hợp dữ liệu từ nhiều nguồn khác nhau: Sử dụng Merge và Join nodes để tổng hợp dữ liệu.

Thực hành:
- Học viên tự thực hành các bài tập trên nền tảng elearning
27
2h30Huấn luyện qua Zoom theo phương pháp Project-based CoachingCoaching06
- Data Coach review tiến độ, củng cố kiến thức, giải đáp thắc mắc và chữa bài tập học phần ICD 06 của học viên
- Data Coach chia sẻ kiến thức:
Tư duy tích hợp AI để nâng cao hiệu quả tiền xử lý
Thực hành
- Hướng dẫn học viên thực hành
28
3hHọc cùng mentor trên hệ thống Data-driven eLearningICD 07 - Tiền xử lý dữ liệu - P2

- Hướng dẫn sử dụng hai bộ công cụ N8n cho bài toan tiền xử lý dữ liệu

Mindset (Coaching)
Bài P-7.1: Tư duy về chất lượng dữ liệu,


Tiền xử lý dữ liệu
Bài P-7.2: Tạo và thêm các trường dữ liệu mới trong quá trình tiền xử lý.
Bài P-7.3: Tự động hóa quy trình tiền xử lý dữ liệu với n8n.
Bài P-7.4: Tích hợp kết quả tiền xử lý với các công cụ phân tích dữ liệu (ví dụ: Tableau, Power BI).
Bài P-7.5: Showcase1: Tiền xử lý dữ liệu từ API và lưu vào cơ sở dữ liệu phục vụ phân tích.
Bài P-7.6: Showcase2: Làm sạch và chuẩn hóa dữ liệu từ web scraping trước khi thực hiện phân tích sâu hơn.
Thực hành:
- Học viên tự thực hành các bài tập trên nền tảng elearning
29
2h30Huấn luyện qua Zoom theo phương pháp Project-based CoachingCoaching07
- Data Coach review tiến độ, củng cố kiến thức, giải đáp thắc mắc và chữa bài tập học phần ICD 07 của học viên
- Data Coach chia sẻ kiến thức:
Ứng dụng AI Agent xây dựng bài toán tiền xử lý dữ liệu thực tế
Xây dựng datawarehouse cơ bản
Thực hành
- Hướng dẫn học viên thực hành
30
2h30Huấn luyện qua Zoom theo phương pháp Project-based CoachingCoaching08 - Best practise/ Tổng kết
- Tổng kết nội dung học tập
- Q&A



31
PRESENTATION PROJECT
32
33
Học phầnThời lượngHình thức học tậpLịch trình học tập
34
Nội dung chínhBài học elearning chi tiết theo lịch trìnhThực hành
35
Học phần 04 - Đồ án cuối khóa2h30Huấn luyện qua Zoom theo phương pháp Project-based CoachingPresentation Project
- Tổng hợp và vận dụng lại toàn bộ kiến thức ICD hoàn thiện 1 project thực tế với các sản phẩm đầu ra cụ thể:


36
2h30'Huấn luyện qua Zoom theo phương pháp Project-based CoachingTổng kết và bảo vệ dự án
- Present kết quả
- Đánh giá kết quả
- Cấp Chứng chỉ có doanh nghiệp về lĩnh vực Chuyển đổi số, Data Platform bảo chứng

37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100