Phần 1: Kiến thức nền về Khoa học dữ liệu (10 Buổi)
Buổi 1-2: Giới thiệu về Khoa học dữ liệu và Python
- Tổng quan về Data Science: Giới thiệu về các lĩnh vực DA, DS, DE, AI và sự khác biệt giữa chúng.
- Python: Biến, kiểu dữ liệu, cấu trúc điều khiển, các cấu trúc dữ liệu, OOP, design pattern (có thể kéo dài thêm 1-2 buổi)
- Áp dụng: DA, DS, DE, AI
- Thực hành: Viết các chương trình Python.
Buổi 3-4: Thao tác dữ liệu với Pandas
- Pandas cơ bản: Đọc, ghi, xử lý dữ liệu.
- Áp dụng: DA, DS, DE
- Thực hành: Làm việc với DataFrames, xử lý dữ liệu thiếu.
Buổi 5-6: Visualize dữ liệu với Matplotlib và Seaborn
- Matplotlib & Seaborn: Tạo biểu đồ, đồ thị, trực quan hóa dữ liệu.
- Áp dụng: DA, DS
- Thực hành: Tạo các biểu đồ, trực quan hóa dữ liệu cơ bản.
Buổi 7-8: Xử lý dữ liệu nâng cao với Pandas
- Kỹ thuật xử lý dữ liệu: Merging, grouping, pivoting.
- Áp dụng: DA, DS, DE
- Thực hành: Xử lý và tổng hợp dữ liệu phức tạp.
Buổi 9-10: Nhập môn về SQL
- SQL cơ bản: SELECT, JOIN, GROUP BY.
- Áp dụng: DA, DS, DE
- Thực hành: Truy vấn dữ liệu từ các bảng SQL.
Phần 2: Data Analysis (10 Buổi)
Buổi 11-12: Thống kê cơ bản cho phân tích dữ liệu
- Thống kê cơ bản: Trung bình, trung vị, mode, phân phối chuẩn.
- Áp dụng: DA, DS
- Thực hành: Tính toán các thống kê cơ bản trên tập dữ liệu.
Buổi 13-14: Phân tích dữ liệu khám phá (Exploratory Data Analysis)
- EDA: Các kỹ thuật phân tích, tìm hiểu dữ liệu.
- Áp dụng: DA, DS
- Thực hành: EDA trên tập dữ liệu thực tế.
Buổi 15-16: Phân tích dữ liệu với SQL nâng cao
- SQL nâng cao: Subqueries, CTE, Window Functions.
- Áp dụng: DA, DS, DE
- Thực hành: Viết các truy vấn SQL nâng cao.
Buổi 17-18: Dashboard và Báo cáo
- Dashboarding: Giới thiệu các công cụ như Tableau, Power BI.
- Áp dụng: DA
- Thực hành: Tạo các dashboard cơ bản.
Buổi 19-20: Trực quan hóa dữ liệu nâng cao
- Visualization nâng cao: Các biểu đồ phức tạp, interactive visualization.
- Áp dụng: DA, DS
- Thực hành: Tạo các biểu đồ phức tạp và tương tác.
Phần 3: Data Engineering (10 Buổi)
Buổi 21-22: Cơ sở dữ liệu và Quản lý dữ liệu
- Database Management Systems: MySQL, PostgreSQL.
- Áp dụng: DE
- Thực hành: Thiết kế và quản lý cơ sở dữ liệu.
Buổi 23-24: Hệ thống phân tán và Big Data
- Big Data: Hadoop, Spark.
- Áp dụng: DE
- Thực hành: Xử lý dữ liệu lớn với Hadoop hoặc Spark.
Buổi 25-26: ETL (Extract, Transform, Load)
- ETL Processes: Các công cụ và kỹ thuật ETL.
- Áp dụng: DE
- Thực hành: Xây dựng quy trình ETL cơ bản.
Buổi 27-28: Data Warehousing
- Data Warehousing: Kiến trúc kho dữ liệu, các công cụ.
- Áp dụng: DE
- Thực hành: Tạo một kho dữ liệu đơn giản.