Giai đoạn 1: Giới thiệu và chuẩn bị (5 Buổi)
Buổi 1: Giới thiệu về phân tích dữ liệu
- Tổng quan về phân tích dữ liệu
- Các ứng dụng của phân tích dữ liệu trong thực tế
- Quy trình phân tích dữ liệu
Buổi 2: Cơ bản về Python và môi trường làm việc
- Cài đặt và cấu hình Python
- Giới thiệu về Jupyter Notebook
- Các thư viện cơ bản: NumPy, Pandas, Matplotlib
Buổi 3: Làm quen với NumPy
- Khởi đầu với NumPy
- Các thao tác cơ bản với mảng (array)
- Các phép toán trên mảng
Buổi 4: Làm quen với Pandas
- Giới thiệu về Pandas
- Series và DataFrame
- Đọc và ghi dữ liệu với Pandas
Buổi 5: Khám phá Matplotlib và Seaborn
- Giới thiệu về Matplotlib và Seaborn
- Vẽ biểu đồ cơ bản với Matplotlib
- Tạo biểu đồ nâng cao với Seaborn
Giai đoạn 2: Thu thập và làm sạch dữ liệu (7 Buổi)
Buổi 6: Thu thập dữ liệu
- Các nguồn dữ liệu phổ biến
- Web scraping cơ bản với BeautifulSoup
- Làm việc với API để lấy dữ liệu
Buổi 7: Xử lý dữ liệu thiếu
- Các phương pháp xử lý dữ liệu thiếu
- Thay thế và loại bỏ giá trị thiếu
- Phân tích tác động của dữ liệu thiếu
Buổi 8: Xử lý dữ liệu không đúng định dạng
- Xử lý dữ liệu bị trùng lặp
- Chuẩn hóa định dạng dữ liệu
- Chuyển đổi kiểu dữ liệu
Buổi 9: Xử lý dữ liệu ngoại lai
- Phát hiện dữ liệu ngoại lai
- Các phương pháp xử lý dữ liệu ngoại lai
- Ảnh hưởng của dữ liệu ngoại lai đến kết quả phân tích
Buổi 10: Biến đổi dữ liệu
- Chuẩn hóa dữ liệu
- Phân loại dữ liệu
- Biến đổi dữ liệu dạng thời gian
Buổi 11: Tổng quan về EDA (Exploratory Data Analysis)
- Mục tiêu và quy trình EDA
- Phân tích thống kê mô tả
- Visualizing dữ liệu để khám phá
Buổi 12: Thực hành EDA với Pandas và Seaborn
- Thực hành EDA trên bộ dữ liệu mẫu
- Sử dụng Pandas và Seaborn để phân tích và trực quan hóa dữ liệu
Giai đoạn 3: Phân tích dữ liệu nâng cao (8 Buổi)
Buổi 13: Phân tích dữ liệu với Pandas
- Các thao tác phân tích dữ liệu nâng cao với Pandas
- Grouping, merging, và pivot tables
Buổi 14: Phân tích dữ liệu dạng thời gian
- Xử lý và phân tích dữ liệu dạng thời gian
- Các phương pháp phân tích chuỗi thời gian
Buổi 15: Phân tích tương quan và hồi quy
- Phân tích tương quan giữa các biến
- Hồi quy tuyến tính cơ bản
Buổi 16: Phân tích dữ liệu định tính
- Các phương pháp phân tích dữ liệu định tính
- Mã hóa và phân tích văn bản
Buổi 17: Phân tích dữ liệu địa lý
- Giới thiệu về phân tích dữ liệu địa lý
- Sử dụng thư viện Geopandas