Thực hiện phân tích mô tả cho dữ liệu chuyến bay 'nycflights.csv':
- Cho cột dep_delay (khởi hành trễ).
- Cho cột arr_delay (đến nơi trễ).
- Cho cột distance (khoảng cách chuyến bay).
- Sử dụng linear regression xây dựng mô hình dự đoán thời gian đến nơi trễ (arr_delay) dựa vào thời gian xuất phát trễ (dep_delay) và khoảng cách (distance).
Tiếp tục với dữ liệu 'nycflights.csv':
- Thực hiện phân tích mô tả cho 3 cột ở trên nhưng chia theo nơi xuất phát: cột origin (gồm 3 sân bay: JFK, LGA, EWR).
- Chia ra làm 3 mô hình cho 3 sân bay xuất phát (JFK, LGA, EWR) và nhận xét về độ chính xác so với mô hình chung.