Sai sót khi gán giá trị bị thiếu với giá trị trung bình là gì?

Mục lục:

Sai sót khi gán giá trị bị thiếu với giá trị trung bình là gì?
Sai sót khi gán giá trị bị thiếu với giá trị trung bình là gì?
Anonim

Thay đổi nghĩa là làm sai lệch mối quan hệ giữa các biếnNhưng thay đổi nghĩa cũng làm sai lệch các mối quan hệ đa biến và ảnh hưởng đến các thống kê như tương quan. Ví dụ: lệnh gọi PROC CORR sau đây tính toán mối tương quan giữa biến Orig_Height với các biến Cân nặng và Tuổi.

Tại sao sử dụng giá trị trung bình cho dữ liệu bị thiếu là một ý tưởng tồi?

Mean làm giảm phương sai của dữ liệu Đi sâu hơn vào toán học, phương sai nhỏ hơn dẫn đến khoảng tin cậy hẹp hơn trong phân phối xác suất [3]. Điều này dẫn đến không có gì khác ngoài việc đưa ra sự thiên vị cho mô hình của chúng tôi.

Tại sao thiếu các giá trị là một vấn đề?

Thiếu dữ liệu gây ra nhiều vấn đề khác nhau. Đầu tiên, việc không có dữ liệu làm giảm sức mạnh thống kê, đề cập đến xác suất mà phép thử sẽ bác bỏ giả thuyết rỗng khi nó sai. Thứ hai, dữ liệu bị mất có thể gây ra sai lệch trong việc ước lượng các tham số. Thứ ba, nó có thể làm giảm tính đại diện của các mẫu.

Tại sao hàm ý xấu lại xấu?

Vấn đề1: Hàm áp đặt không bảo toàn các mối quan hệ giữa các biến. Đúng, việc áp đặt giá trị trung bình bảo toàn giá trị trung bình của dữ liệu được quan sát. Vì vậy, nếu dữ liệu bị thiếu hoàn toàn ngẫu nhiên, ước tính giá trị trung bình vẫn không chệch.

Bạn có nên thay thế dữ liệu bị thiếu bằng giá trị trung bình không?

Các điểm dữ liệu ngoại lệ sẽ có tác động đáng kể đến giá trị trung bình và do đó, trong những trường hợp như vậy, không nên sử dụng giá trị trung bình để thay thế các giá trị bị thiếu. Việc sử dụng các giá trị trung bình để thay thế các giá trị bị thiếu có thể không tạo ra một mô hình tuyệt vời và do đó sẽ bị loại trừ.

Đề xuất: