Thứ Hai, 20 tháng 5, 2019

NGỤY BIỆN DỮ LIỆU


Ngụy biện dữ liệu (Data fallacy) hay còn gọi là sự dùng sai thống kê (Misuse of statistics) là các thủ thuật, hình thức đánh lừa người quan sát tin vào một thông tin khác so với thông tin được thể hiện bởi dữ liệu. Ngụy biện dữ liệu có thể xảy ra cả từ sự chủ quan hoặc khách quan của người xử lý, phân tích, tổng hợp dữ liệu. Hành vi này luôn gây tổn thất rất lớn đối với người dùng cuối cùng (đối tượng sử dụng dữ liệu để ra quyết định) do cung cấp cơ sở sai, từ đó ảnh hưởng lớn đến các quyết định cuối cùng. Hãy thử tưởng tượng trong khoa học y tế, một lỗi sai trong thống kê có thể gây hậu quả chết người.
Có nhiều loại ngụy biện dữ liệu đã được đưa ra trong cộng đồng khoa học dữ liệu nói riêng và cộng đồng toán học thống kê nói chung. Tuy nhiên trong phạm vi bài này sẽ chỉ ra 3 loại phổ biến (có kèm minh họa) để người đọc dễ hình dung.
1. Thao túng dữ liệu (Data manipulation):
Là loại ngụy biện khi lựa chọn chủ đích loại dữ liệu hay báo cáo để công bố hay thậm chí ngụy tạo dữ liệu để phục vụ cho mục đích của người thực hiện. Ví dụ dễ thấy nhất là lựa chọn nhóm mẫu (dữ liệu đầu vào) tuân theo một mô hình (pattern) khớp với giả thuyết được ưa thích mà lờ đi các nhóm mẫu (dữ liệu đầu vào) khác mâu thuẫn với giả thuyết đó.
Một ví dụ của thao túng dữ liệu được thể hiện ở bảng so sánh giá điện Việt Nam với một số quốc gia khác (Hình 1). Người Việt Nam nói chung chưa có thói quen ra quyết định hay đánh giá một sự vật, hiện tượng dựa trên số liệu dẫn chứng. Do đó lợi dụng điểm yếu này nên nhiều người sử dụng thủ thuật thao túng dữ liệu để ủng hộ cho luận điểm riêng của họ. Sau đây là một số điểm sai trong bảng so sánh:
(i) Xác định tiêu chí so sánh giá điện dựa trên bình quân thu nhập là vi phạm nguyên tắc căn bản của định giá hàng hóa. Công thức định giá hàng hóa/ sản phẩm (đơn giản hóa) là:
Giá gốc (giá vốn) = Giá thành sản phẩm (Chi phí sản xuất/nhập sản phẩm) + Chi phí phát sinh khác nếu có (chi phí nhân công, đóng gói, vận chuyển, marketing,…)
Giá bán = giá gốc + lợi nhuận mong muốn.
Do đó, thu nhập của khách hàng (ở đây là người dân) không phải là yếu tố tác động đến giá bán hàng hóa (ở đây là điện). Các phân tích về bản chất của hàng hóa điện là hàng hóa đặc biệt với vị thế của EVN không nằm trong phạm vi của bài viết này. Tuy nhiên dù có phân tích theo hướng nào cũng không thay đổi điện là hàng hóa và có cách tính giá bán như trên.
(ii) Lựa chọn tập mẫu (dữ liệu đầu vào) bao gồm 16 nước có thu nhập bình quân trên đầu người cao gấp nhiều lần Việt Nam. Các thông số khác như dân số, địa lý, nền kinh tế,… cũng không tương đồng. Để có sự so sánh hợp lý và khoa học, cần có sự khoanh vùng các quốc gia và xác định trọng số tương ứng. Ví dụ khi phân tích các tiêu chí ảnh hưởng đến chỉ số tuổi thọ trung bình (life expectancy), việc chọn mẫu là một quốc gia ở trung tâm châu Âu với một quốc gia ở giữa châu Phi sẽ không có ý nghĩa nhiều và mô hình dựng lên sẽ không phản ánh đúng thực chất. Do đó, đối với bài toán so sánh giá điện này cần lựa chọn các quốc gia có các tiêu chí gần khớp với Việt Nam (nằm trong một khoảng ước lượng trước) như diện tích, dân số, thu nhập bình quân,…
2. Nhân quả sai (False causality):
Loại ngụy biện này có thể hiểu là ‘’Vì thế, cho nên là”, do loại ngụy biện này được dựa trên giả định rằng khi hai sự kiện xảy ra đồng thời, một sự kiện phải là nguyên nhân cho sự kiện kia. Sự tương quan không nhất thiết phải là nhân quả.
Trang web tylervigen.com là một trang web chuyên đưa ra các đồ thị so sánh kỳ quái nhằm nhấn mạnh việc tương quan không đồng nghĩa với nhân quả như hai ví dụ đính kèm (Hình 2). Ví dụ 1 là mối tương quan giữa số tiền nước Mỹ chi phí cho khoa học, vũ trụ và công nghệ (đo bằng tỷ $) và số lượng người tự tử bằng cách treo cổ, thắt cổ và chết chìm. Tỷ lệ tương quan là 99.79% (gần tuyệt đối). Ví dụ 2 là đồ thị tương quan giữa số lượng người chết đuối trong bể bơi với số lượng phim Nicolas Cage đóng vai trong vòng 10 năm từ 1999 – 2009. Tỷ lệ là 66.66% (một con số có thể coi là trên trung bình).
Nguyên tắc là không bao giờ được kết luận nhân quả chỉ vì sự tương quan – luôn luôn tìm kiếm thêm bằng chứng và cân nhắc thêm các biến bổ sung để tìm ra nguyên nhân cho các sự kiện cần nghiên cứu.
3. Mô hình quá khớp (Overfitting)
Những người làm dữ liệu không ai là không quen với thuật ngữ này. Overfitting là chỉ trường hợp khi mô hình được tạo ra chỉ để phục vụ cho việc diễn giải dữ liệu đầu vào chứ không thể hiện cho xu hướng tổng quát. Nói nôm na ra là một sự giải thích cực kỳ phức tạp sẽ mô tả chính xác thông tin đầu vào, tuy nhiên bạn cũng có thể diễn giải nó một cách trực quan hơn với một câu giải thích đơn giản.
Hình thứ 3 mô tả rõ hơn sự khác nhau giữa Overfitting và mô hình hợp lý. Mô hình overfit sẽ khớp hoàn hảo đổi với dữ liệu đầu vào, tuy nhiên không thể hoạt động tốt khi tiếp xúc với những dữ liệu mới hoàn toàn hay đặt vào môi trường thật. Do đó, để một mô hình có thể sử dụng thực tế, ví dụ cho việc dự đoán xu hướng tương lại, cần thiết phải xây dựng một mô hình gọn nhẹ với giả thuyết đơn giản.
____________________________________
Vậy nhé... Descartes - nhà triết học, toán học người Pháp - có nói câu này: khi chúng ta không cùng trong một hệ toạ độ, tốt nhất đừng tranh luận (câu gốc là: nếu bạn đẩy tôi ra xa số 0, tôi sẽ vẽ nên một hệ toạ độ khác - còn câu vừa "gán" cho Descartes là của mình.... heheheee).
-Trung Anh-

3 nhận xét: