Το παράδοξο του Simpson

Το παράδοξο του Simpson είναι ένα παράδοξο στο πεδίο της στατιστικής και
προέρχεται από τον Edward Simpson ο οποίος πρώτος το περιέγραψε το 1951.
Σύμφωνα με αυτό το ευφυολόγημα, πολλές φορές τα στατιστικά δεδομένα
μπορεί να λένε ψέματα και να μας παρέχουν αντιφατικά αποτελέσματα τα
οποία διαστρεβλώνουν την πραγματικότητα. Τα στατιστικά σε ένα θέμα μπορεί
να έχουν πολλές αναγνώσεις και ανάλογα από ποια οπτική τα βλέπουμε, πιθανόν
να εξάγεται διαφορετικό αποτέλεσμα.
Παράδειγμα έστω ότι θέλετε να κάνετε μια εγχείρηση κήλης και έχετε να επιλέξετε
μεταξύ δύο γιατρών. Σας λένε ότι ο γιατρός Α έχασε 8 ασθενείς στους 100 και ο γιατρός
Β έχασε 5 ασθενείς στους 100, οπότε επιλέγετε με βεβαιότητα τον γιατρό Β. Ωστόσο
αναλύοντας περαιτέρω τα δεδομένα μαθαίνετε πως ο γιατρός Α στην συγκεκριμένη επέμβαση που θέλετε να κάνετε εσείς είχε επιτυχία στους 48/50 ασθενείς του ενώ ο γιατρός Β στην ίδια συγκεκριμένη επέμβαση είχε επιτυχία στους 46/50 ασθενείς του, άρα τώρα επιλέγεται τον γιατρό Α, ο οποίος αποδεικνύεται να είναι καλύτερος και ελκυστικότερος για την περίπτωση σας, αν και γενικά ο γιατρός Β είναι πιο επιτυχημένος.

Ανάλογα δηλαδή από το πως συνδυάζουμε τα δεδομένα μας, μπορεί είτε να διακρίνεται και να εξάγεται ένα συγκεκριμένο συμπέρασμα, είτε να φαίνεται κάτι το διαφορετικό, πολλές φορές ακόμα και το ακριβές αντίθετο. Σωστά λοιπόν είχε πει ο Μαρκ Τουέιν πως:
«υπάρχουν ψέματα, υπάρχουν μεγάλα ψέματα, υπάρχουν και οι στατιστικές.

Πολύ συχνά χρησιμοποιούνται τα διαγράμματα με διαφορετική κλίμακα αναπαράστασης με τρόπο ώστε τα ίδια δεδομένα να αφήνουν άλλη αίσθηση της πραγματικότητας. Παρακάτω βλέπουμε το ίδιο ακριβώς διάγραμμα το οποίο δείχνει την δημοφιλία του προέδρου Μπους σε βάθος χρόνου, το πρώτο δημοσιεύτηκε σε εφημερίδα των δημοκρατικών ενώ το δεύτερο σε εφημερίδα των ρεμπουμπλικανών.

d1

d2

Προσέξτε ενώ τα δεδομένα είναι πανομοιότυπα και κανένα δεν έχει ανακριβή ή ψεύτικες πληροφορίες, ωστόσο το πρώτο σου αφήνει την εντύπωση πως η δημοτικότητα του Μπους έπεσε κατακόρυφα στο διάβα του χρόνου ενώ το δεύτερο ότι γενικά παρέμεινε σταθερή η δημοτικότητα του.

Γενικά υπάρχουν πολλοί τρόποι να πεις ψέμματα με την στατιστική. Αυτό μπορείς να το
πετύχεις είτε με τα διαγράμματα, είτε  δείχνοντας υποσύνολο των δεδομένων που τονίζει το συμπέρασμα που από πριν θες να αναδείξεις, είτε με την χρήση μέσο όρων ημέρας, ή κινητών μέσων όρων τριημέρου ή εβδομάδας, αριθμητικών ή γεωμετρικών, ανάλογα με το τι σε συμφέρει, κάτι που βλέπουμε να γίνεται και την σημερινή εποχή με τα στατιστικά του κόβιντ. Δεν αμφισβητώ (μακριά από εμάς οι ψεκασμένοι) την πανδημία, αλλά απλά αναφέρω πως ανάλογα με τι μέγεθος κάθε φορά υπερτονίζεται, μπορούμε να στρέψουμε την προσοχή του κόσμου προς κάποια κατεύθυνση. Π.χ. πότε ήταν τα πράγματα χειρότερα, όταν είχαμε 4.000 κρούσματα σε 80.000 τεστ ημερησίως ή όταν είχαμε 8.000 κρούσματα σε 250.000 τεστ; Μπορεί ακόμα στα στατιστικά να συμπεριλάβεις σκοπίμως ή όχι την διακύμανση ενός μεγέθους, το ποσοστό σφάλματος, το μέγεθος της δειγματοληψίας και το διάστημα εμπιστοσύνης.
Για παράδειγμα, αν σε ένα σχολείο πέρσι ο μέσος όρος του βάρους των μαθητών ήταν 70 κιλά και φέτος είναι 72, είναι λάθος να πούμε πως αποτελεί συμπέρασμα ότι βλέπουμε μια αύξηση της παχυσαρκίας στην Ελλάδα κατά 2%. Ακόμα και να πούμε πως στο συγκεκριμένο σχολείο έχουμε αύξηση είναι και πάλι λάθος. Το σφάλμα 2% είναι στα όρια του αποδεκτού και μόνο αν παρατηρήσουμε αυτήν την τάση μέσα σε ένα βάθος χρόνου, ίσως μπορούμε να βγάλουμε ασφαλή συμπεράσματα.
Αν επίσης πούμε πως ανακαλύψαμε ένα πλανήτη με μέση ετήσια θερμοκρασία 15 βαθμούς όσο ακριβώς και η γη, ίσως δεν επαρκεί για να αξιώσουμε πως είναι ένας κατοικήσιμος πλανήτης. Θα μπορούσε αν αναλύαμε τα δεδομένα εκτενώς να διαπιστώσουμε πως για 6 μήνες έχει θερμοκρασία -150 βαθμούς κελσίου και πως για τους επόμενους 6 μήνες έχει θερμοκρασία +170 βαθμούς κελσίου και επομένως η ανάπτυξη ζωής είναι απαγορευτική.
Υπάρχουν και συμπεράσματα που εξάγονται χωρίς να λαμβάνεται υπόψιν η συσχέτιση και η αιτιότητα. Για παράδειγμα διαβάζουμε στην εφημερίδα πως έχουμε βρει με ανάλυση στατιστικών δεδομένων πως υπάρχει μια θετική συσχέτιση σε κάθε χώρα των μισθών των καθηγητών με την τιμή του καφέ σε αυτήν την χώρα. Αν λοιπόν κάποια στιγμή αυξηθεί η τιμή του καφέ, τότε θα πρέπει να αυξήσουμε και τους μισθούς των καθηγητών; Και αντίστροφα, αν αυξηθούν οι μισθοί των καθηγητών, τότε θα πρέπει να αυξήσουμε και την τιμή του καφέ? Τα παραπάνω είναι αυθαίρετα συμπεράσματα και γίνονται κυρίως διότι μπερδεύουμε σκοπίμως την συσχέτιση με την αιτιότητα. Το γεγονός πως υπάρχει συσχέτιση ανάμεσα σε δύο ζευγάρια καταστάσεις, είναι ανόητο να το επεκτείνουμε και να
θεωρούμε πως η συσχέτιση σημαίνει και αιτιότητα.
Από τα ανωτέρω είναι φανερό ότι η παραπλάνηση ηθελημένη ή μη πλήττει τον ανυποψίαστο μη ενημερωμένο ή βιαστικό αναγνώστη, ο οποίος εύκολα πέφτει θύμα των «παραπλανητικών» διαγραμμάτων και γενικότερα των στατιστικών δεδομένων.

Δημοσιεύθηκε στην Μαθηματικά, Πρόβλημα. Αποθηκεύστε τον μόνιμο σύνδεσμο.