Data Science – 1 – Τα δεδομένα μου

Με αυτό το άρθρο θα εγκαινιάσω μια προσωπική μου τριβή πάνω στην επιστήμη των δεδομένων με χρήση της γλώσσας προγραμματισμού python. Το θέμα είναι τεχνικό και μάλλον δεν μπορεί εύκολα να το παρακολουθήσει κάποιος μη σχετικός με την επιστήμη της Πληροφορικής. Η ανάλυση των δεδομένων απευθύνεται αποκλειστικά σε ειδικό κοινό, τα αποτελέσματα όμως που θα παράγονται στο τέλος κάθε άρθρου μπορεί να τα διαβάσει και να τα κατανοήσει ο οποιοσδήποτε.  Προκειμένου να μην γράψω ένα τεράστιο άρθρο 20-30 σελίδες που θα είναι κουραστικό, θα ακολουθήσω άλλη τακτική, θα γράφω κάθε φορά ένα άρθρο που θα αναλύει ορισμένες πλευρές του θέματος και θα είναι συνέχεια από το προηγούμενο. Κάθε άρθρο θα έχει ονοματολογία της λογικής: “Άρθρο 1” μετά “Άρθρο 2” κτλ. Αν και θα μπορούσε κάποιος να διαβάσει τα άρθρα με οποιαδήποτε σειρά, ειδικά αν τον ενδιαφέρουν μόνο τα τελικά διαγράμματα και τα τελικά αποτελέσματα, οι αναγνώστες που ενδιαφέρονται και για τα τεχνικά θέματα καλό θα ήταν να τα διαβάσουν στην σειρά με την οποία έχουν γραφτεί. Θα δίνω όλο το υλικό, όλα τα αρχεία και όλους τους κώδικες έτσι ώστε οποιοσδήποτε επιθυμεί να μπορεί να αναπαράγει και ο ίδιος όλα τα προγράμματα και να τα διαφοροποιήσει αν θέλει.

Για να ασχοληθείς με την επιστήμη των δεδομένων θα πρέπει καταρχήν να έχεις κάποια πραγματικά δεδομένα τα οποία επιθυμείς να μελετήσεις. Τα δεδομένα με τα οποία θα ασχοληθώ στην παρούσα εργασία είναι τα δεδομένα του Ελληνικού πρωταθλήματος ποδοσφαίρου για την σεζόν 2021 – 2022 και αφορούν μόνο την κανονική διάρκεια του πρωταθλήματος και όχι τα Play offs. Επέλεξα το συγκεκριμένο θέμα και όχι κάποια άλλα πιο επιστημονικά δεδομένα για δύο βασικούς λόγους, καταρχήν διότι αφενός τα ποδοσφαιρικά δεδομένα είναι κάτι που όλοι μπορούν να τα καταλάβουν εν αντιθέση για παράδειγμα με το να παρουσίαζα δεδομένα πίεσης θερμοκρασίας και στροφών κινητήρα κατά την προσγείωση του Rover στον Άρη, και αφετέρου είναι και πιο “πιασάρικα”, πιθανόν θα “τσιμπήσω” κανέναν αναγνώστη επιπλέον, απελπισμένο “στοιχηματία” που ίσως θεωρήσει πως βρήκε την κότα με τα χρυσά αυγά ή το ιερό δισκοπότηρο στην προσπάθεια του να κερδίσει στο στοίχημα ή στο τζόγο. Θα επιχειρήσω να γράφω γύρω στα 2-3 άρθρα κάθε εβδομάδα.

Σε αυτό το πρώτο άρθρο ήθελα από την μια να παρουσιάσω το θέμα και τις γενικές αρχές για αυτήν την ακολουθία άρθρων που θα γράψω και επίσης να μπω απευθείας στο ψητό δείχνοντας τα δεδομένα που θα επεξεργαστούμε. Τα δεδομένα λοιπόν αποτελούνται από ένα αρχείο csv, το οποίο δυστυχώς δεν το βρήκα έτοιμο αλλά το έγραψα μόνος μου ψάχνοντας στο διαδίκτυο (μια εργατοώρα). Το αρχείο ονομάζεται Greek.csv και έτσι θα το αναφέρω σε όλο το κώδικα μου. Αποτελείται από μια γραμμή για κάθε αγώνα του Ελληνικού πρωταθλήματος της σεζόν 2021-2022. Συνολικά είχαμε 26 αγωνιστικές με 7 ματς σε κάθε αγωνιστική, δηλαδή σύνολο 182 ματς. Το αρχείο λοιπόν αποτελείται από 183 γραμμές. Μια γραμμή για τους τίτλους της κάθε στήλης και μια γραμμή για κάθε αγώνα. Είναι στην μορφή csv και χωρίζονται οι στήλες με τον χαρακτήρα ‘,’.  Οι στήλες από τις οποίες αποτελείται το αρχείο μας είναι: 1. ΑΓΩΝΙΣΤΙΚΗ (είναι ένας αριθμός που δείχνει σε ποια αγωνιστική ήταν το συγκεκριμένο ματς), 2. ΓΗΠΕΔΟΥΧΟΣ (είναι το όνομα της γηπεδούχου ομάδας), 3. ΦΙΛΟΞΕΝΟΥΜΕΝΟΣ (είναι το όνομα της Φιλοξενούμενης ομάδας), 4. ΣΚΟΡ_ΓΗΠ (τα γκολ που έβαλε η γηπεδούχος ομάδα) 5. ΣΚΟΡ_ΦΙΛ (τα γκολ που έβαλε η φιλοξενούμενη).

Παρακάτω φαίνονται οι πρώτες γραμμές του αρχείου:

ΑΓΩΝΙΣΤΙΚΗ,ΓΗΠΕΔΟΥΧΟΣ,ΦΙΛΟΞΕΝΟΥΜΕΝΟΣ,ΣΚΟΡ_ΓΗΠ,ΣΚΟΡ_ΦΙΛ
1,ΠΑΝΑΙΤΩΛΙΚΟΣ,ΑΣΤΕΡΑΣ,0,0
1,ΒΟΛΟΣ,ΛΑΜΙΑ,2,1
1,ΟΛΥΜΠΙΑΚΟΣ,ΑΤΡΟΜΗΤΟΣ,0,0
1,ΑΡΗΣ,ΟΦΗ,0,0
1,ΠΑΝΑΘΗΝΑΙΚΟΣ,ΑΠΟΛΛΩΝ,4,0

Παρακάτω μπορείτε να κατεβάσετε ολόκληρο το αρχείο Greek.csv Greek

Κατεβάστε το αρχείο, ανοίξτε το με το excel και αποθηκεύστε το με την μορφή csv και το όνομα Greek.csv

Κατηγορίες: data science. Προσθήκη στους σελιδοδείκτες.