Data Science – 3 – Βασικές λειτουργίες

Ως τώρα έχουμε εισάγει τις βιβλιοθήκες μας και έχουμε διαβάσει τα δεδομένα μας σε ένα dataframe με το όνομα df.

import numpy as np

import pandas as pd

import matplotlib.pyplot as plt

data_filename = ‘Greek.csv’

df = pd.read_csv(data_filename,encoding=’cp1253’)

Ας δούμε ορισμένες βασικές λειτουργίες:

α. Πληκτρολογώντας : df

Παίρνουμε ως αποτέλεσμα:

ds3a

Βλέπουμε το dataframe κατάλαβε αυτόματα πως η πρώτη γραμμή είναι επικεφαλίδες και μας επιστρέφει τις επικεφαλίδες, τις 5 πρώτες γραμμές, τις 5 τελευταίες γραμμές και πως συνολικά τα δεδομένα μας είναι 182 γραμμές και 5 στήλες. Υπάρχει και μια στήλη στα αριστερά που δεν έχει όνομα, η οποία δεν προέρχεται από τα δεδομένα μας και ονομάζεται ευρετήριο ή index και είναι εσωτερικό ευρετήριο του dataset. Ξεκινά από το 0 και μετρά τις γραμμές μας, ένας αριθμός χαρακτηρίζει κάθε γραμμή.

Αν θέλουμε τα δεδομένα μιας μόνο στήλης μπορούμε να το κάνουμε με δύο τρόπους, είτε με df.ΑΓΩΝΙΣΤΙΚΗ είτε με df[‘ΑΓΩΝΙΣΤΙΚΗ’]

β. Πληκτρολογώντας : df.shape μπορούμε να δούμε τις διαστάσεις του df, από πόσες γραμμές και από πόσες στήλες αποτελείται.

Αποτέλεσμα: (182, 5)

γ. Αν θέλουμε να δούμε τις πρώτες Ν γραμμές, π.χ. τις πρώτες 10 γραμμές, τότε γράφουμε:

df.head(10)

ds3b

γ. Αν θέλουμε να δούμε τις τελευταίες Ν γραμμές, ομοίως χρησιμοποιούμαι την μέθοδο tail:

df.tail(10)

δ. Μια καταπληκτική μέθοδος είναι η μέθοδος describe(). Μας δίνει βασικά χαρακτηριστικά περιγραφικής στατιστικής. df.describe()

Αποτέλεσμα:

ds3c

Εδώ παίρνουμε μια πρώτη μυρωδιά από τα δεδομένα μας. Βλέπουμε για κάθε αριθμητική στήλη πόσα δεδομένα βρήκε, την διάμεσο, την τυπική απόκλιση, τα ελάχιστα/μέγιστα και τα ποσοστημόρια 25%,50%,75%

Ήδη παίρνουμε κάποιες σημαντικές πληροφορίες.

Βλέπουμε λοιπόν πως για το γηπεδούχο έχουμε διάμεσο αριθμό γκολ 1,33 ενώ για τον φιλοξενούμενο 1,07 γκολ ανά αγώνα.

Η τυπική απόκλιση στην περίπτωση του φιλοξενούμενου είναι μικρότερη και επομένως τα γκολ που βάζουν οι φιλοξενούμενοι είναι πλησιέστερα στον διάμεσο από ότι στον γηπεδούχο όπου βλέπουμε μια ελάχιστα μεγαλύτερη διασπορά γύρω από τον διάμεσο.

Τα ελάχιστα γκολ ασφαλώς όπως θα περιμέναμε είναι 0 και στις δύο περιπτώσεις. Τα μέγιστα γκολ που μπήκαν στο Ελληνικό πρωτάθλημα είναι 6 για τον γηπεδούχο και 5 για τον Φιλοξενούμενο.

Βλέπουμε τέλος ότι τόσο στον γηπεδούχο όσο και στον φιλοξενούμενο στο 25% των ματς μπήκαν τον πολύ 0 γκολ, στο 50% των ματς μπήκαν το πολύ 1 γκολ, στο 75% των ματς μπήκαν το πολύ 2 γκολ.

Δημοσιεύθηκε στην data science, Πληροφορική. Αποθηκεύστε τον μόνιμο σύνδεσμο.