CoCo: 1.077 αγροκτήματα, 12 χώρες, ένα τεράστιο σύνολο δεδομένων

Post Image

Η κλίμακα και η πολυπλοκότητα πίσω από την πανευρωπαϊκή έρευνα του CoCo για τους αγρότες: Μια συζήτηση με τους ερευνητές του CITA

 

Τι χρειάζεται πραγματικά για να κατανοήσουμε πώς ζουν οι αγρότες σε όλη την Ευρώπη δίπλα σε λύκους, αρκούδες και λύγκες; Για το έργο CoCo, όλα ξεκινούν με ένα ερωτηματολόγιο, περίπου 1.000 τέτοια ερωτηματολόγια συλλέχθηκαν από αγροκτήματα σε 12 χώρες και 30 περιοχές μελέτης. Η συμπλήρωσή τους ήταν από μόνη της ένα κατόρθωμα. Αλλά η μετατροπή αυτού του «βουνού» δεδομένων σε κάτι που οι ερευνητές μπορούν πραγματικά να αναλύσουν; Αυτό αποτέλεσε μια εντελώς διαφορετική πρόκληση. Μιλήσαμε με την Ana Grau Valenciano και τον Eduardo Torres Martínez, ερευνητές στο CITA Spain, για να μάθουμε πώς μοιάζει στην πραγματικότητα αυτή η διαδικασία.

 

Οι ερευνητές πεδίου κατέγραψαν τις απαντήσεις των αγροτών σε χαρτί κατά τη διάρκεια προσωπικών συνεντεύξεων που διαρκούσαν από μια έως τρεις ώρες, προτού τις μεταφέρουν σε τυποποιημένα φύλλα Excel, τα οποία στη συνέχεια ανέβαιναν σε έναν κοινόχρηστο δίσκο. Θεωρητικά, οι ενσωματωμένοι περιορισμοί μορφοποίησης σχεδιάστηκαν για να διατηρούν τις απαντήσεις ομοιόμορφες. Στην πράξη, ένα σύνολο δεδομένων που εκτείνεται σε μια ντουζίνα χώρες, πολλαπλές γλώσσες, περισσότερους από 40 ερευνητές/τριες και πάνω από 1.000 αγρότες, ήταν βέβαιο ότι θα έκρυβε εκπλήξεις.

 

Το έργο του καθαρισμού και της ενοποίησης των δεδομένων ανέλαβε μια ομάδα τεσσάρων ερευνητών στο CITA Aragon, τον Ισπανό εταίρο του CoCo. Κάθε ερευνητής ανέλαβε την ευθύνη για μια ομάδα χωρών, ελέγχοντας αν τηρήθηκαν οι κανόνες μορφοποίησης, αν οι απαντήσεις έβγαζαν νόημα και αν κάτι είχε διαφύγει. Όλα έπρεπε να εντοπιστούν, να επισημανθούν και είτε να τυποποιηθούν, είτε να αποκλειστούν, ώστε να διασφαλιστεί ότι το τελικό σύνολο δεδομένων θα είναι συγκρίσιμο και στις 12 χώρες.

 

Ακούγεται απλό. Αλλά κάθε άλλο παρά είναι. Εργάζονται πάνω σε αυτό από τις αρχές Φεβρουαρίου.

 

Οι προκλήσεις αφορούσαν τόσο την πολυπλοκότητα της ευρωπαϊκής γεωργίας όσο και την επεξεργασία των δεδομένων. Στις 12 χώρες, τα γεωργικά συστήματα ποικίλλουν, και η προσαρμογή αυτής της ποικιλομορφίας στις τυποποιημένες ερωτήσεις κλειστού τύπου μιας έρευνας δεν είναι εύκολη υπόθεση. Πολλοί ερωτηθέντες πρόσθεσαν γραπτά σχόλια δίπλα στις απαντήσεις τους, περιγράφοντας αποχρώσεις και τοπικές πραγματικότητες που δεν αντιστοιχούσαν ακριβώς στις κατηγορίες του ερωτηματολογίου. Στο στάδιο του καθαρισμού, η ομάδα έπρεπε να λάβει προσεκτικές αποφάσεις για το πώς θα ερμηνεύσει και θα κωδικοποιήσει αυτές τις πρόσθετες λεπτομέρειες – αποφάσεις κρίσης που θα μπορούσαν να επηρεάσουν ολόκληρο το σύνολο δεδομένων.

 

Οι τεχνικές προκλήσεις ήταν εξίσου απαιτητικές. Μόνο ο διαχωρισμός των δεκαδικών —κόμμα σε ορισμένες χώρες, τελεία σε άλλες— δημιούργησαν σημαντικές ασυνέπειες στα δεδομένα. Όπως μας εξήγησε η Ana Grau, η ακρίβεια είχε τεράστια σημασία: ένα λάθος ψηφίο στις συντεταγμένες ενός αγροκτήματος ή ενός βοσκοτόπου θα μπορούσε να τοποθετήσει μια ισπανική φάρμα κάπου στην Τουρκία, κάτι που όντως συνέβη κατά τη διαδικασία ελέγχου. Παράλληλα, η ενότητα του ερωτηματολογίου για περιστατικά με θηρευτές απαιτούσε μια ξεχωριστή σειρά για κάθε συνδυασμό είδους θηρευτή, τύπου κτηνοτροφίας και τοποθεσίας — μια δομή που απαιτούσε σχολαστική προσοχή για να διασφαλιστεί ότι κάθε περίπτωση καταγράφηκε σωστά και πλήρως.

 

Πριν καν ξεκινήσει ο καθαρισμός, η ομάδα αφιέρωσε περίπου μια εβδομάδα στην ανάπτυξη ενός ακριβούς πρωτοκόλλου: ενός κοινού συνόλου κανόνων ώστε κάθε ερευνητής να λαμβάνει ακριβώς τις ίδιες αποφάσεις όταν αντιμετωπίζει την ίδια κατάσταση, λαμβάνοντας υπόψη όλο το φάσμα των εξαιρέσεων και των οριακών περιπτώσεων που μπορεί να προέκυπταν. Μόνο τότε μπόρεσε να ξεκινήσει η κύρια εργασία.

 

Στην αρχή της διαδικασίας, η επεξεργασία των δεδομένων μιας μόνο χώρας —περίπου 100 ερωτηματολόγια— διαρκούσε από μία ολόκληρη ημέρα έως μερικές ημέρες για μια πρώτη αναθεώρηση, και στη συνέχεια ξεκινούσαν οι επαναληπτικές επαφές με τους εταίρους. Στο τέλος, η ομάδα είχε εξοικειωθεί τόσο πολύ με τα μοτίβα των δεδομένων κάθε εταίρου, που η ίδια εργασία μπορούσε να ολοκληρωθεί σε μισή μέρα. Αλλά η ταχύτητα στη φάση του καθαρισμού ήταν μόνο ένα μέρος της ιστορίας: κάθε ερώτημα που τιθέμενη σε έναν εταίρο πυροδοτούσε έναν κύκλο email και διαδικτυακών συναντήσεων που μπορούσε να διαρκέσει εβδομάδες, ιδιαίτερα όταν οι ερευνητές πεδίου βρίσκονταν ακόμα έξω και δεν μπορούσαν να ελέγξουν τα πρωτότυπα χάρτινα ερωτηματολόγια.

 

Περιεχόμενο: 130.000 σειρές και συνεχίζουμε

 

Η επόμενη πρόκληση είναι ο συνδυασμός όλων των καθαρισμένων εθνικών συνόλων δεδομένων σε μια ενιαία κύρια βάση δεδομένων. Αυτή η βάση —η οποία βρίσκεται ακόμα υπό διαμόρφωση— περιέχει ήδη περισσότερες από 130.000 σειρές και αναμένεται να φτάσει τουλάχιστον τις 200.000. Όταν η ομάδα προσπάθησε να τις συγχωνεύσει στο Excel, το αρχείο ξεπέρασε τα όρια μνήμης του λογισμικού. Η λύση: η μετατροπή των πάντων σε μορφή CSV, η αφαίρεση κρυφών χαρακτήρων και ιδιαιτεροτήτων μορφοποίησης, πριν από την προσθήκη των δεδομένων κάθε χώρας στο κύριο αρχείο ένα προς ένα. Επιπλέον, χωρίς μια διεπαφή που να χρειάζεται να απεικονίζει τα δεδομένα στην οθόνη, εξοικονομούν τεράστιο όγκο μνήμης κατά τη διαδικασία.

 

Μόλις ολοκληρωθεί, το σύνολο δεδομένων θα μοιραστεί μεταξύ των ερευνητικών εταίρων του CoCo για ανάλυση σε διάφορους παράλληλους τομείς εργασίας: τυπολογίες γεωργίας και διαχείριση κτηνοτροφίας, αποτελεσματικότητα των μέτρων πρόληψης κατά των θηρευτών, στάσεις και απόψεις των αγροτών για τα μεγάλα σαρκοφάγα και τη διαχείρισή τους, καθώς και άλλα ζητήματα διακυβέρνησης, και ένα πείραμα επιλογής (choice experiment) που διερευνά πώς οι αγρότες αξιολογούν τις διάφορες πολιτικές επιλογές. Πρόκειται, με λίγα λόγια, για το εμπειρικό θεμέλιο πάνω στο οποίο θα στηριχθούν οι τελικές συστάσεις πολιτικής του CoCo.

 

Η κλίμακα του εγχειρήματος αντανακλά τη φιλοδοξία του έργου. Η συνύπαρξη ανθρώπων και μεγάλων σαρκοφάγων είναι ένα από τα πιο αμφιλεγόμενα ζητήματα στην ευρωπαϊκή πολιτική διατήρησης της φύσης. Η σωστή διαχείριση των δεδομένων —και των 130.000 σειρών τους— είναι το σημείο από όπου ξεκινά αυτή η προσπάθεια.

 

“Αντιμέτωποι με μια τόσο περίπλοκη και μαζική βάση δεδομένων, η εισαγωγή δεδομένων μπορεί να μετατραπεί σε ένα μνημειώδες έργο, όπου μικρά λάθη προκύπτουν φυσιολογικά λόγω του τεράστιου όγκου πληροφοριών. Ωστόσο, ο εντοπισμός και η διόρθωση αυτών των λαθών καταγραφής είναι απαραίτητα για να διασφαλιστεί ότι η τελική ανάλυση θα είναι αυστηρή και αξιόπιστη” ο Eduardo Torres Martínez, ερευνητής στο CITA Spain.

img