Τον 3ο αιώνα πριν από τη γέννηση του Χριστού, έλεγαν ότι η βιβλιοθήκη της Αλεξάνδρειας περιέκλειε στις αίθουσές της το σύνολο της ανθρώπινης γνώσης. Στις μέρες μας, ο όγκος των διαθέσιμων πληροφοριών είναι τόσο μεγάλος ώστε, αν τον μοιράζαμε εξίσου σε όλους τους Γήινους, καθένας θα λάμβανε μια ποσότητα δεδομένων τριακόσιες είκοσι φορές μεγαλύτερη από το σύνολο των περιεχομένων της αλεξανδρινής συλλογής: συνολικά, χίλια διακόσια exabytes (δισεκατομμύρια gigabytes). Αν εγγράφαμε το σύνολό τους σε cd, τότε αυτά θα δημιουργούσαν πέντε στήλες, η καθεμιά της ικανή να συνδέσει τη Γη με τη Σελήνη.
Ο υπερπληθωρισμός δεδομένων είναι ένα σχετικά καινούργιο φαινόμενο. Το 2000, μόλις το ένα τέταρτο των πληροφοριών που καταγράφονταν σε όλο τον κόσμο βρισκόταν σε ψηφιακή μορφή. Χαρτί, φιλμ και αναλογικά μέσα μοιράζονταν το υπόλοιπο. Εξαιτίας της έκρηξης των ψηφιακών αρχείων –ο όγκος τους διπλασιάζεται κάθε τρία χρόνια– η κατάσταση αντιστράφηκε με πρωτοφανείς ρυθμούς. Το 2013, πάνω από το 98% του συνόλου των δεδομένων είναι ψηφιακά. Οι Αγγλοσάξωνες επινόησαν έναν όρο προκειμένου να ορίσουν αυτή την τεράστια μάζα, που έχει γιγαντωθεί τόσο πολύ ώστε απειλεί να ξεφύγει από τον έλεγχο των κυβερνώντων και των πολιτών: big data ή μαζικά δεδομένα.
Δεδομένης της υπεραφθονίας τους, είναι δελεαστικό να τα αντιληφθούμε με αποκλειστικά αριθμητικούς όρους. Κάτι τέτοιο όμως θα σήμαινε ότι θα παραβλέπαμε την καρδιά του φαινομένου: το αχανές κοίτασμα ψηφιακών δεδομένων προκύπτει από τη δυνατότητα παραμετροποίησης όψεων του κόσμου και της ανθρώπινης ζωής που ποτέ πριν δεν είχαν ποσοτικοποιηθεί. Τη διαδικασία αυτή μπορούμε να την ονομάσουμε «δεδομενοποίηση» (datafication). Παραδείγματος χάριν, ο εντοπισμός μιας τοποθεσίας ή ενός ατόμου αρχικά δεδομενοποιήθηκε μια πρώτη φορά από τη διασταύρωση του γεωγραφικού μήκους και πλάτους και στη συνέχεια από τη δορυφορική και ψηφιακή διαδικασία του Παγκόσμιου Συστήματος Εντοπισμού Θέσης (Global Positioning System, GPS). Μέσω του Facebook, ακόμη και οι προσωπικές προτιμήσεις, οι φιλικές σχέσεις και τα «μ’ αρέσει» μετατρέπονται σε δεδομένα που εγγράφονται στην εικονική μνήμη των υπολογιστών. Ούτε και οι λέξεις μπορούν να ξεφύγουν από τη μεταχείρισή τους ως στοιχεία πληροφόρησης, από τη στιγμή που οι υπολογιστές διερευνούν αιώνες ψηφιοποιημένης λογοτεχνίας απ’ όλο τον κόσμο.
Οι βάσεις δεδομένων που συντίθενται με αυτό τον τρόπο προσφέρονται για όλων των ειδών τις απίθανες χρήσεις, οι οποίες γίνονται εφικτές εξαιτίας της όλο και φθηνότερης υπολογιστικής μνήμης, των ολοένα και πιο ισχυρών επεξεργαστών, των όλο και πιο εξελιγμένων αλγορίθμων, καθώς και από τον χειρισμό των θεμελιωδών αρχών του στατιστικού λογισμού. Αντί να μάθουμε σε έναν υπολογιστή να εκτελεί μια πράξη, όπως να οδηγεί ένα αυτοκίνητο ή να μεταφράζει ένα κείμενο –έναν στόχο πάνω στο οποίο ορδές ειδικών στην τεχνητή νοημοσύνη έχουν σπάσει τα μούτρα τους εδώ και δεκαετίες– η νέα προσέγγιση συνίσταται στο «μπούκωμά» του με μια ποσότητα δεδομένων αρκετή ώστε να υπολογίσει την πιθανότητα ένας φωτεινός σηματοδότης μια συγκεκριμένη στιγμή να είναι πράσινος αντί για κόκκινος ή σε ποιο πλαίσιο θα μεταφράζαμε την αγγλική λέξη light ως «φως» αντί για «ελαφρύς».
Μια τέτοια χρήση προϋποθέτει τρεις μείζονες αλλαγές στην προσέγγισή μας. Η πρώτη συνίσταται στη συλλογή και χρήση του μεγαλύτερου δυνατού αριθμού πληροφοριών αντί της επιλογής ενός δείγματος, όπως κάνουν οι στατιστικολόγοι εδώ και πάνω από έναν αιώνα. Η δεύτερη συνεπάγεται μια κάποια ανοχή όσον αφορά την αταξία των στοιχείων: το «άλεσμα» αμέτρητων δεδομένων, έστω και όχι της ίδιας ποιότητας, συχνά αποδεικνύεται πιο αποτελεσματικό από την αξιοποίηση ενός μικρού, άψογα επιλεγμένου δείγματος. Τέλος, η τρίτη αλλαγή σημαίνει ότι, σε πολλές περιπτώσεις, θα πρέπει να παραιτηθούμε από τον προσδιορισμό των αιτιών και να αρκεστούμε στις συσχετίσεις. Αντί να επιζητούν να κατανοήσουν επακριβώς γιατί μια μηχανή δεν λειτουργεί πλέον, οι ερευνητές μπορούν να συλλέξουν και να αναλύσουν τεράστιες ποσότητες πληροφοριών σχετικών με τη συγκεκριμένη περίπτωση και με οτιδήποτε συνδέεται με αυτήν, προκειμένου να προσδιορίσουν τις συνθήκες κανονικής λειτουργίας και να ορίσουν κάτω από ποιες συνθήκες η μηχανή κινδυνεύει να ξαναπάθει βλάβη. Μπορούν να βρουν απάντηση στο «πώς», όχι στο «γιατί» -και κάτι τέτοιο, πολύ συχνά, αρκεί.
Η Google και ο αλγόριθμος της γρίπης
Όπως το Διαδίκτυο ανέτρεψε τους τρόπους επικοινωνίας μεταξύ ανθρώπων, έτσι και η μέθοδος με την οποία η κοινωνία επεξεργάζεται τις πληροφορίες έχει ριζικά μετασχηματιστεί. Καθώς εκμεταλλευόμαστε αυτά τα «κοιτάσματα» δεδομένων προκειμένου να διασαφηνίσουμε κάποια γεγονότα ή να λάβουμε κάποιες αποφάσεις, ανακαλύπτουμε πως, σε πολλά πεδία, η ύπαρξή μας έχει μεγαλύτερη σχέση με τις πιθανότητες παρά με τις βεβαιότητες.
Αυτή η αλλαγή του τρόπου προσέγγισης των ψηφιακών δεδομένων –που πλέον είναι εξαντλητικά και όχι δειγματοληπτικά, ακατάστατα και όχι συστηματικά– εξηγεί την ολίσθηση από την αιτιότητα στη συσχέτιση. Ενδιαφερόμαστε λιγότερο για τις βαθύτερες αιτίες που κινούν τον κόσμο και περισσότερο για τις συσχετίσεις που ενδέχεται να διασυνδέουν μεταξύ τους ανόμοια φαινόμενα. Ο σκοπός δεν είναι πλέον να κατανοήσουμε τα πράγματα, αλλά να εξασφαλίσουμε τη μέγιστη αποδοτικότητα.
Ας πάρουμε το παράδειγμα της United Parcel Services (UPS), της μεγαλύτερης εταιρείας μεταφοράς δεμάτων στον κόσμο. Εγκατέστησε αισθητήρες σε ορισμένα εξαρτήματα των οχημάτων της για να εντοπίζει προβλήματα υπερθέρμανσης ή κραδασμών, τα οποία είχαν σχέση με δυσλειτουργίες που είχαν παρουσιάσει στο παρελθόν τα συγκεκριμένα εξαρτήματα. Ενεργώντας με αυτό τον τρόπο, μπορεί να προβλέψει τη βλάβη και να αντικαταστήσει τα ελαττωματικά εξαρτήματα στο συνεργείο και όχι στην άκρη του δρόμου. Τα δεδομένα δεν προσδιορίζουν την αιτιακή σχέση μεταξύ της αύξησης της θερμοκρασίας και της δυσλειτουργίας του εξαρτήματος: δεν διαγιγνώσκουν την πηγή του προβλήματος. Εντούτοις, υποδεικνύουν στη UPS τη διαδικασία που πρέπει να ακολουθηθεί για την αποτροπή δαπανηρών περιστατικών.
Η ίδια προσέγγιση μπορεί να εφαρμοστεί και για τις δυσλειτουργίες του ανθρώπινου «μηχανισμού». Έτσι, στον Καναδά, οι ερευνητές βρήκαν τον τρόπο να εντοπίσουν τις λοιμώξεις των πρόωρων νεογνών πριν εμφανιστούν τα ορατά συμπτώματα. Δημιουργώντας μια ροή περισσότερων από χιλίων δεδομένων το δευτερόλεπτο, συνδυάζοντας δεκαέξι δείκτες, μεταξύ των οποίων ο σφυγμός, η μυϊκή ένταση, η αναπνοή και το επίπεδο οξυγόνου στο αίμα, κατάφεραν να συσχετίσουν ελάσσονες διαταραχές με πιο σοβαρές παθήσεις. Η τεχνική αυτή επιτρέπει στους γιατρούς να παρεμβαίνουν πιο έγκαιρα ώστε να σώζουν ζωές. Με την πάροδο του χρόνου, η καταγραφή όλων αυτών των παρατηρήσεων θα μπορούσε επιπροσθέτως να τους βοηθήσει να κατανοήσουν καλύτερα τι προκαλεί τέτοιες λοιμώξεις. Ωστόσο, όταν παίζεται η ζωή ενός βρέφους, είναι πιο χρήσιμο να προλάβεις κάτι που μπορεί να συμβεί παρά να μάθεις γιατί συμβαίνει.
Τούτη η ιατρική εφαρμογή καταδεικνύει σαφώς αυτή τη δυνατότητα προσδιορισμού των συσχετίσεων, ακόμη και όταν οι αιτίες που αποτελούν τη βάση τους παραμένουν σκοτεινές. Το 2009, αναλυτές της Google δημοσίευσαν στο περιοδικό Nature ένα άρθρο που έκανε αίσθηση στους ιατρικούς κύκλους (1). Οι συγγραφείς του διαβεβαίωναν ότι είναι σε θέση να εντοπίσουν τις εστίες της εποχιακής γρίπης μέσα από τα αρχεία του διαδικτυακού γίγαντα. Η Google διαχειρίζεται καθημερινά τουλάχιστον ένα δισεκατομμύριο ερωτήματα μόνο από την αμερικανική επικράτεια και καταγράφει σχολαστικά τις δραστηριότητές της. Έτσι, επέλεξαν τα πενήντα εκατομμύρια όρους που καταγράφηκαν με μεγαλύτερη συχνότητα στη μηχανή αναζήτησής της μεταξύ 2003 και 2008 και κατόπιν τους διασταύρωσαν με τα αρχεία της γρίπης από τα κέντρα ελέγχου και πρόληψης νοσημάτων (Centers for Disease Control and Prevention, CDC) των ΗΠΑ. Στόχος: να ανακαλύψουν αν η επαναληπτική παρουσία ορισμένων λέξεων-κλειδιών συνέπιπτε με τις εμφανίσεις του ιού· με άλλα λόγια, να εκτιμήσουν την πιθανή συσχέτιση μεταξύ της συχνότητας ορισμένων αναζητήσεων στο Google και των στατιστικών κορυφώσεων της ασθένειας που καταγράφηκαν από τα CDC στην ίδια γεωγραφική ζώνη. Τα κέντρα καταμετρούν κυρίως τις επισκέψεις ασθενών από γρίπη σε νοσοκομεία όλης της χώρας, όταν όμως συλλέγονται, οι αριθμοί αυτοί δίνουν μια εικόνα που συχνά έχει χρονική διαφορά μίας ή δύο εβδομάδων: μια αιωνιότητα, όταν έχουμε να κάνουμε με μια πανδημία. Από την άλλη, η Google μπορεί να παρέχει μετρήσεις σε πραγματικό χρόνο.
Η εταιρεία δεν διέθετε κανένα στοιχείο με βάση το οποίο θα μάντευε ποιες λέξεις-κλειδιά θα μπορούσαν να παρέχουν πειστικές ενδείξεις. Αρκέστηκε να υποβάλει όλα τα δείγματά της σε έναν αλγόριθμο που δημιουργήθηκε για να υπολογίσει τη συσχέτισή τους με τις επιθέσεις του ιού. Στη συνέχεια, το σύστημά της συνδύασε τις εκφράσεις που προέκυψαν, προσπαθώντας να αποκομίσει το πλέον αξιόπιστο μοντέλο. Μετά από πεντακόσια εκατομμύρια υπολογιστικές πράξεις, η Google κατάφερε να προσδιορίσει σαράντα πέντε λέξεις-κλειδιά –όπως «πονοκέφαλος» ή «μύτη που τρέχει»– των οποίων η επανάληψη επιβεβαίωνε τις στατιστικές των CDC. Όσο πιο μεγάλη ήταν η συχνότητα εμφάνισής τους σε μια δεδομένη περιοχή τόσο πιο έντονες ήταν οι επιθέσεις του ιού στην ίδια περιφέρεια. Το συμπέρασμα μπορεί να μοιάζει προφανές αλλά, με ένα δισεκατομμύριο αναζητήσεις την ημέρα, θα ήταν αδύνατο να προκύψει με άλλα μέσα.
Τα δεδομένα που επεξεργάστηκε η Google ήταν εντούτοις ατελή. Στον βαθμό που είχαν συλλεχθεί και αποθηκευθεί για σκοπούς πολύ διαφορετικούς από τον υγειονομικό αλτρουισμό, έβριθαν από λάθη πληκτρολόγησης και λειψές φράσεις. Όμως το κολοσσιαίο μέγεθος της βάσης δεδομένων αντιστάθμισε σε μεγάλο βαθμό την τσαπατσούλικη φύση της. Αυτό που προκύπτει από όλα τούτα δεν είναι παρά μια απλή συσχέτιση. Δεν προσφέρει κανένα τεκμήριο για τους λόγους που ώθησαν τον χρήστη του Διαδικτύου να πραγματοποιήσει την αναζήτησή του. Ήταν επειδή είχε ο ίδιος πυρετό, επειδή κάποιος φταρνίστηκε δίπλα του στο μετρό ή μήπως επειδή το δελτίο ειδήσεων του προκάλεσε ανησυχία; Η Google δεν γνωρίζει τίποτε για όλα αυτά –και λίγο την νοιάζει. Εξάλλου, φαίνεται ότι τον προηγούμενο Δεκέμβριο το σύστημά της υπερεκτίμησε τον αριθμό των κρουσμάτων γρίπης στις ΗΠΑ. Οι προγνώσεις δεν είναι παρά πιθανότητες, ποτέ βεβαιότητες, ιδίως όταν, εκ της φύσεώς του, το υλικό που τις τροφοδοτεί –οι αναζητήσεις στο Διαδίκτυο– είναι τόσο ασταθές και τόσο ευάλωτο στις επιρροές, ιδιαιτέρως εκ μέρους των ΜΜΕ. Παραμένει βεβαίως το γεγονός ότι τα μαζικά δεδομένα μπορούν να προσδιορίσουν φαινόμενα που βρίσκονται εν εξελίξει.
Αρκετοί ειδικοί διαβεβαιώνουν ότι η χρήση των μαζικών δεδομένων χρονολογείται από την ψηφιακή επανάσταση της δεκαετίας του 1980, όταν η αύξηση της ισχύος των μικροεπεξεργαστών και της υπολογιστικής μνήμης έκανε δυνατή την αποθήκευση και την ανάλυση όλο και πιο πληθωρικών δεδομένων. Κάτι τέτοιο μόνο εν μέρει είναι ακριβές. Η τεχνολογική πρόοδος και η έκρηξη του Διαδικτύου βεβαιότατα και συνέβαλαν στη μείωση του κόστους συλλογής, αποθήκευσης, επεξεργασίας και διαμοιρασμού των πληροφοριών. Όμως τα μαζικά δεδομένα αποτελούν κατά κύριο λόγο την τελευταία μέχρι στιγμής εκδήλωση της ασυγκράτητης ανθρώπινης επιθυμίας για κατανόηση και ποσοτικοποίηση του κόσμου. Για να διερευνήσουμε τη σημασία αυτού του καινούργιου σταδίου, θα πρέπει να ρίξουμε ένα πλάγιο βλέμμα –ή μάλλον ένα βλέμμα προς τα κάτω.
Ο Κοσιμίζου Σιγκεόμι είναι καθηγητής στο Ανώτατο Ινστιτούτο Βιομηχανικής Τεχνολογίας του Τόκυο. Η ειδικότητά του συνίσταται στη μελέτη του τρόπου με τον οποίο κάθονται οι άνθρωποι. Πρόκειται για ένα ελάχιστα διερευνημένο πεδίο μελέτης, που ωστόσο δίνει πλούσια μαθήματα. Όταν ένα άτομο τοποθετεί τα οπίσθιά του σε οποιοδήποτε υποστήριγμα, οι καμπύλες του και η κατανομή της σωματικής μάζας του προσφέρουν συγκεκριμένες μετρήσιμες και αναλύσιμες πληροφορίες. Χάρη στους αισθητήρες που έχουν τοποθετηθεί σε ένα κάθισμα αυτοκινήτου, ο Κοσιμίζου και η ομάδα των μηχανικών του μέτρησαν την πίεση που ασκείται από τους γλουτούς του οδηγού πάνω σε ένα πλέγμα τριακοσίων εξήντα σημείων, το καθένα τους διαβαθμισμένο σε μια κλίμακα από το μηδέν έως το διακόσια πενήντα έξι. Τα δεδομένα που συλλέγονται με αυτό τον τρόπο επιτρέπουν τη σύνθεση ενός ψηφιακού κώδικα, διαφορετικού για κάθε άνθρωπο. Μια δοκιμή κατέδειξε ότι το σύστημα αυτό επέτρεπε την ταυτοποίηση ενός ατόμου με ακρίβεια της τάξης του 98%.
Οι μελέτες αυτές δεν είναι τόσο αξιογέλαστες όσο εκ πρώτης όψεως φαίνεται. Ο σκοπός του Κοσιμίζου είναι να βρει μια βιομηχανική εφαρμογή για την ανακάλυψή του, λόγου χάρη ένα αντικλεπτικό σύστημα για τη βιομηχανία αυτοκινήτων. Ένα αυτοκίνητο εξοπλισμένο με αυτούς τους γλουτιαίους αισθητήρες θα μπορούσε να αναγνωρίζει τον κάτοχό του και να απαιτεί από κάθε άλλον οδηγό ένα συνθηματικό προκειμένου να πάρει μπροστά. Ο μετασχηματισμός των γλουτών σε δέσμη ψηφιακών δεδομένων αποτελεί μια σημαντική υπηρεσία και μια ενδεχομένως επικερδή υπόθεση. Θα μπορούσε επιπλέον να εξυπηρετήσει και άλλους σκοπούς εκτός από την προστασία του δικαιώματος ιδιοκτησίας σε ένα αυτοκίνητο: για παράδειγμα, να διασαφηνίσει τη σχέση μεταξύ της στάσης του σώματος του αυτοκινητιστή και την οδική ασφάλεια, μεταξύ των χειρονομιών του στο τιμόνι και του κινδύνου να προκαλέσει ατύχημα. Οι αισθητήρες θα μπορούσαν επίσης να θέσουν σε λειτουργία τον συναγερμό ή το αυτόματο φρενάρισμα αν ο οδηγός αποκοιμηθεί στο τιμόνι.
Πρόληψη πυρκαγιών στη Νέα Υόρκη
Ο Κοσιμίζου ασχολήθηκε με ένα αντικείμενο που κανείς ποτέ ξανά δεν είχε αντιμετωπίσει ως πληροφορία ούτε και είχε αντιληφθεί πως έκρυβε έστω και το ελάχιστο ενδιαφέρον με όρους δεδομένων, για να το μετατρέψει σε μια ψηφιακά ποσοτικοποιημένη μορφή. Η μετατροπή σε δεδομένα σημαίνει κάτι διαφορετικό από την ψηφιοποίηση, η οποία συνίσταται στη μετάφραση ενός αναλογικού περιεχομένου –κείμενο, φιλμ, φωτογραφία– σε μια ακολουθία από 1 και 0 που διαβάζεται από υπολογιστή. Αναφέρεται σε μια πολύ πιο ευρεία ενέργεια, με επιπτώσεις που ακόμη ούτε καν υποψιαζόμαστε: δεν ψηφιοποιούμε πλέον έγγραφα, αλλά όλες τις όψεις της ζωής. Τα γυαλιά που ανέπτυξε η Google –εφοδιασμένα με κάμερα, μικρόφωνο και συνδεδεμένα στο Διαδίκτυο– αλλάζουν τη ματιά μας απέναντι στα δεδομένα· το Twitter μετατρέπει σε δεδομένα τις σκέψεις μας· το LinkedIn κάνει το ίδιο με τις επαγγελματικές σχέσεις μας.
Από τη στιγμή που ένα αντικείμενο δεχθεί μια τέτοια επεξεργασία, είναι πιθανό να αλλάξει η χρήση του και η πληροφορία που περιέχει να μετασχηματιστεί σε μια νέα μορφή αξίας. Η IBM, για παράδειγμα, κατοχύρωσε το 2012 μια ευρεσιτεχνία για την «αύξηση της ασφάλειας των γραφείων μέσω μιας πληροφορικής τεχνολογίας της επιφάνειας»: μια σοφά δυσνόητη διατύπωση για να ορίσεις την επίστρωση του δαπέδου με αισθητήρες, σαν οθόνη έξυπνου τηλεφώνου που ενεργοποιείται με τα πόδια. Η μετατροπή σε δεδομένα των κινήσεων στο δάπεδο ανοίγει πολλών ειδών προοπτικές. Το πάτωμά σας θα μπορούσε να αντιδρά στην παρουσία σας, να ανοίγει τα φώτα όταν επιστρέφετε σπίτι, να αναγνωρίζει έναν επισκέπτη από το βάρος του ή από τον τρόπο που κινείται. Θα μπορούσε να σημαίνει συναγερμό όταν κάποιος πέφτει και δεν ξανασηκώνεται –μια εφαρμογή που πιθανώς θα ενδιέφερε τους ηλικιωμένους. Οι έμποροι θα μπορούσαν να παρακολουθούν τη διαδρομή των πελατών στο κατάστημά τους. Καθώς κάθε ανθρώπινη δραστηριότητα αποκτά δυνατότητα εγγραφής και αξιοποίησης, μαθαίνουμε περισσότερα για τον κόσμο. Μαθαίνουμε όσα πρωτύτερα δεν θα μπορούσαμε ποτέ να μάθουμε ελλείψει κατάλληλων και προσιτών εργαλείων για τη μέτρησή τους.
Ο Μάικλ Μπλούμπεργκ απόκτησε την περιουσία του στον κλάδο των ψηφιακών δεδομένων. Δεν είναι επομένως παράξενο ότι η πόλη της Νέας Υόρκης, της οποίας είναι δήμαρχος, τα χρησιμοποιεί προκειμένου να ενισχύσει την αποτελεσματικότητα των δημόσιων υπηρεσιών και, κυρίως, για να μειώσει το κόστος τους. Η στρατηγική πρόληψης των πυρκαγιών στην πόλη μάς παρέχει ένα καλό παράδειγμα αυτής της προσέγγισης.
Τα ακίνητα που παράνομα έχουν χωριστεί σε χώρους προς ενοικίαση διατρέχουν μεγαλύτερο κίνδυνο να πάρουν φωτιά. Κάθε χρόνο, στη Νέα Υόρκη καταγράφονται εικοσιπέντε χιλιάδες καταγγελίες για υπερπλήρη κτίρια, όμως δεν υπάρχουν παρά μόλις διακόσιοι επιθεωρητές για να ανταποκριθούν σε αυτές. Στο δημαρχείο, μια μικρή ομάδα αναλυτών ασχολήθηκε με το πρόβλημα. Προκειμένου να μετριάσει την έλλειψη ισορροπίας μεταξύ μέσων και αναγκών, δημιούργησε μια βάση δεδομένων όπου καταγράφονται τα εννιακόσιες χιλιάδες κτίρια της πόλης, εμπλουτισμένη με δείκτες από δεκαεννέα δημοτικές υπηρεσίες: κατάλογοι με φορολογικές απαλλαγές, παράτυπη χρήση εξοπλισμού, διακοπές στην παροχή ύδατος ή ηλεκτρισμού, απλήρωτα ενοίκια, δρομολόγια ασθενοφόρων, ποσοστά εγκληματικότητας, παρουσία τρωκτικών κ.λπ. Στη συνέχεια, οι αναλυτές επιχείρησαν να εντοπίσουν αντιστοιχίες μεταξύ αυτής της πλημμυρίδας στοιχείων και των σχετικών με πυρκαγιές στατιστικών της πόλης από τα πέντε προηγούμενα έτη. Όπως ήταν αναμενόμενο, επιβεβαίωσαν ότι ο τύπος του κτιρίου και η χρονολογία κατασκευής του παίζουν σημαντικό ρόλο στο ενδεχόμενο πυρκαγιάς. Πιο απρόσμενο ήταν το εύρημα ότι τα ακίνητα που είχαν πάρει άδεια για εργασίες ανακαίνισης και καθαρισμού της πρόσοψης εμφάνιζαν ξεκάθαρα λιγότερους κινδύνους για πυρκαγιά.
Η διασταύρωση αυτών των δεδομένων επέτρεψε στη δημοτική ομάδα έρευνας να εκπονήσει ένα πλάνο που προσδιορίζει τα πιθανά κριτήρια βάσει των οποίων μια καταγγελία για υπερπληρότητα απαιτεί ιδιαίτερη προσοχή. Κανένας από τους παράγοντες που έλαβαν υπόψη τους οι αναλυτές δεν μπορεί καθαυτός να θεωρηθεί αιτία πυρκαγιάς· αν όμως τεθούν ο ένας δίπλα στον άλλο, έχουν έντονη συσχέτιση με τον αυξημένο κίνδυνο έναρξης πυρκαγιάς. Το εύρημα αυτό έκανε χαρούμενους τους νεοϋορκέζους επιθεωρητές: ενώ κατά το παρελθόν μόλις το 13% των επισκέψεών τους οδηγούσε στην έκδοση εντολής εκκένωσης, το ποσοστό σκαρφάλωσε στο 70% μετά την υιοθέτηση της νέας μεθόδου.
Τα μαζικά δεδομένα μπορούν επίσης να συμβάλουν στην αύξηση της διαφάνειας του δημοκρατικού βίου. Ένα ευρύ κίνημα αναπτύχθηκε γύρω από την απαίτηση για άνοιγμα των δημόσιων δεδομένων (open data), το οποίο είναι κάτι παραπάνω από μια απλή υπεράσπιση της ελευθερίας της πληροφόρησης. Αφορά την άσκηση πίεσης στις κυβερνήσεις ώστε να θέσουν στη διάθεση όλων τον ποταμό δεδομένων που έχουν συσσωρεύσει –τουλάχιστον εκείνων που δεν έχουν σχέση με κρατικά απόρρητα. Οι Ηνωμένες Πολιτείες μάλλον δείχνουν να βρίσκονται στην αιχμή των εξελίξεων σε αυτό τον τομέα, καθώς έχουν αναρτήσει διαδικτυακά τα αρχεία της ομοσπονδιακής κυβέρνησης (εκκαθαρισμένα από τα ευαίσθητα στοιχεία) στον ιστότοπο data.gov. Και άλλες χώρες ακολουθούν τα βήματά τους.
Καθώς τα κράτη προωθούν τη χρήση των μαζικών δεδομένων, προκύπτει μια ανάγκη: η προστασία των πολιτών έναντι της κυριαρχίας ορισμένων παραγόντων της αγοράς. Εταιρείες όπως η Google, η Amazon και το Facebook –στις οποίες θα πρέπει να προσθέσουμε το πιο διακριτικό αλλά όχι λιγότερο επικίνδυνο περιβάλλον των «μεσιτών δεδομένων» όπως η Acxiom ή η Experian (2)– συσσωρεύουν μέρα με τη μέρα κολοσσιαίες ποσότητες πληροφοριών για τον οποιονδήποτε και για το οτιδήποτε. Υφίστανται βεβαίως νόμοι που απαγορεύουν τη σύμπηξη μονοπωλίων στους κλάδους παραγωγής αγαθών και παροχής υπηρεσιών, όπως το λογισμικό και τα ΜΜΕ. Η εποπτεία αυτή εφαρμόζεται σε κλάδους σχετικά εύκολους ως προς την εκτίμησή τους. Πώς όμως να εφαρμοστεί η αντιμονοπωλιακή νομοθεσία σε μια αγορά τόσο φευγαλέα και τόσο μεταλλασσόμενη; Μια απειλή επομένως βαραίνει πάνω στις προσωπικές ελευθερίες. Πόσο μάλλον όταν όσο πιο πολλά δεδομένα συσσωρεύονται τόσο πιθανότερη γίνεται η χρήση τους χωρίς τη συναίνεση των ατόμων που αυτά αφορούν: μια αντιξοότητα που ο νομοθέτης και η τεχνολογία μοιάζουν να μην είναι σε θέση να επιλύσουν.
Οι απόπειρες για τη θέσπιση μιας κάποιας μορφής ρύθμισης της αγοράς θα μπορούσαν να οδηγήσουν σε μια κούρσα απληστίας σε παγκόσμιο επίπεδο. Οι ευρωπαϊκές κυβερνήσεις άρχισαν να διεκδικούν πληρωμές από την Google, της οποίας η κυρίαρχη θέση και η περιφρόνηση για την ιδιωτική ζωή προξενούν μια κάποια ανησυχία, που κατά κάποιον τρόπο μοιάζει με την περίπτωση της Microsoft, η οποία είχε προκαλέσει την οργή της Ευρωπαϊκής Επιτροπής πριν από δέκα χρόνια. Και το Facebook θα μπορούσε να βρεθεί στο δικαστικό στόχαστρο πολλών χωρών, εξαιτίας της αστρονομικής ποσότητας δεδομένων που κατακρατεί από τους χρήστες του. Το ζήτημα του κατά πόσον οι ροές δεδομένων θα πρέπει να προστατεύονται από τους νόμους που ισχύουν για το ελεύθερο εμπόριο προοιωνίζει μερικές πικρές μάχες μεταξύ διπλωματών. Αν η Κίνα επιμείνει να λογοκρίνει τη χρήση των μηχανών αναζήτησης του Διαδικτύου, μπορούμε να φανταστούμε πως κάποια στιγμή θα διωχθεί από ένα όργανο με διεθνή δικαιοδοσία, όχι μόνο για παραβίαση της ελευθερίας της έκφρασης, αλλά επίσης, ίσως και σίγουρα, λόγω των περιορισμών που θέτει στο εμπόριο.
Αναμένοντας τη στιγμή όπου τα κράτη θα μάθουν να αντιμετωπίζουν τις προσωπικές ελευθερίες ως αγαθό που αξίζει να προστατεύεται, η βιομηχανία των μαζικών δεδομένων ανανεώνει ανενόχλητη τη φιγούρα του Μεγάλου Αδελφού. Τον Ιούνιο του 2013, οι εφημερίδες όλου του κόσμου αποκάλυπταν ότι ο Έντουαρντ Σνόουντεν είχε δημοσιοποιήσει πληροφορίες σχετικά με τις παρακολουθήσεις που διενεργούσε ο εργοδότης του: η Εθνική Υπηρεσία Ασφαλείας (National Security Agency, NSA), η κυριότερη αμερικανική υπηρεσία πληροφοριών. Εκτός από τις τηλεπικοινωνίες, την υπηρεσία ενδιέφεραν και τα ερωτήματα προς τις μηχανές αναζήτησης, τα μηνύματα που δημοσιεύονται στο Facebook, οι συνομιλίες μέσω Skype κ.λπ. Οι αμερικανικές αρχές εξήγησαν πως τα δεδομένα, που συλλέγονταν με τη συγκατάθεση της Δικαιοσύνης, δεν αφορούσαν παρά μόνο «υπόπτους». Όμως, καθώς όλες οι δραστηριότητες της NSA παραμένουν απόρρητες, κανείς δεν είναι σε θέση να επιβεβαιώσει κάτι τέτοιο.
Η υπόθεση Σνόουντεν υπογραμμίζει την εξουσία των κρατών στην επικράτεια των δεδομένων. Οι συλλέκτες-εκμεταλλευτές των ψηφιακών δεδομένων απειλούν πράγματι να γεννήσουν μια καινούργια μορφή ολοκληρωτισμού, όχι και τόσο απομακρυσμένη από τις ζοφερές επινοήσεις της επιστημονικής φαντασίας. Η ταινία Minority Report, που βγήκε στις αίθουσες το 2002, διασκευή ενός μυθιστορήματος του Φίλιπ Κ. Ντικ, εικονογραφεί έναν δυστοπικό κόσμο του μέλλοντος, ο οποίος κυβερνάται από τη θρησκεία της πρόγνωσης. Ο ήρωας, ερμηνευμένος από τον Τομ Κρουζ, διοικεί μια μονάδα της αστυνομίας ικανή να συλλαμβάνει τον δράστη ενός εγκλήματος πριν καν αυτό διαπραχθεί. Προκειμένου να μάθουν πού, πότε και πώς πρέπει να παρέμβουν, οι αστυνομικοί καταφεύγουν σε κάποια αλλόκοτα πλάσματα, προικισμένα με μια ενόραση που υποτίθεται ότι είναι αλάνθαστη. Η πλοκή φέρνει στο φως τα σφάλματα ενός τέτοιου συστήματος και, ακόμη χειρότερα, την εκ μέρους του άρνηση της ίδιας της αρχής της ελεύθερης βούλησης.
Προσδιορισμός εγκληματιών που δεν έχουν ακόμη εγκληματήσει: η ιδέα μοιάζει παλαβή. Χάρη στα μαζικά δεδομένα, μια τέτοια ιδέα λαμβάνεται πλέον σοβαρά υπόψη στα πιο υψηλά κλιμάκια της εξουσίας. Το 2007, το Υπουργείο Εσωτερικής Ασφάλειας –στην ουσία το αντιτρομοκρατικό υπουργείο που δημιούργησε το 2003 ο Τζορτζ Μπους– ξεκίνησε ένα ερευνητικό πρόγραμμα προορισμένο να εντοπίζει τους «ενδεχόμενους τρομοκράτες», αθώους σήμερα, αλλά οπωσδήποτε ενόχους αύριο. Βαφτισμένο «τεχνολογία ανίχνευσης μελλοντικών ιδιοτήτων» (Future Attribute Screening Technology, FAST), το πρόγραμμα αναλύει όλα τα σχετικά με τη συμπεριφορά του υποκειμένου στοιχεία, τη γλώσσα του σώματός του, τις ψυχολογικές ιδιαιτερότητές του κ.ο.κ. Οι μάντες του σήμερα δεν διαβάζουν το κατακάθι του καφέ, αλλά το λογισμικό επεξεργασίας δεδομένων (3). Σε αρκετές μεγάλες πόλεις, όπως το Λος Άντζελες, το Μέμφις, το Ρίτσμοντ ή η Σάντα Κρουζ, οι δυνάμεις της τάξης υιοθέτησαν λογισμικό «προγνωστικής ασφάλειας», ικανό να επεξεργάζεται τα δεδομένα προηγούμενων εγκλημάτων ώστε να καθορίσει πού και πώς ενδέχεται να λάβουν χώρα τα προσεχή εγκλήματα. Προς το παρόν, τα συστήματα αυτά δεν επιτρέπουν τον προσδιορισμό υπόπτων. Δεν θα προκαλούσε έκπληξη όμως αν κάποια μέρα το κατόρθωναν.
Ανακαλύπτοντας ξανά τις αρετές του απρόβλεπτου
Ωστόσο, μερικές φορές οι Αμερικανοί ηγέτες μετανιώνουν πικρά που πόνταραν τα πάντα στο αλάθητο των αριθμών. Υπουργός Άμυνας στις κυβερνήσεις του Τζων Κέννεντυ και του Λύντον Τζόνσον, ο Ρόμπερτ ΜακΝαμάρα δεν εμπιστευόταν παρά μόνο τις στατιστικές προκειμένου να καταμετρήσει τα κατορθώματα των στρατευμάτων του στο Βιετνάμ (βλ. ένθετο). Μαζί με την ομάδα του, μελετούσε εξονυχιστικά την καμπύλη του αριθμού των εχθρών που είχαν εξοντωθεί. Διαβιβαζόμενη στους διοικητές των μονάδων ως επίπληξη ή ως εμψύχωση, καθημερινά αναμεταδιδόμενη από τις εφημερίδες, η καταμέτρηση των νεκρών Βιετκόνγκ έγινε το πρωταρχικό δεδομένο μιας στρατηγικής και το σύμβολο μιας εποχής. Στους υπέρμαχους του πολέμου παρείχε τη διαβεβαίωση ότι η νίκη ήταν κοντά· στους αντιτιθέμενους αποδείκνυε ότι ο πόλεμος αποτελούσε ένα όνειδος. Όμως οι αριθμοί συχνά ήταν εσφαλμένοι και δεν είχαν σχέση με την πραγματικότητα του πεδίου της μάχης. Δεν μπορούμε παρά να χαιρόμαστε όταν η ερμηνεία των δεδομένων βελτιώνει τη συνθήκες ζωής των συγχρόνων μας, δεν θα πρέπει όμως να οδηγεί στην έκπτωση της κοινής λογικής μας…
Στο μέλλον, από αυτές τις ερμηνείες θα περνάει όλο και περισσότερο, για καλό ή για κακό, η διαχείριση των μεγάλων πλανητικών προβλημάτων. Ο αγώνας εναντίον της υπερθέρμανσης του πλανήτη, λόγου χάρη, επιβάλλει τη συγκέντρωση όλων των διαθέσιμων πληροφοριών γύρω από τα φαινόμενα ρύπανσης, προκειμένου να εντοπιστούν οι περιοχές όπου απαιτείται κατά προτεραιότητα παρέμβαση. Αν διαθέτουμε αισθητήρες σε ολόκληρο τον κόσμο, συμπεριλαμβανομένων και μέσα στα έξυπνα τηλέφωνα εκατομμυρίων χρηστών, θα επιτρέψουμε στους κλιματολόγους να κατασκευάσουν πιο αξιόπιστα και πιο ακριβή μοντέλα.
Όμως, σε έναν κόσμο όπου τα μαζικά δεδομένα καθοδηγούν όλο και πιο στενά την πρακτική και τις αποφάσεις των ισχυρών, πόσος χώρος θα απομείνει για την κοινότητα των θνητών, για τους ανυπότακτους απέναντι στην ψηφιακή τυραννία ή για οποιονδήποτε πάει κόντρα στο ρεύμα; Αν η λατρεία των τεχνολογικών εργαλείων επιβληθεί σε όλους, η ανθρωπότητα ενδέχεται, ως ανακλαστικό, να ανακαλύψει ξανά τις αρετές του απρόβλεπτου: το ένστικτο, την ανάληψη ρίσκου, το ατύχημα, ακόμη και το λάθος. Μπορεί τότε να ανακύψει η ανάγκη διατήρησης ενός ελεύθερου χώρου όπου η διαίσθηση, ο κοινός νους, η πρόκληση στη λογική, τα τυχαία συμβάντα της ζωής και όλα εκείνα που συναποτελούν την ουσία της ανθρώπινης ύπαρξης θα αντιστέκονται στις αποτιμήσεις των υπολογιστών.
Από το έργο που θα ανατεθεί στα μαζικά δεδομένα εξαρτάται η επιβίωση της έννοιας της προόδου. Τα μαζικά δεδομένα διευκολύνουν τον πειραματισμό και τη διερεύνηση, παραμένουν όμως σιωπηλά όταν εμφανίζεται η σπίθα της εφευρετικότητας. Αν ο Χένρυ Φορντ είχε συμβουλευθεί αλγορίθμους προκειμένου να εκτιμήσει τι επιθυμούν οι καταναλωτές, οι αλγόριθμοι πιθανότατα θα του είχαν απαντήσει: «Πιο γρήγορα άλογα».
Βλ. επίσης «Ξέρουμε τα πάντα χωρίς να γνωρίζουμε τίποτε»