Ηχητική περιγραφή φωτογραφιών στο Facebook

Με τη βοήθεια της τεχνητής νοημοσύνης εκατομμύρια τυφλοί θα «βλέπουν» το φωτογραφικό υλικό που ανεβάζουν γνωστοί και φίλοι

Υπάρχουν 39 εκατομμύρια τυφλοί και περισσότεροι από 246 εκατομμύρια άνθρωποι με κάποια σοβαρή βλάβη στην όραση, η τεχνητή όμως νοημοσύνη μπορεί να τους επιτρέψει να «βλέπουν» τις φωτογραφίες στο Facebook όπως όλοι οι υπόλοιποι, υποστηρίζει η εταιρεία πίσω από το δημοφιλέστερο μέσο κοινωνικής δικτύωσης, εγκαινιάζοντας το «αυτόματο εναλλακτικό κείμενο».

Στην HTML (και XHTML), το (attribute) alt text αναφέρεται στο κείμενο που εμφανίζεται όταν για οποιοδήποτε λόγο - για παράδειγμα, αργή σύνδεση - δεν μπορεί να εμφανιστεί μια εικόνα. Στην προκειμένη περίπτωση, το alt text παράγεται αυτόματα για τις φωτογραφίες από το νευρωνικό δίκτυο του Facebook που αναλαμβάνει να διακρίνει αφενός, να αναγνωρίσει αφετέρου το θέμα της, μαθαίνοντας ταυτόχρονα από την λειτουργία του.

Η νοημοσύνη της περιγραφής

Το automatic alternative text του Facebook αναφέρεται στη δυνατότητα της τεχνολογίας να παράγει μια περιγραφή φωτογραφιών, αξιοποιώντας τις εξελίξεις στην οπτική αναγνώριση αντικειμένων. Έτσι, άνθρωποι που χρησιμοποιούν αναγνώστες οθόνης σε συσκευές iOS της Apple για να ακούσουν το κείμενο στην οθόνη (να ακούσουν τα post), θα μπορούν επίσης να ακούν τις περιγραφές που παράγονται αυτόματα και για τις φωτογραφίες στο Facebook. Ως τώρα, το μόνο που μπορούσαν να μάθουν οι τυφλοί είναι το όνομα του προσώπου που δημοσίευσε τη φωτογραφία και ότι πρόκειται για φωτογραφία (photo). Στο εξής, μια πιθανή περιγραφή θα μπορούσε να είναι «η φωτογραφία του Δημήτρη την 5η Απριλίου 2016 στις 17:00, πιθανότατα απεικονίζει τρεις ανθρώπους που χαμογελούν σε εξωτερικό χώρο».

Το «automatic alt text» θα ενεργοποιείται σε iOS screen reader, μόνο στην αγγλική γλώσσα αρχικά, η Ομάδα Accessibility στην Facebook όμως, υπόσχεται ότι θα διευρύνει την υποστήριξη και άλλων γλωσσών. Επίσης, η τεχνολογία θα αξιοποιηθεί σύντομα και και σε άλλες πλατφόρμες (π.χ. Android, Windows, Mac) και θα επεκταθεί για να καλύψει τις ανάγκες ανθρώπων με σοβαρά προβλήματα όρασης εκτός των ΗΠΑ, του Ηνωμένου Βασιλείου του Καναδά, της Αυστραλία και της Νέα Ζηλανδίας, όπου λανσάρεται από τις αρχές Απριλίου 2016.

H εταιρεία επέλεξε να ενεργοποιήσει την οπτική αναγνώριση και ηχητική μετάδοση της περιγραφής φωτογραφιών για τις 100 πλέον επιτυχημένες ταυτοποιήσεις που έχει αποδειχτεί ότι μπορεί να κάνει επί αντικειμένων σε φωτογραφίες. Μπορεί να αναγνωρίσει τα χαρακτηριστικά της ανθρώπινης όψης (να διακρίνει ότι εμφανίζεται μωρό, ότι ο άνθρωπος που εμφανίζεται φοράει γυαλιά, ή έχει γένια, και χαμογελά, ή, φορά κοσμήματα), τη φύση (πρόκειται για εξωτερική λήψη, λήψη σε βουνό, στο χιόνι, ή με ουρανό), τα μεταφορικά μέσα (αυτοκίνητο, καράβι, αεροπλάνο, ποδήλατο), αθλήματα (τένις, κολύμβηση, στάδιο, μπέιζμπολ) και φαγητό (παγωτό, πίτσα, ορεκτικό, καφές). Επίσης, μπορεί να παρέχει πληροφορία για τη δραστηριότητα στη φωτογραφία, όπως ανθρώπους που μετρούν, που χαμογελούν, παιδί ή βρέφος, αλλά και να διακρίνει εάν πρόκειται για φωτογράφιση σε εσωτερικό ή εξωτερικό χώρο ή στη φύση καθώς και άλλα χαρακτηριστικά όπως φωτογράφιση κειμένου, selfie ή κοντινό πλάνο.

Η ελάχιστη ακρίβεια ορίστηκε στο 0.8, αν και οι απαιτήσεις σε κάποιες κατηγορίες «αντικειμένων» η περιγραφή δεν αποδίδεται εάν η ακρίβεια της ταυτοποίησης δεν φτάνει στο 0.99. Υπό αυτούς, τους αυστηρούς όρους, η τεχνολογία object recognition της Facebook, είναι σε θέση να αποδώσει τουλάχιστον μια περιγραφή σε περισσότερες από τις μισές φωτογραφίες στην υπηρεσία, ισχυρίζονται οι μηχανικοί της. Απώτερος στόχος τους, να εμπλουτίσουν το λεξιλόγιο της αυτόματης ηχητικής απόδοσης σε κάθε περιγραφή φωτογραφιών.

ΤΟ ΒΗΜΑ science

* Οι απόψεις του ιστολογίου μπορεί να μη συμπίπτουν με τις απόψεις του/της αρθρογράφου ή τα περιεχόμενα του άρθρου.