Ερευνητές του MIT, της Microsoft και της Adobe συνεργάστηκαν στην ανάπτυξη ενός «οπτικού μικροφώνου»
Βαγγέλης Πρατικάκης
ΤΟ ΒΗΜΑ science
Βαγγέλης Πρατικάκης
Ερευνητές του MIT, της Microsoft και της
Adobe συνεργάστηκαν στην ανάπτυξη ενός «οπτικού μικροφώνου», το οποίο
αναδημιουργεί τους ήχους που ακούγονται στο δωμάτιο μετρώντας τις
δονήσεις που προκαλούν οι ήχοι σε καθημερινά αντικείμενα.
Σε ένα από τα πειράματα, το σύστημα ανέκτησε καθαρές ανθρώπινες ομιλίες από τις δονήσεις μιας σακούλας από πατατάκια που βρισκόταν πέντε μέτρα μακριά, πίσω από ένα τζάμι ηχομόνωσης. Μπόρεσε επίσης να ανακτήσει καθαρούς ήχους από ένα φύλλο αλουμινόχαρτου, την επιφάνεια ενός ποτηριού με νερό, ακόμα και από τα φύλλα ενός φυτού εσωτερικού χώρου.
Ο αλγόριθμός
«Όταν ο ήχος χτυπά ένα αντικείμενο το αναγκάζει να δονείται» αναφέρει ο Άμπε Ντέιβις, μεταπτυχιακός φοιτητής του MIT και μέλος της ερευνητικής ομάδας. «Η κίνηση αυτής της δόνησης δημιουργεί ένα αμυδρό οπτικό σήμα που συνήθως είναι αόρατο με γυμνό μάτι. Μέχρι σήμερα δεν είχαμε συνειδητοποιήσει ότι το σήμα έκρυβε τόση πληροφορία».
Οι ερευνητές ανέπτυξαν έναν αλγόριθμο που αναλύει εικόνες αντικειμένων καταγεγραμμένες σε βίντεο. Το λογισμικό αναλύει τις εικόνες καρέ προς καρέ και μετρά απειροελάχιστες διακυμάνσεις, όπως οι μεταβολές στο χρώμα κάθε εικονοστοιχείου. Με βάση τις μεταβολές αυτές το σύστημα συμπεραίνει τις κινήσεις ενός αντικειμένου καθώς δονείται ανεπαίσθητα υπό την επίδραση των ηχητικών κυμάτων.
Ακόμα και με εικόνες από μια απλή βιντεοκάμερα, η οποία καταγράφει μέχρι 60 καρέ το δευτερόλεπτο ο αλγόριθμος μπορεί να αναδημιουργεί τους ήχους με αρκετή ακρίβεια ώστε να αποκαλύπτει βασικές πληροφορίες όπως ο αριθμός και το φύλο των ομιλητών. Η απόδοση όμως αυξάνεται κατακόρυφα όταν ανέβει ο ρυθμός δειγματοληψίας, δηλαδή ο αριθμός των καρέ που καταγράφονται ανά δευτερόλεπτο (fps). Σε ορισμένα από τα πειράματά τους, οι ερευνητές χρησιμοποίησαν κάμερα υψηλής ταχύτητας που λειτουργούν στα 2 με 6 χιλιάδες fps.
Οι δονήσεις που μετρά ο αλγόριθμος είναι πραγματικά αόρατες στο μάτι καθώς το εύρος τους μετρήθηκε γύρω στα δέκα μικρόμετρα (χιλιοστά του χιλιοστού). Ακόμα και σε μια εικόνα που έχει ληφθεί από πολύ κοντά, η απόσταση των 10 μικρομέτρων αντιστοιχεί σε πολύ λιγότερο από ένα εικονοστοιχείο. Κι όμως, η παρακολούθηση της χρωματικής μεταβολής των pixel στην πορεία του χρόνου επιτρέπει την καταγραφή κινήσεων μικρότερων από ένα εικονοστοιχείο.
Οι τεχνικές λεπτομέρειες του αλγόριθμου θα παρουσιαστούν στο συνέδριο Siggraph. Όσον αφορά τις πρακτικές εφαρμογές που θα μπορούσε να έχει, οι ερευνητές παραδέχονται ότι το πρώτο πράγμα που τους έρχεται στο μυαλό είναι η κατασκοπεία.
Σε ένα από τα πειράματα, το σύστημα ανέκτησε καθαρές ανθρώπινες ομιλίες από τις δονήσεις μιας σακούλας από πατατάκια που βρισκόταν πέντε μέτρα μακριά, πίσω από ένα τζάμι ηχομόνωσης. Μπόρεσε επίσης να ανακτήσει καθαρούς ήχους από ένα φύλλο αλουμινόχαρτου, την επιφάνεια ενός ποτηριού με νερό, ακόμα και από τα φύλλα ενός φυτού εσωτερικού χώρου.
Ο αλγόριθμός
«Όταν ο ήχος χτυπά ένα αντικείμενο το αναγκάζει να δονείται» αναφέρει ο Άμπε Ντέιβις, μεταπτυχιακός φοιτητής του MIT και μέλος της ερευνητικής ομάδας. «Η κίνηση αυτής της δόνησης δημιουργεί ένα αμυδρό οπτικό σήμα που συνήθως είναι αόρατο με γυμνό μάτι. Μέχρι σήμερα δεν είχαμε συνειδητοποιήσει ότι το σήμα έκρυβε τόση πληροφορία».
Οι ερευνητές ανέπτυξαν έναν αλγόριθμο που αναλύει εικόνες αντικειμένων καταγεγραμμένες σε βίντεο. Το λογισμικό αναλύει τις εικόνες καρέ προς καρέ και μετρά απειροελάχιστες διακυμάνσεις, όπως οι μεταβολές στο χρώμα κάθε εικονοστοιχείου. Με βάση τις μεταβολές αυτές το σύστημα συμπεραίνει τις κινήσεις ενός αντικειμένου καθώς δονείται ανεπαίσθητα υπό την επίδραση των ηχητικών κυμάτων.
Ακόμα και με εικόνες από μια απλή βιντεοκάμερα, η οποία καταγράφει μέχρι 60 καρέ το δευτερόλεπτο ο αλγόριθμος μπορεί να αναδημιουργεί τους ήχους με αρκετή ακρίβεια ώστε να αποκαλύπτει βασικές πληροφορίες όπως ο αριθμός και το φύλο των ομιλητών. Η απόδοση όμως αυξάνεται κατακόρυφα όταν ανέβει ο ρυθμός δειγματοληψίας, δηλαδή ο αριθμός των καρέ που καταγράφονται ανά δευτερόλεπτο (fps). Σε ορισμένα από τα πειράματά τους, οι ερευνητές χρησιμοποίησαν κάμερα υψηλής ταχύτητας που λειτουργούν στα 2 με 6 χιλιάδες fps.
Οι δονήσεις που μετρά ο αλγόριθμος είναι πραγματικά αόρατες στο μάτι καθώς το εύρος τους μετρήθηκε γύρω στα δέκα μικρόμετρα (χιλιοστά του χιλιοστού). Ακόμα και σε μια εικόνα που έχει ληφθεί από πολύ κοντά, η απόσταση των 10 μικρομέτρων αντιστοιχεί σε πολύ λιγότερο από ένα εικονοστοιχείο. Κι όμως, η παρακολούθηση της χρωματικής μεταβολής των pixel στην πορεία του χρόνου επιτρέπει την καταγραφή κινήσεων μικρότερων από ένα εικονοστοιχείο.
Οι τεχνικές λεπτομέρειες του αλγόριθμου θα παρουσιαστούν στο συνέδριο Siggraph. Όσον αφορά τις πρακτικές εφαρμογές που θα μπορούσε να έχει, οι ερευνητές παραδέχονται ότι το πρώτο πράγμα που τους έρχεται στο μυαλό είναι η κατασκοπεία.
ΤΟ ΒΗΜΑ science
0 Σχόλια