Είναι σαφές ότι η τεχνητή νοημοσύνη έχει γοητεύσει την επιστημονική κοινότητα και ενώ μπορεί τα chatbots όπως το ChatGPT να είναι η πιο εμφανής τεχνητή νοημοσύνη που βλέπουμε στην καθημερινή μας ζωή, παρόλα αυτά, υπάρχουν πολλά περισσότερα που μπορείτε να κάνετε με την AI πέρα από το να της μιλάτε. Στην πραγματικότητα, ορισμένοι ερευνητές έχουν βρει ακόμη και έναν τρόπο να αναπτύξουν μια παραγωγική AI που βασίζεται στον ήχο και χρησιμοποιεί ηχητικά δείγματα για τη δημιουργία εικόνων δρόμου με εντυπωσιακή ακρίβεια.
Σε μια νέα εργασία που δημοσιεύθηκε στο Computers, Environment and Urban Systems, οι ερευνητές έδειξαν ότι είναι δυνατόν να πάρουν τα «soundtracks» πραγματικών τοποθεσιών αστικών και αγροτικών περιοχών και να τα αναδημιουργήσουν χρησιμοποιώντας την AI. Οι ερευνητές του University of Texas στο Austin διεξήγαγαν τη μελέτη, εργαζόμενοι για να μετατρέψουν ήχους από ηχογραφήσεις σε αρκετά ακριβείς εικόνες δρόμου, όπως αυτές που μπορεί να δείτε στο Google Street View.
Οι ερευνητές χρησιμοποίησαν τόσο ηχητικά όσο και οπτικά δεδομένα για να εκπαιδεύσουν την AI και στη συνέχεια δοκίμασαν χρησιμοποιώντας μόνο ήχο για να αναπαραστήσουν ορισμένες από τις τοποθεσίες από τις οποίες συνέλαβαν ηχητικά δείγματα.
Τα αποτελέσματα είναι αρκετά εντυπωσιακά, αναδεικνύοντας πόσο πολύ τα ακουστικά περιβάλλοντα μιας περιοχής μπορούν να βοηθήσουν στην αναπαράσταση της οπτικής φύσης της τοποθεσίας. Οι ερευνητές χρησιμοποίησαν ένα video από το YouTube, καθώς και ηχητικά αποσπάσματα από πόλεις της Βόρειας Αμερικής, της Ασίας και της Ευρώπης, για να πραγματοποιήσουν τις δοκιμές τους. Δημιούργησαν ηχητικά αποσπάσματα 10 δευτερολέπτων και στιγμιότυπα εικόνας από τις τοποθεσίες για να εκπαιδεύσουν το AI μοντέλο που χρησιμοποιήθηκε στη γεννήτρια εικόνων.
Στη συνέχεια συνέκριναν τις εικόνες που δημιουργήθηκαν από 100 ηχητικά κλιπ με φωτογραφίες που ελήφθησαν από τις αντίστοιχες τοποθεσίες του πραγματικού κόσμου, χρησιμοποιώντας αξιολογήσεις τόσο από ανθρώπους όσο και από υπολογιστές. Ανακάλυψαν ότι το νέο AI εργαλείο τους ήταν ικανό να αποτυπώσει τη σκηνή με ακρίβεια μόνο βάσει των ακουστικών ιδιοτήτων, κάτι που προηγουμένως αποτελούσε μια μοναδική ανθρώπινη ικανότητα.
[via]