Μπορεί να γράφουν δοκίμια, να συνθέτουν μουσική και να παίζουν στα δάχτυλα τις γλώσσες προγραμματισμού, όμως τα σημερινά μοντέλα τεχνητής νοημοσύνης (ΑΙ) συνεχίζουν να τα βρίσκουν σκούρα σε απλές εργασίες που δεν θα δυσκόλευαν ούτε τα παιδιά.
Τα περισσότερα μεγάλα γλωσσικά μοντέλα δυσκολεύονται να διαβάσουν την ώρα σε ένα αναλογικό ρολόι ή να απαντούν σε απλές ερωτήσεις για τις ημερομηνίες σε ένα ημερολόγιο, αποκαλύπτει νέα μελέτη.
«Οι περισσότεροι άνθρωποι μπορούν να διαβάζουν την ώρα και να χρησιμοποιούν ημερολόγια από μικρή ηλικία. Τα ευρήματά μας αποκαλύπτουν ένα σημαντικό κενό στην ικανότητα της ΑΙ να διεκπεραιώνει εργασίες που θεωρούνται βασικές για τους ανθρώπους» δήλωσε σε δελτίο Τύπου ο Ρόχιτ Σαξίνα του Πανεπιστημίου του Εδιμβούργου, επικεφαλής της μελέτης που παρουσιάζεται ως προδημοσίευση στο αποθετήριο arXiv.
«Το έλλειμμα αυτό πρέπει να αντιμετωπιστεί αν θέλουμε να ενσωματώσουμε συστήματα ΑΙ σε χρονοευαίσθητες εφαρμογές του πραγματικού κόσμου, όπως ο προγραμματισμός, η αυτοματοποίηση και οι υποβοηθητικές τεχνολογίες» είπε.
Το πρόβλημα είναι ότι τα μεγάλα γλωσσικά μοντέλα δεν εκπαιδεύονται στη μαθηματική σκέψη αλλά απλά μαθαίνουν ποια λέξη είναι στατιστικά πιθανότερο να ακολουθεί μια άλλη.
Μπορούν έτσι να απαντούν σε κάποια στοιχειώδη μαθηματικά ερωτήματα, δυσκολεύονται όμως σε προβλήματα που απαιτούν αντίληψη του χώρου και των σχημάτων, όπως η ανάγνωση της ώρας σε ένα αναλογικό ρολόι.
Σε αυτή την περίπτωση, το μοντέλο πρέπει μεταξύ άλλων να αναγνωρίσει τις γωνίες των δεικτών και να ερμηνεύσει τη θέση τους, μια εργασία που αποδεικνύεται υπερβολικά απαιτητική.
Ο Σαξίνα και οι συνεργάτες έδειξαν εικόνες ρολογιών και ημερολογίων σε μια σειρά «πολυτροπικών» γλωσσικών μοντέλων που εκτός από κείμενο αναγνωρίζουν και εικόνες, όπως το Llama 3.2-Vision της Meta, το Claude-3.5 Sonnet της Anthropic, το Gemini 2.0 της Google και το GPT-4o της OpenAI.
Τα μοντέλα μπορούσαν να διαβάσουν σωστά τους δείκτες του ρολογιού σε λιγότερο από το ένα τέταρτο των περιπτώσεων, έδειξε το πείραμα.
Τα λάθη ήταν συχνότερα όταν το ρολόι χρησιμοποιούσε λατινικούς αριθμούς ή είχε περίτεχνο καντράν, επισημαίνουν οι ερευνητές.
Εξίσου απογοητευτικές ήταν οι επιδόσεις της ΑΙ σε ερωτήσεις που αφορούσαν σελίδες ημερολογίων, όπως το να υπολογίσουν ποια μέρα της εβδομάδας πέφτει μια συγκεκριμένη ημερομηνία στο μέλλον ή το παρελθόν. Τα μοντέλα έδιναν σωστές απαντήσεις μόνο στο 26% των περιπτώσεων.
Τα ευρήματα, λένε οι ερευνητές, καθιστούν σαφή την ανάγκη εκπαίδευσης της ΑΙ με περισσότερα παραδείγματα κειμένων και εικόνων που αφορούν τον χρόνο.
Βελτιώσεις απαιτούνται επίσης σε εργασίες που απαιτούν έναν συνδυασμό λογικής και αντίληψης του χώρου.
«Η έρευνα στην τεχνητή νοημοσύνη συχνά δίνει έμφαση σε περίπλοκες συλλογιστικές εργασίες, η ειρωνεία όμως είναι ότι πολλά συστήματα ακόμα δυσκολεύονται με απλούστερες, καθημερινές εργασίες» σχολίασε ο Άριο Τζέμα του Πανεπιστημίου του Εδιμβούργου, μέλος της ερευνητικής ομάδς.
«Τα ευρήματά μας υποδεικνύουν ότι είναι καιρός να αντιμετωπίσουμε αυτά τα θεμελιώδη κενά» είπε.
Με πληροφορίες από In .gr