Salta al contenuto

Focalizzazione riformulata: esame delle attenzioni visive ricorrenti: analisi computazionale delle fissazioni in vari compiti e specie

Indagando un modello computazionale che studia i movimenti di focalizzazione visiva durante l'osservazione della scena, con un focus sull'equilibrare l'uso di informazioni familiari (esploit) e la ricerca di nuove informazioni (esplorazione).

Focus Due Volte: Studio Computazionale della Diversità degli Sguardi Ripetuti Durante i Compiti e...
Focus Due Volte: Studio Computazionale della Diversità degli Sguardi Ripetuti Durante i Compiti e Tra le Specie

Focalizzazione riformulata: esame delle attenzioni visive ricorrenti: analisi computazionale delle fissazioni in vari compiti e specie

In una svolta innovativa, è stato creato un nuovo modello computazionale in grado di prevedere una sequenza di fissazioni durante la visione di immagini, che si avvicina molto al comportamento visivo osservato sia nei primati che negli esseri umani. Questo modello, basato su reti neurali convoluzionali profonde (CNN), è il risultato di una ricerca interdisciplinare che combina neuroscienze, psicologia e intelligenza artificiale.

Le fissazioni di ritorno prodotte dal modello, che si verificano quando gli occhi tornano a posizioni precedentemente visitate, sono una caratteristica chiave del suo design. Queste fissazioni di ritorno tendono ad avvenire a breve distanza e durano più a lungo rispetto alle fissazioni non di ritorno. In modo interessante, nonostante l'inibizione del ritorno che scoraggia le posizioni precedentemente visitate, i soggetti effettuano spesso fissazioni di ritorno.

Le posizioni di queste fissazioni di ritorno corrispondono a zone dell'immagine di maggiore salienza, ovvero regioni che attirano subito l'attenzione del fruitore. Questo fenomeno non si limita ai compiti di ricerca visiva, ma viene osservato anche in immagini statiche e video egocentrici.

Durante i compiti di ricerca visiva, le fissazioni di ritorno del modello sono caratterizzate da maggiore similarità con il bersaglio cercato. Ciò suggerisce che il modello sta catturando il compromesso tra sfruttamento ed esplorazione durante la visione della scena.

Il modello calcola quattro mappe: salienza, similarità con il bersaglio, dimensione del saccade e memoria. Il modello proposto utilizza una rete neurale convoluzionale profonda per il riconoscimento degli oggetti e prevede una sequenza di fissazioni in base all'immagine di input.

Sono state studiate un totale di 44.328 fissazioni di ritorno in diversi compiti, fornendo una comprensione approfondita del comportamento del modello. Le fissazioni di ritorno del modello si avvicinano molto alle proprietà delle fissazioni di ritorno in diversi compiti e specie.

I movimenti oculari saccadici portano diverse parti di un'immagine in alta risoluzione e il modello non ripete fatti precedenti su questi movimenti oculari o sulle caratteristiche delle fissazioni di ritorno.

Questa ricerca rappresenta un importante passo avanti nella comprensione delle complessità del comportamento visivo umano e potrebbe aprire la strada a futuri progressi nell'intelligenza artificiale, nella visione artificiale e nella scienza cognitiva.

Leggi anche:

Più recente