Memoria semantica | Below Zero

L’essenza della memoria semantica è che il suo contenuto non è legato a nessuna particolare istanza di esperienza, come nella memoria episodica. Invece, ciò che è memorizzato nella memoria semantica è il “succo” dell’esperienza, una struttura astratta che si applica a un’ampia varietà di oggetti esperienziali e delinea relazioni categoriali e funzionali tra tali oggetti. Quindi, una teoria completa della memoria semantica deve tenere conto non solo della struttura rappresentativa di tali “gist”, ma anche di come possono essere estratti dall’esperienza., Numerosi modelli di memoria semantica sono stati proposti; sono riassunti di seguito.

Modelli di retemodifica

Reti di vario tipo svolgono una parte integrante in molte teorie della memoria semantica. In generale, una rete è composta da un insieme di nodi collegati da collegamenti. I nodi possono rappresentare concetti, parole, caratteristiche percettive o nulla. I collegamenti possono essere ponderati in modo tale che alcuni siano più forti di altri o, equivalentemente, abbiano una lunghezza tale che alcuni collegamenti impieghino più tempo per attraversare rispetto ad altri., Tutte queste caratteristiche delle reti sono state impiegate in modelli di memoria semantica, esempi dei quali si trovano di seguito.

Teachable Language Comprehender (TLC)Edit

Uno dei primi esempi di un modello di rete di memoria semantica è il Teachable Language Comprehender (TLC). In questo modello, ogni nodo è una parola, che rappresenta un concetto (come “Uccello”). Con ogni nodo viene memorizzato un insieme di proprietà (come “can fly” o “has wings”) e puntatori (cioè collegamenti) ad altri nodi (come “Chicken”). Un nodo è direttamente collegato a quei nodi di cui è una sottoclasse o superclasse (cioè,, “Uccello” sarebbe collegato sia a ” Pollo “che a “Animale”). Pertanto, TLC è una rappresentazione della conoscenza gerarchica in quanto i nodi di alto livello che rappresentano grandi categorie sono collegati (direttamente o indirettamente, tramite i nodi delle sottoclassi) a molte istanze di tali categorie, mentre i nodi che rappresentano istanze specifiche sono a un livello inferiore, collegati solo alle loro superclassi. Inoltre, le proprietà sono memorizzate al più alto livello di categoria a cui si applicano., Ad esempio, “is yellow” verrebbe memorizzato con “Canary”, “has wings” verrebbe memorizzato con “Bird” (un livello in più) e “can move” verrebbe memorizzato con “Animal” (un altro livello in più). I nodi possono anche memorizzare negazioni delle proprietà dei loro nodi superordinati (cioè, “NOT-can fly” verrebbe memorizzato con “penguin”). Ciò fornisce un’economia di rappresentazione in quanto le proprietà sono memorizzate solo a livello di categoria in cui diventano essenziali, cioè a quel punto diventano caratteristiche critiche (vedi sotto).

L’elaborazione in TLC è una forma di attivazione di diffusione., Cioè, quando un nodo diventa attivo, tale attivazione si diffonde ad altri nodi tramite i collegamenti tra di loro. In tal caso, il tempo di rispondere alla domanda ” È un pollo un uccello?”è una funzione di quanto l’attivazione tra i nodi per “Pollo” e “Uccello” deve diffondersi, cioè il numero di collegamenti tra i nodi “Pollo” e “Uccello”.

La versione originale di TLC non ha messo pesi sui collegamenti tra i nodi., Questa versione eseguita in modo comparabile agli esseri umani in molte attività, ma non è riuscito a prevedere che le persone avrebbero risposto più velocemente alle domande riguardanti istanze di categoria più tipiche rispetto a quelle che coinvolgono istanze meno tipiche. Collins e Quillian successivamente aggiornato TLC per includere connessioni ponderate per tenere conto di questo effetto. Questo TLC aggiornato è in grado di spiegare sia l’effetto familiarità che l’effetto tipicità., Il suo più grande vantaggio è che spiega chiaramente l’adescamento: è più probabile che tu recuperi informazioni dalla memoria se le informazioni correlate (il “primo”) sono state presentate poco tempo prima. Ci sono ancora una serie di fenomeni di memoria per i quali TLC non ha alcun conto, incluso il motivo per cui le persone sono in grado di rispondere rapidamente a domande ovviamente false (come “un pollo è una meteora?”), quando i nodi rilevanti sono molto distanti nella rete.

Reti semantichemodifica

TLC è un’istanza di una classe più generale di modelli noti come reti semantiche., In una rete semantica, ogni nodo deve essere interpretato come rappresentante di un concetto, una parola o una caratteristica specifici. Cioè, ogni nodo è un simbolo. Le reti semantiche generalmente non impiegano rappresentazioni distribuite per concetti, come si può trovare in una rete neurale. La caratteristica distintiva di una rete semantica è che i suoi collegamenti sono quasi sempre diretti (cioè puntano solo in una direzione, da una base a un obiettivo) e i collegamenti sono di molti tipi diversi, ognuno per una particolare relazione che può contenere tra due nodi qualsiasi., L’elaborazione in una rete semantica spesso assume la forma di attivazione di diffusione (vedi sopra).

Le reti semantiche vedono il maggior uso nei modelli di discorso e comprensione logica, così come nell’Intelligenza Artificiale. In questi modelli, i nodi corrispondono a parole o steli di parole e i collegamenti rappresentano relazioni sintattiche tra di loro. Per un esempio di implementazione computazionale di reti semantiche nella rappresentazione della conoscenza, vedi Cravo e Martins (1993).,

Feature modelsEdit

Feature models visualizza le categorie semantiche come composte da insiemi di feature relativamente non strutturati. Il modello semantico di confronto delle caratteristiche, proposto da Smith, Shoben e Rips (1974), descrive la memoria come composta da elenchi di caratteristiche per concetti diversi. Secondo questa visione, le relazioni tra le categorie non sarebbero state recuperate direttamente, sarebbero state calcolate indirettamente. Ad esempio, i soggetti possono verificare una frase confrontando i set di funzionalità che rappresentano i concetti soggetto e predicato., Tali modelli computazionali di confronto delle caratteristiche includono quelli proposti da Meyer (1970), Rips (1975), Smith, et al. (1974).

I primi lavori nella categorizzazione percettiva e concettuale presupponevano che le categorie avessero caratteristiche critiche e che l’appartenenza alla categoria potesse essere determinata da regole logiche per la combinazione di caratteristiche. Teorie più recenti hanno accettato che le categorie possano avere una struttura mal definita o “fuzzy” e hanno proposto modelli di somiglianza probabilistica o globale per la verifica dell’appartenenza alla categoria.,

Modelli associativimodifica

L ‘ “associazione”—una relazione tra due informazioni—è un concetto fondamentale in psicologia, e le associazioni a vari livelli di rappresentazione mentale sono essenziali per i modelli di memoria e cognizione in generale. L’insieme di associazioni tra una raccolta di elementi in memoria è equivalente ai collegamenti tra nodi in una rete, in cui ogni nodo corrisponde a un elemento univoco in memoria. Infatti, le reti neurali e le reti semantiche possono essere caratterizzate come modelli associativi di cognizione., Tuttavia, le associazioni sono spesso più chiaramente rappresentate come una matrice N×N, dove N è il numero di elementi in memoria. Pertanto, ogni cella della matrice corrisponde alla forza dell’associazione tra l’elemento riga e l’elemento colonna.

Si ritiene generalmente che l’apprendimento delle associazioni sia un processo hebbiano; cioè, ogni volta che due elementi in memoria sono contemporaneamente attivi, l’associazione tra loro diventa più forte e più è probabile che uno degli elementi attivi sia l’altro. Vedi sotto per specifiche operazionalizzazioni di modelli associativi.,

Ricerca della memoria associativa (SAM)Modifica

Un modello standard di memoria che impiega l’associazione in questo modo è il modello di ricerca della memoria associativa (SAM). Sebbene SAM sia stato originariamente progettato per modellare la memoria episodica, i suoi meccanismi sono sufficienti a supportare anche alcune rappresentazioni di memoria semantica. Il modello SAM contiene un archivio a breve termine (STS) e un archivio a lungo termine (LTS), dove STS è un sottoinsieme brevemente attivato delle informazioni nel LTS., STS ha una capacità limitata e influisce sul processo di recupero limitando la quantità di informazioni che possono essere campionate e limitando il tempo in cui il sottoinsieme campionato è in modalità attiva. Il processo di recupero in LTS è dipendente da cue e probabilistico, il che significa che un cue avvia il processo di recupero e le informazioni selezionate dalla memoria sono casuali. La probabilità di essere campionati dipende dalla forza di associazione tra la stecca e l’elemento recuperato, con associazioni più forti di essere campionati e, infine, uno è scelto., La dimensione del buffer è definita come r, e non un numero fisso, e quando gli elementi vengono provati nel buffer, i punti di forza associativi crescono linearmente in funzione del tempo totale all’interno del buffer. In SAM, quando due elementi occupano contemporaneamente un buffer di memoria funzionante, la forza della loro associazione viene incrementata. Pertanto, gli elementi che si verificano più spesso sono più fortemente associati. Gli elementi in SAM sono anche associati a un contesto specifico, in cui la forza di tale associazione determinata da quanto tempo ogni elemento è presente in un dato contesto., In SAM, quindi, i ricordi consistono in un insieme di associazioni tra elementi in memoria e tra elementi e contesti. La presenza di un insieme di elementi e/o di un contesto è più probabile che evochi, quindi, alcuni sottoinsiemi degli elementi in memoria. Il grado in cui gli elementi si evocano l’un l’altro—in virtù del loro contesto condiviso o della loro co-occorrenza—è un’indicazione della relazione semantica degli elementi.

In una versione aggiornata di SAM, le associazioni semantiche preesistenti vengono contabilizzate utilizzando una matrice semantica., Durante l’esperimento, le associazioni semantiche rimangono fisse mostrando l’ipotesi che le associazioni semantiche non siano influenzate in modo significativo dall’esperienza episodica di un esperimento. Le due misure utilizzate per misurare la relazione semantica in questo modello sono l’analisi semantica latente (LSA) e gli spazi di associazione delle parole (WAS). Il metodo LSA afferma che la somiglianza tra le parole si riflette attraverso la loro co-occorrenza in un contesto locale. È stato sviluppato analizzando un database di norme di libera associazione., In ERA, ” le parole che hanno strutture associative simili sono collocate in regioni dello spazio simili.”

ACT-R: un sistema di produzione modelEdit

La LEGGE (Controllo Adattivo del Pensiero) (e successive ACT-R (Controllo Adattivo del Pensiero Razionale)) teoria della cognizione rappresenta la memoria dichiarativa (di cui la memoria semantica è una parte) con “pezzi”, che consistono in una etichetta, un insieme di relazioni definite per altri pezzi (cioè, “questo è un _”, o “questo è un _”), e qualsiasi numero di pezzi di proprietà specifiche., I blocchi, quindi, possono essere mappati come una rete semantica, dato che ogni nodo è un blocco con le sue proprietà uniche e ogni collegamento è la relazione del blocco con un altro blocco. In ACT, l’attivazione di un blocco diminuisce in funzione del tempo trascorso dalla creazione del blocco e aumenta con il numero di volte in cui il blocco è stato recuperato dalla memoria. I blocchi possono anche ricevere l’attivazione dal rumore gaussiano e dalla loro somiglianza con altri blocchi. Ad esempio, se “pollo” viene utilizzato come spunto di recupero, “canary” riceverà l’attivazione in virtù della sua somiglianza con la stecca (cioè, entrambi sono uccelli, ecc.)., Quando si recuperano elementi dalla memoria, ACT guarda il blocco più attivo in memoria; se è sopra la soglia, viene recuperato, altrimenti si è verificato un “errore di omissione”, cioè l’elemento è stato dimenticato. C’è, inoltre, una latenza di recupero, che varia inversamente con la quantità con cui l’attivazione del blocco recuperato supera la soglia di recupero. Questa latenza viene utilizzata per misurare il tempo di risposta del modello ACT, per confrontarlo con le prestazioni umane.,

Mentre ACT è un modello di cognizione in generale, e non la memoria in particolare, tuttavia pone alcune caratteristiche della struttura della memoria, come descritto sopra. In particolare, ACT modella la memoria come un insieme di blocchi simbolici correlati a cui è possibile accedere tramite segnali di recupero. Mentre il modello di memoria impiegato in ACT è simile in qualche modo a una rete semantica, l’elaborazione coinvolta è più simile a un modello associativo.,

Modelli statisticimodifica

Alcuni modelli caratterizzano l’acquisizione di informazioni semantiche come una forma di inferenza statistica da un insieme di esperienze discrete, distribuite in un certo numero di “contesti”. Sebbene questi modelli differiscano nelle specifiche, generalmente impiegano una matrice (Elemento × Contesto) in cui ogni cella rappresenta il numero di volte in cui un elemento in memoria si è verificato in un dato contesto. Le informazioni semantiche vengono raccolte eseguendo un’analisi statistica di questa matrice.,

Molti di questi modelli presentano somiglianze con gli algoritmi utilizzati nei motori di ricerca (ad esempio, vedi Griffiths, et al., 2007 e Anderson, 1990), anche se non è ancora chiaro se usano davvero gli stessi meccanismi computazionali.

Latent Semantic Analysis (LSA)Modifica

Forse il più popolare di questi modelli è Latent Semantic Analysis (LSA)., In LSA, una matrice T × D è costruita da un corpus di testo dove T è il numero di termini nel corpus e D è il numero di documenti (qui “contesto” è interpretato come “documento” e solo le parole—o frasi di parole—sono considerate come elementi in memoria)., quindi trasformato secondo la seguente equazione:

M t , d ‘ = ln ⁡ ( 1 + M t , d ) − ∑ i = 0 e P ( i | t ) ln ⁡ P ( i | t ) {\displaystyle \mathbf {M} _{t,d}’={\frac {\ln {(1+\mathbf {M} _{t,d})}}{-\sum _{i=0}^{D}P(i|t)\ln {P(i|t)}}}}

dove P ( i | t ) {\displaystyle P(i|t)} è la probabilità che contesto io {\displaystyle i} è attivo, dato che la voce di t {\displaystyle t} si è verificato (questo si ottiene semplicemente dividendo il raw frequenza, M t , d {\displaystyle \mathbf {M} _{t,d}} per il totale dell’elemento vettoriale, ∑ i = 0 D M t , i {\displaystyle \sum _{i=0}^{D}\mathbf {M} _{t,i}} )., Questa trasformazione—applicando il logaritmo, quindi dividendo per le informazioni entropia dell’elemento in tutti i contesti—prevede una maggiore differenziazione tra gli elementi ed efficace pesi elementi per la loro capacità di predire il contesto, e viceversa (che è, elementi che appaiono in molti contesti, come “la” o “e”, sarà ponderato meno, che riflette la loro mancanza di informazioni semantiche)., Una decomposizione del valore singolare (SVD) viene quindi eseguita sulla matrice M ‘ {\displaystyle \mathbf {M} ‘} , che consente di ridurre il numero di dimensioni nella matrice, raggruppando così le rappresentazioni semantiche di LSA e fornendo un’associazione indiretta tra gli elementi. Ad esempio,” cat “e” dog ” potrebbero non apparire mai insieme nello stesso contesto, quindi la loro stretta relazione semantica potrebbe non essere ben catturata dalla matrice originale di LSA M {\displaystyle \mathbf {M} } ., Tuttavia, eseguendo l’SVD e riducendo il numero di dimensioni nella matrice, i vettori di contesto di “cat” e “dog”—che sarebbero molto simili—migrerebbero l’uno verso l’altro e forse si unirebbero, consentendo così a “cat” e “dog” di agire come segnali di recupero l’uno per l’altro, anche se potrebbero non essersi mai co-verificati. Il grado di relazione semantica degli elementi in memoria è dato dal coseno dell’angolo tra i vettori di contesto degli elementi (che vanno da 1 per sinonimi perfetti a 0 per nessuna relazione)., Essenzialmente, quindi, due parole sono strettamente semanticamente correlate se appaiono in tipi simili di documenti.

Hyperspace Analogue to Language (HAL)Modifica

Il modello Hyperspace Analogue to Language (HAL) considera il contesto solo come le parole che circondano immediatamente una determinata parola. HAL calcola una matrice NxN, dove N è il numero di parole nel suo lessico, utilizzando un frame di lettura di 10 parole che si muove in modo incrementale attraverso un corpus di testo., Come in SAM (vedi sopra), ogni volta che due parole sono simultaneamente nel frame, l’associazione tra loro viene aumentata, cioè la cella corrispondente nella matrice NxN viene incrementata. Maggiore è la distanza tra le due parole, minore è la quantità di cui l’associazione viene incrementata (in particolare, Δ = 11 − d {\displaystyle \Delta =11-d} , dove d {\displaystyle d} è la distanza tra le due parole nel frame)., Come in LSA (vedi sopra), la somiglianza semantica tra due parole è data dal coseno dell’angolo tra i loro vettori (la riduzione delle dimensioni può essere eseguita anche su questa matrice). In HAL, quindi, due parole sono semanticamente correlate se tendono ad apparire con le stesse parole. Si noti che questo può valere anche quando le parole confrontate non si verificano mai (cioè “pollo” e “canarino”).

Altri modelli statistici di memoria semanticamodifica

Il successo di LSA e HAL ha dato vita a un intero campo di modelli statistici del linguaggio., Un elenco più aggiornato di tali modelli può essere trovato sotto l’argomento Measures of semantic relatedness.

Memoria semantica (Italiano)