Cognitive Assemblages
Thesis project by Alessandro Mintrone - advisor: Alessio Erioli - Thesis project done @ Università di Bologna - 2020
Thesis project by Alessandro Mintrone - advisor: Alessio Erioli - Thesis project done @ Università di Bologna - 2020
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
2. Imparare dall’esperienza. Il sistema è costituito da un
agente che legge una certa rappresentazione dell’ambiente,
il suo stato attuale, ed è chiamato a compiere un’azione.
Quest’azione può essere parte di un set discreto di possibili
azioni o può essere espressa da un insieme di valori scalari
continui. L’azione porta ad una modifica dell’ambiente,
che muta il proprio stato, portando nuove informazioni
all’agente.
A destra.
Diagramma dell’anello di feedback
che l’agente instaura con
l’ambiante
Reinforcement Learning
Durante il processo di training, l’ambiente fornisce anche un
ulteriore segnale, il segnale di reward. Tale segnale è determinato
da una funzione dell’ambiente e fornisce ricompense
positive o negative. Il sistema cerca di determinare la
correlazione non-lineare fra gli input sullo stato dell’ambiente,
le azioni compiute e le reward cercando di ottenere il
maggior valore possiblie.
Il nodo cruciale di questo processo è la determinazione della
funzione di reward, è necessario tradurre gli esiti desiderati
a seguito delle azioni del sistema, in funzione dell’ambiente.
Se per problemi moderatamente complessi, definire una tale
funzione risulta immediato, al crescere della complessità o
in assenza di un risultato desiderato chiaramente connotabile,
aumenta la difficoltà nel determinare detta funzione. In
particolare è cruciale il modo in cui essa e scalata e l’eventuale
presenza di funzioni non-linari.
68