31.10.2023 Views

Cognitive Assemblages

Thesis project by Alessandro Mintrone - advisor: Alessio Erioli - Thesis project done @ Università di Bologna - 2020

Thesis project by Alessandro Mintrone - advisor: Alessio Erioli - Thesis project done @ Università di Bologna - 2020

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

2. Imparare dall’esperienza. Il sistema è costituito da un

agente che legge una certa rappresentazione dell’ambiente,

il suo stato attuale, ed è chiamato a compiere un’azione.

Quest’azione può essere parte di un set discreto di possibili

azioni o può essere espressa da un insieme di valori scalari

continui. L’azione porta ad una modifica dell’ambiente,

che muta il proprio stato, portando nuove informazioni

all’agente.

A destra.

Diagramma dell’anello di feedback

che l’agente instaura con

l’ambiante

Reinforcement Learning

Durante il processo di training, l’ambiente fornisce anche un

ulteriore segnale, il segnale di reward. Tale segnale è determinato

da una funzione dell’ambiente e fornisce ricompense

positive o negative. Il sistema cerca di determinare la

correlazione non-lineare fra gli input sullo stato dell’ambiente,

le azioni compiute e le reward cercando di ottenere il

maggior valore possiblie.

Il nodo cruciale di questo processo è la determinazione della

funzione di reward, è necessario tradurre gli esiti desiderati

a seguito delle azioni del sistema, in funzione dell’ambiente.

Se per problemi moderatamente complessi, definire una tale

funzione risulta immediato, al crescere della complessità o

in assenza di un risultato desiderato chiaramente connotabile,

aumenta la difficoltà nel determinare detta funzione. In

particolare è cruciale il modo in cui essa e scalata e l’eventuale

presenza di funzioni non-linari.

68

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!