4 Creare contenuti per il web - Andrea Giachetti
4 Creare contenuti per il web - Andrea Giachetti
4 Creare contenuti per il web - Andrea Giachetti
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
Appendice 2: la codifica del testo e <strong>il</strong> <strong>web</strong> 133<br />
Appendice 2: la codifica del testo e <strong>il</strong> <strong>web</strong><br />
Nei capitoli precedenti abbiamo analizzato in dettaglio la codifica digitale di molti tipi di dato,<br />
ma abbiamo trascurato di parlare della codifica del testo. I dati nel computer sono, come è noto,<br />
codificati con sequenze di bit (cifre binarie con valore 0 o 1), in genere multipli di 8 bit (1<br />
byte). Tutti i tipi di dato sono, quindi, codificati in tal modo, cioè tutti i possib<strong>il</strong>i valori che può<br />
assumere <strong>il</strong> dato stesso (l'alfabeto che caratterizza <strong>il</strong> tipo di dato) devono essere fatti<br />
corrispondere a sequenze di un certo numero di bit. Per rappresentare <strong>il</strong> testo, <strong>il</strong> primo modo<br />
standard di codifica è stato <strong>il</strong> cosiddetto codice ASCII, da American Standard Code for<br />
Information Interchange (ovvero Codice Standard Americano <strong>per</strong> lo Scambio di Informazioni).<br />
Esso usa 7 bit e fa corrispondere i numeri binari di 7 cifre, che sono 2 7 =128 ai differenti<br />
caratteri alfabetici. Quindi, quando parliamo di f<strong>il</strong>e di testo in codifica ASCII, intendiamo una<br />
sequenza di bit che, nota la corrispondenza, viene poi tradotta in una sequenza di caratteri.<br />
Dato che 128 caratteri non erano sufficienti <strong>per</strong> rappresentare i vari alfabeti particolari, i<br />
caratteri speciali, eccetera, si sono poi sv<strong>il</strong>uppati vari metodi di codifica più avanzati, o adattati<br />
alle varie regioni, che mantengono, in genere, la compatib<strong>il</strong>ità con ASCII (in pratica usano più<br />
bit e mantengono i caratteri codificati da ASCII nei primi 7).<br />
I più recenti protocolli del <strong>web</strong> ut<strong>il</strong>izzano la codifica dei caratteri del testo detta Unicode,<br />
sistema che assegna un numero univoco ad ogni carattere ed è usato <strong>per</strong> la scrittura di testi in<br />
maniera indipendente da lingue, programmi e piattaforme ut<strong>il</strong>izzate. Unicode ut<strong>il</strong>izza fino a 21<br />
bit <strong>per</strong> la codifica. I codici Unicode possono essere, <strong>per</strong>ò, trasmessi in formati differenti. Per<br />
l'HTML la codifica ut<strong>il</strong>izzata è detta UTF-8. Essa supporta dimensioni variab<strong>il</strong>i del codice di un<br />
carattere multiple di 8 bit e la limita, <strong>per</strong> i caratteri più usati, ad un solo byte.<br />
La codifica del testo di una pagina HTML può essere segnalata nella pagina stessa inserendo,<br />
nella sezione head del documento, <strong>il</strong> tag<br />
.<br />
Attenzione, <strong>per</strong>ò, che la codifica deve corrispondere esattamente con quella con cui è stato<br />
salvato <strong>il</strong> f<strong>il</strong>e (gli editor di testo <strong>per</strong>mettono di selezionare la codifica).<br />
L'uso di differenti formati di testo <strong>per</strong> <strong>il</strong> salvataggio e la decodifica dei caratteri può far sorgere<br />
a volte problemi di visualizzazione dei caratteri speciali (es. lettere accentate, simboli), specie<br />
se non si usano sistemi o<strong>per</strong>ativi o browser che non li supportano pienamente. Un modo <strong>per</strong><br />
evitare questi problemi è di scrivere invece nelle pagine <strong>web</strong> tali caratteri attraverso le<br />
cosiddette sequenze di escape, sequenze di caratteri ASCII che <strong>il</strong> browser interpreta come<br />
singolo carattere speciale, non incluso nella codifica. Per fare qualche esempio, “è”<br />
creerà la lettera è, “&At<strong>il</strong>de;” creerà Ã, eccetera (rimandiamo ovviamente ai manuali <strong>per</strong><br />
l'elenco completo dei caratteri).