28.12.2014 Views

TuxInfo 19 - Index of

TuxInfo 19 - Index of

TuxInfo 19 - Index of

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Otros tipos que simbolizan secuencias de datos son str y unicode. Ellos representan<br />

cadenas de caracteres ASCII y UNICODE respectivamente. Ambos realizan conversiones<br />

entre distintas codificaciones con el método encode. Por ejemplo la instrucción u"Enquête<br />

ou sondage".encode('ascii', 'ignore') convierte la cadena UNICODE (prefijo u) en una<br />

cadena ASCII, y elimina (ignore) los caracteres del formato de partida sin equivalente en<br />

el de llegada. El resultado en este caso sería la cadena (de tipo str) 'Enqute ou sondage'.<br />

Existen otras formas de manejar los errores de codificación además de ignore. La<br />

estrategia predeterminada (aka. strict) consiste en lanzar un error (i.e. UnicodeError), pero<br />

también se puede remplazar por un carácter determinado (aka. replace), o el carácter de<br />

referencia XML correspondiente (aka. xmlcharrefreplace), o por las conocidas secuencias<br />

de escape (aka. backslashreplace). Por otra parte, existen 86 codificaciones diferentes en<br />

la librería estándar, repartidas entre las familias ascii, big5*, cp*, euc_*, gb*, hz, iso*,<br />

koi8_*, mac_*, shift_jis*, utf-*. Con esto se da soporte a los lenguajes más exóticos como<br />

el chino, japonés, coreano, árabe, farsi, ruso, búlgaro, y muchos más. A esto se suman<br />

los codecs más s<strong>of</strong>isticados presentados en la Tabla 1.<br />

70

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!