TuxInfo 19 - Index of
TuxInfo 19 - Index of
TuxInfo 19 - Index of
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
Otros tipos que simbolizan secuencias de datos son str y unicode. Ellos representan<br />
cadenas de caracteres ASCII y UNICODE respectivamente. Ambos realizan conversiones<br />
entre distintas codificaciones con el método encode. Por ejemplo la instrucción u"Enquête<br />
ou sondage".encode('ascii', 'ignore') convierte la cadena UNICODE (prefijo u) en una<br />
cadena ASCII, y elimina (ignore) los caracteres del formato de partida sin equivalente en<br />
el de llegada. El resultado en este caso sería la cadena (de tipo str) 'Enqute ou sondage'.<br />
Existen otras formas de manejar los errores de codificación además de ignore. La<br />
estrategia predeterminada (aka. strict) consiste en lanzar un error (i.e. UnicodeError), pero<br />
también se puede remplazar por un carácter determinado (aka. replace), o el carácter de<br />
referencia XML correspondiente (aka. xmlcharrefreplace), o por las conocidas secuencias<br />
de escape (aka. backslashreplace). Por otra parte, existen 86 codificaciones diferentes en<br />
la librería estándar, repartidas entre las familias ascii, big5*, cp*, euc_*, gb*, hz, iso*,<br />
koi8_*, mac_*, shift_jis*, utf-*. Con esto se da soporte a los lenguajes más exóticos como<br />
el chino, japonés, coreano, árabe, farsi, ruso, búlgaro, y muchos más. A esto se suman<br />
los codecs más s<strong>of</strong>isticados presentados en la Tabla 1.<br />
70