Codificacion de Caracteres

download Codificacion de Caracteres

of 8

description

Codificacion de Caracteres

Transcript of Codificacion de Caracteres

CODIFICACION DE CARACTERES

ERNESTO CELIS [email protected]

Qu es la codificacin de caracteres?

Cuando hablamos de codificacin de caracteres en informtica nos referimos al mtodo que permite convertir un caracter de un lenguaje natural (alfabetoo silabario) en un smbolo de otro sistema de representacin, por ejemplo en un nmero, una secuencia de pulsoselctricosen un sistema electrnico, octetos aplicando normas o reglas de codificacin. Esto con la finalidad de facilitar el almacenamiento de texto en computadoras o para facilitar la transmisin de texto a travs de la redes de telecomunicaciones, un ejemplo muy simple puede ser el delcdigo morse.Convencionalmentejuego de caracteresycodificacin de caractereseran considerados sinnimos, por eso se puede defirnir a ambos cmo charset que es un completo sistema de codificacin de caracteres en una secuencia de octetos.

Tipos principales de codificacin

Tambin son llamadas normas de codificacin y definen la forma en la que se codifica un carcter dado en un smbolo en otro sistema de representacin, aqu slo voy a definir los ms utilizados:El primero y ms Antiguo:

CDIGO MORSE

Elcdigo morseo tambin conocido comoalfabeto morsees un sistema de representacin de letras y nmeros mediante sealesemitidas de forma intermitente.

Cdigo Morse, publicacin de 1922.Fue desarrollado porAlfred Vailmientras colaboraba en1830conSamuel Morseen la invencin deltelgrafo elctrico. Vail cre un mtodo segn el cual cada letra o nmero era transmitido de forma individual con un cdigo consistente enrayasy puntos, es decir, seales telegrficas que se diferencian en el tiempo de duracin de la seal activa. La duracin del punto es la mnima posible. Una raya tiene una duracin de aproximadamente tres veces la del punto. Entre cada par desmbolos de una misma letra existe una ausencia de seal con duracin aproximada a la de un punto. Entre las letras de una misma palabra, la ausencia es de aproximadamente tres puntos. Para la separacin depalabrastransmitidas el tiempo es de aproximadamente tres veces el de la raya. Morse reconoci la idoneidad de este sistema y lopatentjunto con eltelgrafo elctrico. Fue conocido como American Morse Code y fue utilizado en la primera transmisin por telgrafo.

ASCII

De sus siglas en inglsAmerican Standard Code for Information Interchange(Cdigo Estadounidense Estndar para el Intercambio de Informacin), pronunciado generalmente [ski], es un cdigo de caracteres basado en elalfabetolatino tal como se usa en ingls moderno y en otras lenguas occidentales. Fue creado en 1963 por el Comit Estadounidense de Estndares (ASA, conocido desde 1969 como el Instituto Estadounidense de EstndaresNacionales, o ANSI) como una refundicin o evolucin de los conjuntos de cdigos utilizados entonces en telegrafa. Ms tarde, en 1967, se incluyeron las minsculas, y se redefinieron algunos cdigos de control para formar el cdigo conocido como US-ASCII.

Por estar ntimamente ligado al octeto (y por consiguiente a los enteros que van del 0 al 127), el problema que presenta es que no puede codificar ms que 128 smbolos diferentes (128 es el nmero total de diferentes configuraciones que se pueden conseguir con 7 dgitos binarios o digitales (0000000, 0000001,..., 1111111), usando el octavo dgito de cada octeto (bit o dgito de paridad) para detectar algn error de transmisin). Un cupo de 128 es suficiente para incluir maysculas y minsculas del abecedario ingls, adems de cifras, puntuacin, y algunos "caracteres de control" (por ejemplo, uno que instruye a una impresora que pase a la hoja siguiente), pero el ASCII no incluye ni los caracteres acentuados ni el comienzo de interrogacin que se usa en castellano, ni tantos otros smbolos (matemticos, letras griegas,...) que son necesarios en muchos contextos.

ASCII Extendido

Se denomina ASCIIextendidoa cualquier juego de caracteres de 8 bits en el cual los cdigos 32 a 126 (0x20 a 0x7E) coinciden con los caracteres imprimibles de ASCII, as como los caracteres comnmente llamados de espacio, estos son los cdigos de control de 8 a 13 (0x08 a 0x0D), ambos inclusive.Las codificaciones de ASCIIextendidoutilizan adems parte o la totalidad de los cdigos superiores a 128 para codificar caracteres adicionales a los caracteres imprimibles ASCII.Codificaciones ASCIIextendido ms comunes: Pgina de cdigos 437 (usual en las versiones en ingls del IBM PC y MS-DOS) Pgina de cdigos 850 (usual en las versiones de Europa occidental del IBM PC y MS-DOS) Latin-1 (ISO-8859-1) (tpico de Unix y, con modificaciones, en Microsoft Windows y Macintosh)

Unicode

Unicodees unestndarde codificacin decaracteresdiseado para facilitar el tratamiento informtico, transmisin y visualizacin de textos de mltipleslenguajesy disciplinas tcnicas, adems de textos clsicos delenguas muertas. El trmino Unicode proviene de los tres objetivos perseguidos: universalidad, uniformidad y unicidad.1. Unicode especifica un nombre e identificador numrico nico para cada carcter o smbolo, elcode point(punto de cdigo), adems de otras informaciones necesarias para su uso correcto: direccionalidad, maysculas y otros atributos. Unicode trata los caracteres alfabticos, ideogrficos y smbolos de forma equivalente, lo que significa que se pueden mezclar en un mismo texto sin la introduccin de marcas o caracteres de control. 2. Este estndar es mantenido por elUnicode Technical Committee(UTC), integrado en elConsorcio Unicode, del que forman parte con distinto grado de implicacin empresas como:Microsoft,Apple,Adobe,IBM,Oracle,SAP,GoogleoYahoo, instituciones como la Universidad de Berkeley, y profesionales y acadmicos a ttulo individual.3. El Unicode Consortium mantiene estrecha relacin con ISO/IEC, con la que mantiene desde 1991 el acuerdo de sincronizar sus estndares que contienen los mismos caracteres y puntos de cdigo.4. El establecimiento de Unicode ha sido un ambicioso proyecto para reemplazar los esquemas decodificacin de caracteresexistentes, muchos de los cuales estn muy limitados en tamao y son incompatibles con entornos plurilinges. Unicode se ha vuelto el ms extenso y completo esquema de codificacin de caracteres, siendo el dominante en lainternacionalizaciny adaptacin local del software informtico. El estndar ha sido implementado en un nmero considerable de tecnologas recientes, que incluyenXML,Java ysistemas operativosmodernos.La descripcin completa del estndar y las tablas de caracteres estn disponibles en la pgina web oficial de Unicode[1]. La referencia completa se publica, adems, en forma de libro impreso cada vez que se libera una nueva versin principal. La versin digital de este libro est disponible de forma gratuita. Las revisiones y adiciones se publican de forma independiente.

Otras codificaciones de caracteres populares

ISO 646 ASCII EBCDIC ISO 8859: ISO 8859-1, ISO 8859-2, ISO 8859-3, ISO 8859-4, ISO 8859-5, ISO 8859-6, ISO 8859-7, ISO 8859-8, ISO 8859-9, ISO 8859-10, ISO 8859-11, ISO 8859-13, ISO 8859-14, ISO 8859-15, ISO 8859-16 CP437, CP737, CP850, CP852, CP855, CP857, CP858, CP860, CP861, CP863, CP865, CP866, CP869 Juegos de caracteres de MS-Windows: Windows-1250 para idiomas de europa central que utilizan el alfabeto latino, (polaco, checo, eslovaco, hngaro, eslovenio, croata, rumano y albans) Windows-1251 para alfabetos cirlicos Windows-1252 para idiomas occidentales Windows-1253 para griego Windows-1254 para turco Windows-1255 para hebreo Windows-1256 para rabe Windows-1257 para idomas blticos Windows-1258 para vietnamita Mac OS Romano KOI8-R, KOI8-U, KOI7 MIK Cork o T1 ISCII VISCII Big5 (variante de Microsoft Code pgina 950) HKSCS Guobiao GB2312 GBK (Microsoft Code pgina 936) GB18030 Shift JIS para japons (Microsoft Code pgina 932) EUC-KR para coreano (Microsoft Code pgina 949) ISO-2022 y EUC para juegos de caracteres CJK Unicode (incluyendo los subjuegos 16-bit) ANSEL o ISO/IEC 6937

WEBGRAFIA

http://techtastico.com/post/tipos-de-codificacion-de-caracteres/ http://es.wikipedia.org/wiki/C%C3%B3digo_morse http://es.wikipedia.org/wiki/Codificaci%C3%B3n_de_caracteres http://es.wikipedia.org/wiki/Unicode http://es.wikipedia.org/wiki/UTF-8