Representacion de Textos

REPRESENTACIN DE TEXTOS

La informacin se suele introducir en el computador utilizando el lenguaje escrito:

Caracteres alfabticos: son las letras maysculas y minsculas del abecedario ingls:{A, B, C, D, E,..., X ,Y, Z, a, b, c, d,..., x, y, z}

Caracteres numricos: estn constituidos por las diez cifras decimales:{0, 1, 2, 3, 4, 5, 6, 7, 8, 9}

Caracteres especiales: son los smbolos no incluidos en los grupos anteriores, entre otros los siguientes:{ ) ( , * / ; : + = ! ? ." & > # < ] [ SP }Con SP se representa el carcter o espacio en blanco, tal como el que separa dos palabras.

Caracteres geomtricos y grficos: Son smbolos con los que se pueden representar figuras (o iconos). Ejemplos:

Caracteres de control: representan rdenes de control, como el carcter indicador de fin de lnea o el carcter indicador de sincronizacin de una transmisin o de que se emita un pitido en un terminal, etc. Muchos de los caracteres de control son generados e insertados por la propia computadora.

Al tener que "traducir" toda la informacin suministrada a la computadora a ceros y unos es necesario establecer una correspondencia (codificacin) entre 2 conjuntos:

de forma tal que a cada elemento de le corresponda un elemento distinto de (n bits).Estos cdigos se denominan cdigos de E/S o cdigos externos o cdigos-texto, y pueden definirse de forma arbitraria. No obstante existen cdigos de E/S normalizados que son utilizados por diferentes constructores de computadores: BCD de intercambio normalizado, Fieldata, EBCDIC, ASCII, Unicode, etc.

Cdigo ASCII (American Standard Code for Information Interchange ) .

Inicialmente utilizaba 7 bits y actualmente, 8 bits. Hasta hace unos aos, la mayor parte de las transmisiones de datos entre dispositivos se han realizado en esta codificacin.

ASCII (ANSI-X3.4, 1968, 7 bits)

ASCII (Ampliaciones)

ASCII (ISO 8859-1, Latn 1)

UNICODE

Inconvenientes de los cdigos anteriores (sobre todo con Internet): Los smbolos codificados son insuficientes para representar los caracteres especiales

que requieren numerosas aplicaciones. Los smbolos y cdigos aadidos en las versiones ampliadas a 8 bits no estn

normalizados. Estn basados en los caracteres latinos, existiendo otras culturas que utilizan otros

smbolos muy distintos. Los lenguajes escritos de diversas culturas orientales, como la china, japonesa y coreana

se basan en la utilizacin de ideogramas o smbolos que representan palabras, frases o ideas completas, siendo, por tanto, inoperantes los cdigos que slo codifican letras individuales.

Unicode (ISO/IEC 10646) es propuesto por un consorcio de empresas y entidades que trata de hacer posible escribir aplicaciones que sean capaces de procesar texto de muy diversas culturas. Propiedades buscadas:

Universalidad, trata de cubrir la mayora de lenguajes escritos existentes en la

actualidad: 16 bits 65.356 smbolos Unicidad, a cada carcter se le asigna exactamente un nico cdigo (ideogramas con

imagen distinta, tienen igual cdigo), y Uniformidad, ya que todos los smbolos se representan con un nmero fijo de bits (16).

UTF-8 (8-bit Unicode Transformation Format) es un formato de codificacin de caracteres Unicode e ISO 10646 utilizando smbolos de longitud variable.Actualmente es una de las tres posibilidades de codificacin reconocidas por Unicode.

Sus caractersticas principales son:

Es capaz de representar cualquier carcter Unicode. Usa smbolos de longitud variable (de 1 a 4 bytes por carcter Unicode). Incluye la especificacin US-ASCII de 7 bits, por lo que cualquier mensaje ASCII se

representa sin cambios. Incluye sincrona. Es posible determinar el inicio de cada smbolo sin reiniciar la lectura desde el

principio de la comunicacin. No superposicin. Los conjuntos de valores que puede tomar cada byte de un carcter multibyte,

son disjuntos, por lo que no es posible confundirlos entre s.

Representacion de Textos

Documents

Transcript of Representacion de Textos