Representacion de Textos

3
REPRESENTACIÓN DE TEXTOS La información se suele introducir en el computador utilizando el lenguaje escrito: Caracteres alfabéticos: son las letras mayúsculas y minúsculas del abecedario inglés: {A, B, C, D, E,..., X ,Y, Z, a, b, c, d,..., x, y, z} Caracteres numéricos: están constituidos por las diez cifras decimales: {0, 1, 2, 3, 4, 5, 6, 7, 8, 9} Caracteres especiales: son los símbolos no incluidos en los grupos anteriores, entre otros los siguientes: { ) ( , * / ; : + Ñ ñ = ! ? ." & > # < ] Ç [ SP } Con SP se representa el carácter o espacio en blanco, tal como el que separa dos palabras. Caracteres geométricos y gráficos: Son símbolos con los que se pueden representar figuras (o iconos). Ejemplos: Caracteres de control: representan órdenes de control, como el carácter indicador de fin de línea o el carácter indicador de sincronización de una transmisión o de que se emita un pitido en un terminal, etc. Muchos de los caracteres de control son generados e insertados por la propia computadora. Al tener que "traducir" toda la información suministrada a la computadora a ceros y unos es necesario establecer una correspondencia (codificación) entre 2 conjuntos: de forma tal que a cada elemento de α le corresponda un elemento distinto de ß (n bits). Estos códigos se denominan códigos de E/S o códigos externos o códigos-texto, y pueden definirse de forma arbitraria. No obstante existen códigos de E/S normalizados que son utilizados por diferentes constructores de computadores: BCD de intercambio normalizado, Fieldata, EBCDIC, ASCII, Unicode, etc. Código ASCII (American Standard Code for Information Interchange ) . Inicialmente utilizaba 7 bits y actualmente, 8 bits. Hasta hace unos años, la mayor parte de las transmisiones de datos entre dispositivos se han realizado en esta codificación. ASCII (ANSI-X3.4, 1968, 7 bits)

description

Representavion de textos

Transcript of Representacion de Textos

  • REPRESENTACIN DE TEXTOS

    La informacin se suele introducir en el computador utilizando el lenguaje escrito:

    Caracteres alfabticos: son las letras maysculas y minsculas del abecedario ingls:{A, B, C, D, E,..., X ,Y, Z, a, b, c, d,..., x, y, z}

    Caracteres numricos: estn constituidos por las diez cifras decimales:{0, 1, 2, 3, 4, 5, 6, 7, 8, 9}

    Caracteres especiales: son los smbolos no incluidos en los grupos anteriores, entre otros los siguientes:{ ) ( , * / ; : + = ! ? ." & > # < ] [ SP }Con SP se representa el carcter o espacio en blanco, tal como el que separa dos palabras.

    Caracteres geomtricos y grficos: Son smbolos con los que se pueden representar figuras (o iconos). Ejemplos:

    Caracteres de control: representan rdenes de control, como el carcter indicador de fin de lnea o el carcter indicador de sincronizacin de una transmisin o de que se emita un pitido en un terminal, etc. Muchos de los caracteres de control son generados e insertados por la propia computadora.

    Al tener que "traducir" toda la informacin suministrada a la computadora a ceros y unos es necesario establecer una correspondencia (codificacin) entre 2 conjuntos:

    de forma tal que a cada elemento de le corresponda un elemento distinto de (n bits).Estos cdigos se denominan cdigos de E/S o cdigos externos o cdigos-texto, y pueden definirse de forma arbitraria. No obstante existen cdigos de E/S normalizados que son utilizados por diferentes constructores de computadores: BCD de intercambio normalizado, Fieldata, EBCDIC, ASCII, Unicode, etc.

    Cdigo ASCII (American Standard Code for Information Interchange ) .

    Inicialmente utilizaba 7 bits y actualmente, 8 bits. Hasta hace unos aos, la mayor parte de las transmisiones de datos entre dispositivos se han realizado en esta codificacin.

    ASCII (ANSI-X3.4, 1968, 7 bits)

  • ASCII (Ampliaciones)

    ASCII (ISO 8859-1, Latn 1)

    UNICODE

    Inconvenientes de los cdigos anteriores (sobre todo con Internet): Los smbolos codificados son insuficientes para representar los caracteres especiales

    que requieren numerosas aplicaciones. Los smbolos y cdigos aadidos en las versiones ampliadas a 8 bits no estn

    normalizados. Estn basados en los caracteres latinos, existiendo otras culturas que utilizan otros

    smbolos muy distintos. Los lenguajes escritos de diversas culturas orientales, como la china, japonesa y coreana

    se basan en la utilizacin de ideogramas o smbolos que representan palabras, frases o ideas completas, siendo, por tanto, inoperantes los cdigos que slo codifican letras individuales.

  • Unicode (ISO/IEC 10646) es propuesto por un consorcio de empresas y entidades que trata de hacer posible escribir aplicaciones que sean capaces de procesar texto de muy diversas culturas. Propiedades buscadas:

    Universalidad, trata de cubrir la mayora de lenguajes escritos existentes en la

    actualidad: 16 bits 65.356 smbolos Unicidad, a cada carcter se le asigna exactamente un nico cdigo (ideogramas con

    imagen distinta, tienen igual cdigo), y Uniformidad, ya que todos los smbolos se representan con un nmero fijo de bits (16).

    UTF-8 (8-bit Unicode Transformation Format) es un formato de codificacin de caracteres Unicode e ISO 10646 utilizando smbolos de longitud variable.Actualmente es una de las tres posibilidades de codificacin reconocidas por Unicode.

    Sus caractersticas principales son:

    Es capaz de representar cualquier carcter Unicode. Usa smbolos de longitud variable (de 1 a 4 bytes por carcter Unicode). Incluye la especificacin US-ASCII de 7 bits, por lo que cualquier mensaje ASCII se

    representa sin cambios. Incluye sincrona. Es posible determinar el inicio de cada smbolo sin reiniciar la lectura desde el

    principio de la comunicacin. No superposicin. Los conjuntos de valores que puede tomar cada byte de un carcter multibyte,

    son disjuntos, por lo que no es posible confundirlos entre s.