Presentación Taller Búsqueda de información avanzada en Internet
-
Upload
colfreepress -
Category
Technology
-
view
7.797 -
download
3
description
Transcript of Presentación Taller Búsqueda de información avanzada en Internet
Búsqueda Avanzada de Información
en Internet
Leonardo Machett
Bogotá, 2009
¿Por qué la búsqueda y la
recuperación de información en
Internet son tareas frecuentemente
tediosas y difíciles?
El fases de la Historia según Giambattista Vico en su obra: Principios de una Ciencia Nueva
Edad Teocrática
Edad Aristocrática
Edad Democrática
Edad de Caos
Nueva Edad Democrática
La imprenta de
Johannes Gutenberg (Fresco Biblioteca Pública de Nueva York)
Quino. Sociedad de la información.
Vinton G. Cerf
Sir Timothy John Berners-Lee
Azul profundo: net, ca, us
Verde: com, org
Rojo: mil, gov, edu
Amarillo: jp, cn, tw, au, de
Magenta: uk, it, pl, fr
Dorado: br, kr, nl
Blanco: desconocidoMapa parcial de Internet por Opte Project (15 de enero de 2005)
El ciclo de la Información
http://www.libraries.psu.edu/instruction/infocycle/infocycle.html
¿Qué es Internet?
HTTP (WWW)
FTP y P2P
GOPHER y WHAIS
Acceso Remoto a otras máq. (juegos en
línea)
SMTP (mail), VoIP e IRC
NNTP (news) y IPTV (Tv)
TELNET
TCP/IP
¿Qué es y no es la Web?
¿Qué no es la Web?
¿Qué es la Web?
¿Qué diferencias hay entre la recuperación en la Web y la recuperación tradicional?
Recuperación tradicional
Recuperación en la WWW
carencia de control terminológico
interfaces diversas
intentos de normalización en la descripción de
contenidos
no hay permanencia, los documentos cambian de
forma y lugar
control terminológico
interfaz homogénea de interrogación
uso de lenguajes documentales
principio de autoridad
Una anatomía de la URL (Localizador Uniforme de Recursos)
http://www.javeriana.edu.co/biblos/tesis/TESIS16.pdf
Una anatomía de la URL
Dominios de primer nivel• com para compañías y empresas
comerciales • net para organizaciones relacionadas
con Internet• org para organizaciones que no se
pueden clasificar en ninguna otra categoría
• edu para instituciones educativas• gov para el gobierno• mil para las Fuerzas Armadas• biz para negocios y empresas
comerciales• info para proveedores de servicios de
información• name o ~ para páginas personales
Dominios geográficos:
• co Colombia
• uk Reino Unido
• es España
• fr Francia
• ca Canadá
• it Italia
• eu Unión Europea
• tv Tuvalu
Dominios: La ICANN es el acrónimo en inglés de la Corporación de Internet para la Asignación de Nombres y Números.
La Web
Fuente: Ricardo Baeza Yates. http://www.dcc.uchile.cl/~rbaeza/inf/webfaces.gif
Pública
Semántica
Dinámica
Indizable
Invisible
Estática
"Un exceso de información puede ser tan peligroso como una carencia"
SEGÚN UMBERTO ECO, LOS EUROPEOS SABEN CADA VEZ MENOS DE HISTORIA POR CULPA DE INTERNET. En : El Clarín [Texto en línea], Buenos Aires : (24, Oct., 2006); [Citado el 24 de octubre de 2006]. Disponible en
Internet: <http://www.clarin.com/diario/2006/10/24/um/m-01296295.htm>
Umberto Eco
La Recuperación de Información
Recuperación de
Información
ciencias de la computación
matemáticas
ciencias de la información
bibliotecología
psicología cognitiva
arquitectura de información
Lingüística
estadística
física
La RI como sistema de comunicación asíncrono
Productor de Información
(Autores de Documentos)
Consumidores de Información
(Usuarios de Información)
Selección de documentos
Problema de los tres lenguajes
Lenguaje de interrogación del
Motor
•Transformar las expresiones resultantes en un lenguaje que extrae del sistema y aquellos documentos que cumplen los requisitos establecidos (práctica)
Lenguaje controlado:
•Adecuar lo expresado por el usuario en expresiones de conceptos delineados y relaciones a los términos y relaciones que puedan haber sido utilizados para representar el contenido de los documentos (predicción)
Lenguaje natural
(humano):
•Es en el que el usuario plantea la necesidad
Modelo elemental para la RI según Ingwersen
http://vip.db.dk/pi/iri/files/Ingwersen_IRI.pdf
Representación del Documento
Consulta del usuarioArchivo Invertido
(Función de emparejamiento)
El Proceso Genérico de Recuperación de Información Tramullas (2001)
Necesidad de Información
Definición de la necesidad del usuario
Selección y ordenación de las fuentes y recursos de información a utilizar
Consulta de los recursos de información
Evaluación de resultados
Presentación al usuario
Revisión y toma de decisiones
Páginas HTML
Archivo Indice
Página de Resultados
Solicitud de información
Motor de Búsqueda
Crawler o Indexador
El usuario abre una de las paginas encontradas
Regresa resultados en formato HTML (Vínculos)
Envía la consulta
Busca en el Índice
Almacena Información
Adquiere Información
Consigue la lista de concordancias
¿Cómo funciona un motor de búsqueda?
Zipf y Luhn
Términos con baja frecuencia
Términos cercanos a la Constante
Términos con mucha frecuencia
¿Qué significa Pensar? La clave de buscar gravita en preguntarse: ¿Cómo pensamos? (El pensador de Rodin exposición en Suiza)
Charles Sanders Peirce
Tipos de razonamiento analizados por Pierce
Razonamiento
Abductivo
Inductivo
Deductivo
Aplicando lo anterior a la Recuperación de Información
• Directorios WebDeductivo
• Motores de Búsqueda
• MetabuscadoresInductivo
• En desarrollo (Búsqueda y recuperación en lenguaje natural)Abductivo
David Filo Jerry Wang
Larry PageSergey Brin
http://www.google.com/
Stephen Wolfram
http://www.wolframalpha.com/
A la hora de preparar una búsqueda… ¿Qué escoger?
http://www.exalead.com/search/
Motor de Búsqueda
Recuperar a partir de operadores búsqueda en Google
Link: Lista todos los enlaces, que teniendo page rank 4 o más, apuntan a nuestra página. Su uso es sencillo: link:www.direccion.comAllinurl: Muestra todas las páginas indexadas de un dominio indicado, o bien, las páginas que tienen todas las palabras especificadas en su url. Su sintaxis es: allinurl:www.dominio.comAllintitle: Muestra las páginas que tienen todas las palabras especificadas en su título. allintitle: palabra1 palabra2Devuelve las páginas que tienen palabra1 y palabra2 en su título.Allintext: Páginas que tengan todas las claves especificadas dentro de su body.Allinanchor: Páginas que tengan en el texto que las apuntan las palabras especificadas.Site: Indica un determinado dominio que le indiquemos para realizar la búsqueda. Carece de sentido si no le especificamos algo más. Un ejemplo de su uso sería: site:www.dominio.com+palabra Esto busca todas las páginas con alguna ocurrencia 'palabra' dentro del dominio especificado.Info: Nos muestra información sobre la página principal de un dominio especificado.info:www.dominio.com
Inurl: Busca la palabra que le especifiquemos en la url, pero no pide que todas estén en la url como allinurl.Intitle: Busca la palabra que le especifiquemos en el título, pero no es necesario que todas estén en el título. Por ejemplo intile:clave1 clave2 Busca clave1 en la url.Cache: Nos lleva directamente a la versión que tiene googlede una determinada página. cache:www.dominio.com Y directamente a la caché que tiene almacenada google de www.dominio.com.Related: Según google nos muestra sitios relacionados con la dirección que le especifiquemos, a saber que criterio sigue, porque los resultados más que malos, son nulos. No merece la pena usarlo.Stocks: Nos lleva a Yahoo Finance y nos muestra información de tipo financiero relacionada con la marca que le indiquemos.Filetype: Busca un tipo de documento especificado, por ejemplo: filetype:doc clave Busca ficheros '.doc' relacionados con 'clave'. ¿Útil, no?.Define: Este es el comando más reciente; busca la definición de una palabra indicada, de momento sólo funciona con palabras en inglés. Uso: define:mouth.
http://www.google.com/
Motores de Multimedia
• Sonidos
• http://www.musicovery.com/
• http://www.midomi.com/
• http://www.musipedia.org/query_by_humming.0.html
• http://tunespotting.com/
• Imágenes
• http://www.snaptell.com/
• http://pro.corbis.com/
• http://browse.deviantart.com/
Web invisible
• www.internetinvisible.com
• www.completeplanet.com
Otros recursos para recuperar información en la web
http://pro.corbis.com/
¿Qué es la Web Semántica?
Fuente: Mapa conceptual de la Web Semántica. Keilyn Rodríguez Perojo y Rodrigo Ronda León.
"Web Semántica: un nuevo enfoque para la organización y recuperación de información en la web".
Acimed, vol. 13, núm. 6, November-December 2005.
http://bvs.sld.cu/revistas/aci/vol13_6_05/aci030605.htm
El objetivo de la Web Semántica es que la Web
pase de ser una colección de documentos a
convertirse en una base de conocimiento.
Es una extensión de la Web actual dotada de significado, esto es, un
espacio donde la información tendría un significado bien definido, de manera
que pudiera ser interpretada tanto por agentes humanos como por agentes
computerizados. (Tomado de: Lamarca)
http://193.108.42.79/ikea-es/flash_files/bot.html
DESARROLLAR HABILIDADES INFORMATIVAS
Shiyali Ramamrita Ranganathan
4. Salve el tiempo del lector, o él salvara su propio tiempo tomando un atajo a la información , a costa de su calidad
1. Los libros están para el uso
2. Cada libro tiene su lector
3. Cada lector tiene su libro
5. La biblioteca es un organismo vivo que crece
NecesidadDecisión
ExpresiónInicio
LocalizaciónBúsquedaSelección
Recuperación
ValoraciónAnálisis
GeneralizaciónEvaluación
OrganizaciónCategorizaciónEstructuraciónOrganización
Uso de la InformaciónAplicación
AprendizajeUso
ComunicaciónUso ético
ReconocimientosEstándares de estilo
[*] IFLA. Guidelines on information literacy for lifelong learning. Veracruz : La federación, 2006. 60 p. [Texto en línea]. [Consultado el: 3 de septiembre de 2006]. Disponible en Internet: <http://www.ifla.org/VII/s42/pub/IL-Guidelines2006.pdf>.
Nini Marshall en la película: “hay que educar a Nini” Afiche de la Biblioteca Nacional de la Argentina 2005
… La Biblioteca generalmente esta
orientada al usuario pero…
… Existe algo llamado ¡Ansiedad causada por la Biblioteca!
La Ansiedad de la Biblioteca ¿Qué es y Por qué sucede?
Ansiedad Satisfacción
La Ansiedad de la Biblioteca ¿Qué es y Por qué sucede?
Bibliotecario ayer
Bibliotecario hoy
Guías
Ayudantes
Guardián
Custodio
¿Qué es la Ansiedad causada por la Biblioteca?
Es una combinación de emociones experimentadas por muchos usuarios (especialmente por los que pisan por primera vez una biblioteca. Se caracteriza porque el usuario:
• Comienza a sentirse abrumado por el tamaño de los libros o de los resultados de una búsqueda.
• No sabe como buscar información, ni como esta organizada la biblioteca o la web.
Fuente: http://www.smcm.edu/Users/cerabinowitz/BYTE/sld005.htm
¿Qué es la Ansiedad causada por la Biblioteca?
– Carece de seguridad en si mismo acerca de cómo comenzar a trabajar en las tareas y trabajos asignados.
– Sentimiento de ineptitud (“Soy el único que no sabe”)
– Vacila para preguntar (“Yo se que esta es una pregunta tonta…”)
Fuente: http://www.smcm.edu/Users/cerabinowitz/BYTE/sld005.htm
(continuación)
¿Qué es la Ansiedad causada por la Biblioteca?El usuario e incluso el referencista son de cierta manera detectives que tiene que descifrar códigos confusos , perderse en laberintos y hoy en día lidiar con las TIC, la cual aumenta su ansiedad en caso de no dominarla
Ante ello uno como bibliotecario debe tener una… ena disposición de servicio
Ante ello uno como referenciasta debe tener una buena disposición para ayudar
¿Qué Podemos Hacer para Aliviar la Ansiedad de la Biblioteca?
MODELO GAVILÁN
http://www.eduteka.org/imprimible.php?num=487&catx=1
Modelos
“que cada ojo trate por cuenta propia, sin fiarse en mediador .”
William Shakespeare,
Mucho ruido y pocas nueces
¿Qué es el pensamiento crítico?
• Mona McCormick:
– Es la habilidad para distinguir los hechos de la ficción, para establecer opiniones, y para reflexionar sobre el por qué aceptamos los “hechos” y estamos de acuerdo con las opiniones de otros.
Evaluar sitios Web
• Accesibilidad
– W3C MarkUp ValidationService. http://validator.w3.org/ Servicio de Verificación de marcas o etiquetas del W3C que chequea si los documentos HTML son conformes con las Recomendaciones del W3C World WideWeb Consortium para los estándares HTML y XHTML.
Taller de Evaluación
• http://lemachett.googlepages.com/tallerbibliotic
Si consideramos los motores de búsqueda en la Web actuales llegamos a la conclusión:
•Se siguen utilizando los índices que son muy similares a los utilizados por los bibliotecarios hace un siglo.
•¿Qué ha cambiado entonces en la Búsqueda?
Cambios en la RI en un entorno “interactivo”
Es más barato tener acceso a
diversas fuentes de información
1El avance en las
TIC ha proporcionado
un mayor acceso a las redes.
2Por primera vez
en la historia, muchas personas
tienen acceso libre a la
publicación en un gran medio
3
Preguntas a futuro de la RI en un entorno “interactivo”
• En el mundo dinámico de la Web y de las Bibliotecas digitales ¿Cuáles son las técnicas que permiten recuperar información de mayor calidad? A gente que le resulta difícil o imposible hacerlo
1
• ¿Cuáles son las técnicas que indizan más rápido, reduciendo el tiempo de consulta? 2
• ¿Cómo mejoramos la comprensión del comportamiento del usuario en relación al diseño y desarrollo de nuevas estrategias de recuperación de información?3
Cuestiones prácticas
Seguridad
• Transacciones Seguras
Intimidad
• Con frecuencia, las personas están dispuestas a sacrificar su intimidad por información con tal de que no se convierta esta en información pública
Derechos de autor
• Legislación , Fare use, CC, Derechos de Autor, Canón,
Digitalización
• OCR (Google Books)
El intercambio de idioma de la recuperación
• Se consulta en un idioma y se recuperan los documentos en otros idiomas
Para saber más
• Opte Project: http://opte.org/maps/• Web Semántica:
http://www.w3c.es/Divulgacion/Guiasbreves/WebSemantica
• Hakia vs Google: http://club.hakia.com/challenge/default2.aspx?q=
• Noticia sobre Wolfram-Alpha: http://www.elpais.com/articulo/internet/primer/buscador/inteligente/elpeputec/20090507elpepunet_3/Tes
Recuerde que de usted depende hacer un buen uso de las herramientas e igualmente debe velar
por lograr que sus usuarios desarrollen sus propias habilidades en el acceso, la evaluación y
el uso de la información en la Web.
Leonardo MACHETTALFABETIZACIÓN INFORMACIONAL
[email protected]://bajoelmanzano.blogspot.com
Twitter: lemachett