Internet Profunda

Post on 16-Aug-2015

215 views 3 download

description

guía sobre que es la Internet profunda

Transcript of Internet Profunda

nLerneL proIunduSeconocecomo Internetprofunda o Internetinvisible (en ingls:Deepweb, InvisibleWeb, DeepWeb, DarkWeb o HiddenWeb)a todo el contenido de Internet que no formaparte del Internet superficial, es decir, de laspginasindexadasporlasredes delos motoresdebsqueda delared.Estosedebealaslimitacionesquetienenlasredesparaaccederatodoslossitioswebpordistintos motivos.Lamayorparte delainformacinencontradaenlaInternetProfundaestenterrada en sitios generados dinmicamente y para los motores de bsquedatradicionalesesdifcilhallarla.FiscalesyAgenciasGubernamentaleshancalificado a la Internet Profunda como un refugio para la delincuencia debido alcontenido ilcito que se encuentra en ella.CuususLa principalcausadelaexistenciadela Internetprofunda eslaimposibilidaddelosmotoresdebsquedadeencontraroindexargranpartedelainformacinexistenteenInternet.SeestimaquelaInternetProfundaes500vecesmayor quelaInternetSuperficial,siendoel95%deestainformacinpblicamente accesible. Si los buscadores tuvieran la capacidad para accederatodalainformacinentonceslamagnituddela"Internetprofunda"sereduciracasiensutotalidad;sinembargo,nodesapareceratotalmenteporque siempre existirn pginas privadas.Lossiguientessonalgunosdelosmotivosporlosquelos buscadoressonincapaces de indexar la Internet profunda: Pginas y sitios web protegidos con contrasea. Documentos en formatos no indexables. Enciclopedias,diccionarios,revistasenlasqueparaaccederalainformacinhayqueinterrogaralabasededatos,comoporejemplolabase de datos de la RAE.TumuoLa Internet profunda (Deep Web) es un conjunto de sitios web y bases de datosque buscadores comunes no pueden encontrar ya que no estn indexadas. ElcontenidoquepuedeserhalladodentrodelaInternetprofundaesmuyamplio.5Se estima que la Internet Profunda es 500 veces mayor6que la InternetSuperficial, siendo el 95% de esta informacin pblicamente accesible.Ilustracin de la Internet profundaElinternetsevedividoendosramas,Lainternetprofundaylasuperficial.El Internetsuperficial secomponedepginasestticasofijas,mientrasqueWeb profunda est compuesta de pginas dinmicas. La pginas estticas nodependen de una base de datos para desplegar su contenido si no que residenenunservidorenesperadeserrecuperadas,ysonbsicamentearchivos HTML cuyocontenidonuncacambia.Todosloscambiosserealizandirectamenteenelcdigoylanuevaversindelapginasecargaenelservidor.Estaspginassonmenosflexiblesquelaspginasdinmicas.Laspginasdinmicassecreancomoresultadodeunabsquedadebasededatos.Elcontenidosecolocaenunabase dedatosyseproporcionaslocuando lo solicite el usuario.SeestimaquelainformacinqueseencuentraenlaInternetprofundaesde7,500 terabytes,loqueequivaleaaproximadamente550billonesdedocumentos individuales. El contenido de la internet profunda es de 400 a 550vecesmayordeloquesepuedeencontrarenlaInternetsuperficial.Encomparacin, se estima que la Internet superficial contiene solo19 terabytes decontenidoyunbillndedocumentosindividuales.En2010existanmsde200,000 sitios en la internet profunda.La ACM por sus siglas en ingls (Association for Computing Machinery) publicen2007que Google y Yahoo indexabanel32 %delosobjetosdelainternetprofunda , y MSN tena la cobertura ms pequea con el 11 % . Sin embargo,lacoberturadelotresmotoreserade37 %,loqueindicabaqueestabanindexandocasilosmismosobjetos.9Se prevquealrededordel95%delinternet es internet profunda, tambin le llaman invisible u oculta, la informacinquealberganosiempreestdisponibleparasuuso.Porellosehandesarrolladoherramientascomobuscadoresespecializadosparaaccederaella.DenomInucInSon pginas de texto, archivos, o en ocasiones informacin a la cual se puedeaccederpormediodela WorldWideWebquelosbuscadoresdeusogeneralno pueden, debido a limitaciones o deliberadamente, agregar a sus indices depginas webs. La Web profunda se refiere a la coleccin de sitios o bases dedatos que un buscador comn, como Google, no puede o quiere indexar. Es unlugarespecificodelInternetquesedistingueporelanonimato.Nadaquesehagaenestazonapuedeserasociadocon laidentidaddeuno,amenosqueuno lo dese.Bergman,enunartculosemanalsobrelaWebprofundapublicadoenelJournalofElectronicPublishing,mencionqueJillEllsworthutilizeltrmino"laWebinvisible"en1994parareferirsealossitioswebquenoestnregistrados por algn motor de bsqueda.Bergman cit un artculo de 1996 de Frank Garca:Seraunsitioque,posiblementeestdiseadorazonablemente,peronosemolestaron en registrarlo en alguno de los motores de bsqueda. Por lo tanto,nadie puede encontrarlos! Ests oculto. Yo llamo a esto la Web invisible.Otrousotempranodeltrmino WebInvisibleowebprofunda fueporBruceMonte y Mateo B. Koll de Personal Library Software, en una descripcin de laherramienta @ 1 de web profunda, en un comunicado de prensa de diciembrede 1996.Elprimerusodeltrminoespecficode webprofunda,ahorageneralmenteaceptada,ocurrienelestudiodeBergmande2001mencionadoanteriormente.Por otra parte, el trmino web invisible se dice que es inexacto porque: Muchosusuariosasumenquelanicaformadeaccederalawebesconsultando un buscador. Algunainformacinpuedeserencontradamsfcilmentequeotra,perosto no quiere decir que est invisible. Lawebcontieneinformacindediversostipos queesalmacenadayrecuperada en diferentes formas. Elcontenidoindexadoporlosbuscadoresdelawebesalmacenadotambinenbasesdedatosydisponiblesolamenteatravsdelasinterrogacionesdelusuario,portantonoescorrectodecirquelainformacin almacenada en bases de datos es invisible.RusLreundo Iu nLerneL proIunduLosmotoresdebsquedacomercialeshancomenzadoaexplorarmtodosalternativospararastrearlaWebprofunda.ElProtocolodelsitio(primerodesarrolladoeintroducidopor Google en2005) yOAIsonmecanismosquepermiten a los motores de bsqueda y otras partes interesadas descubrir recursosdelaInternetProfundaenlosservidoreswebenparticular.Ambosmecanismospermitenquelosservidoreswebanuncienlasdirecciones URL quesepuedeaccederaellos,loquepermiteladeteccinautomticadelosrecursosquenoestndirectamentevinculadosalaWebdelasuperficie.Elsistemadebsquedade la Web profunda de Google pre-calcula las entregas de cada formulario HTML yagregaalaspginasHTMLresultantesenelndicedelmotordebsquedadeGoogle. Los resultados surgidos arrojaron mil consultas por segundoal contenidode la Web profunda15. Este sistema se realiza utilizando tres algoritmos claves: Laseleccindevaloresdeentrada,paraquelasentradasdebsquedadetexto acepten palabras clave. Laidentificacindelosinsumosqueaceptanslovaloresespecificos(porejemplo, fecha). Laseleccindeunpequeonmerodecombinacionesdeentradaquegeneran URLs adecuadas para su inclusin en el ndice de bsqueda Web.Recursos de Iu InLerneL proIunduLosrecursosdelaInternetProfundapuedenestarclasificadosenunadelassiguientes categoras: Contenido de Acceso limitado: los sitios que limitan el acceso a sus pginasde una manera tcnica (Por ejemplo, utilizando el estndar de exclusin derobots o captcha, que prohben los motores de bsqueda de la navegacinpor y la creacin de copias en cach22. ContenidoDinmico:Laspginasdinmicasquedevuelvenrespuestaaunapreguntapresentadaoaccederatravsdeunformulario,especialmentesiseutilizanelementosdeentradaeneldominioabiertocomo campos de texto. ContenidoNoVinculado:paginasqueno estnconectadasconotraspginas,quepuedenimpedirquelosprogramasderastreo web tenganaccesoalcontenido.Estematerialseconocecomopginassinenlacesentrantes. ContenidoProgramado: pginasqueslosonaccesiblesatravsdeenlacesproducidospor JavaScript,ascomoelcontenidodescargadodeformadinmicaapartirdelosservidoreswebatravsdesoluciones deFlash o Ajax. Sin contenido HTML: contenido textual codificado en multimedia (imagen ovideo)archivosoformatosdearchivoespecficosnotratadosporlosmotores de bsqueda. Web privada: los sitios que requieren de registro y de una contrasea parainiciar sesin Webcontextual:pginasconcontenidosdiferentesparadiferentescontextos de acceso (por ejemplo, los rangos de direcciones IP de clienteso secuencia de navegacin anterior).bttp.//es.wlklpeJlo.otq/wlkl/lotetoet_ptofooJo