Deep Web – Nas profundezas da internet

Deep Web (também chamada de Deepnet, Invisible Web, Undernet ou hidden Web, refere-se ao conteúdo da World Wide Wide (WWW) que não faz parte da Surface Web, conteúdo indexável pelos padrões dos motores de busca.

Não deverá ser confundida com a Dark Internet, redes de computadores ultrapassadas que não podem ser alcançadas via internet, ou com a Darknet, compartilhamento de arquivos, que poderia ser classificada como uma pequena parte da Deep Web.

Mike Bergman, fundador da BrighPlanet, disse que a procura na internet hoje pode ser comparada a uma navegação pela superfície, surface, de um oceano, sendo que uma grande quantidade de conteúdos pode ser rastreado na rede, pelos buscadores, mas há muito conteúdo interessante abaixo dessa superfície e, portanto, fora do alcance dos buscadores. A maioria das informações da Web estão muito abaixo da superfície, navegável pelos internautas, através dos buscadores, em sites gerados dinamicamente, e que os motores de busca padrão não pode encontrar. Motores de busca tradicionais não conseguem “ver” ou recuperar o conteúdo na Deep Web, isso porque estas páginas não existem até que sejam criadas dinamicamente conforme o resultado de uma pesquisa específica. A Deep Web está a uma magnitude maior, sob a superfície.

Estimativas baseadas em técnicas avançadas de internet, feitas em uma Universidade da Califórnia, Berkeley, no ano de 2.001, especulam que a Deep Web é constituída 91 terabytes. Estimativas mais precisas podem ser obtidas com tecnologias desenvolvidas para Deep Web: A princípio, foram detectados 300.000 Deep Sites em toda a Web, em 2.004 e, de acordo com Shestakov, cerca de 14.000 Deep Sites só na região da Rússia, em 2.006.

Sites que não foram registrados em buscadores, o que não ocorre com subdomínios gratuitos, como os blogs, não são rastreados pelos buscadores, ou seja, são invisíveis aos buscadores, portanto, conhecidos como Web invisível ou Invisible Web.

A Deep Web pode ser classificada como:

Conteúdos Dinâmicos: Páginas dinâmicas geradas automaticamente através de uma simples interação com formulários, com campos de textos, esses campos são difíceis de navegar sem o conhecimento de domínio.

Private Web: Sites que exigem registro e login (protegidos por recursos de senha).

Unlinked Content: Páginas que não estão ligadas à outras páginas, que pode impedir os sistemas rastreadores de acessar o conteúdo. Este conteúdo pode ser classíficado como páginas sem backlinks (ou inlinnks).

Contextual Web: Páginas com conteúdo variável para contextos de acessos diferentes (intervalos de endereços IP de cliente ou sequência de navegação interior).

Acesso limitado de conteúdo: Sites que limitam o acesso às suas páginas de forma técnica (por exemplo, usando o Padrão de Exclusão de Robôs, Captchas, ou cabeçalhos HTTP que proíbem a motores de busca de navegar, criando cópias do cache.

Scripted Content: Páginas que só são acessíveis através de links produzidos em JavaScript, bem como conteúdo baixado dinamicamente a partir de servidores Web de Flash ou Ajax.

Non-HTML/text content: Conteúdo textual codificado em multimídia (imagem ou vídeo) ou arquivos específicos, formatos de arquivos não manipulados pelos motores de busca. Conteúdo de texto usando o protocolo Gopher e arquivos hospedados em FTP que não são indexados pela maioria dos motores de busca. Motores de busca como o Google não indexa fora de HTTP ou HTTPS.

Para descobrir o conteúdo da Web, motores de busca utilizam Crawlers que seguem hyperlinks através de números de portas de protocolos virtuais conhecidos. Esta técnica é ideal para descobrir conteúdos na superfície da Web, mas muitas vezes é ineficaz para encontrar conteúdos da Deep Web. Por exemplo, esses indexadores não tentam encontrar páginas dinâmicas que são o resultado de consultas de banco de dados, devido ao número infinito de consultas que são possíveis.

Tem-se observado que isto poderá ser parcialmente superado, se forem fornecidos links para consultar os resultados, mas isso poderá involuntariamente inflar a popularidade de um usuário da Deep Web.

Em 2.005, o Yahoo! rastreou uma pequena parte da Deep Web, liberando para seus assinantes. Esse motor de busca rastreia através de alguns sites da Web. Alguns sites de subscrição exibem seu conteúdo completo de robôs de Search Engine, assim como vai aparecer nas buscas do usuário, mas, em seguida, mostra aos usuários uma página de login ou de subscrição, quando se clica em um link da página de resultados do motor.

Os pesquisadores tem explorado uma forma que a Deep Web possa ser rastreada de forma automática. Como resultado dessas pesquisas, vários projetos vem sendo desenvolvidos paralelamente como:

DeepPeep: Um projeto da Universidade de Utah patrocinado pela National Science Foundation, que reuniu fontes (formulários) em diferentes domínios, com base em novas técnicas de rastreamentos mais focados.

Finalmente os buscadores comerciais começaram a explorar métodos alternativos para rastrear a Deep Web. O protocolo Sitemap (desenvolvido pela Google) e o Mod Oai, são mecanismos que permitem que os motores de busca e outras partes interessadas em descobrir recursos que levem a Deep Web, em servidores específicos. Ambos mecanismos permitem que os servidores web divulguem as URLs que são acessíveis a eles, permitindo a descoberta automática de recursos que não estão ligados diretamente à Web Surface.

Deep Web do Google rastreia submissões para cada formulário HTML e adiciona as páginas HTML resultantes para o índice do motor de busca Google. São mil consultas por segundo para o conteúdo Deep Web.

Neste sistema, o cálculo pré da submissões é feita usando três algoritmos:

01) A seleção de entrada para textos de pesquisa que aceitam palavras-chaves;

02) Identifica resultados que aceitam apenas valores de um típo de dados específicos (por exemplo, data);

03) Seleção de um pequeno número de combinações de resultados que geram URLs adequadas para a inclusão no índice de buscas web.

Determinar se um resultado já faz parte da internet ou se faz parte da Deep Web é difícil. Se um resultado é indexado por um motor de busca, isso não quer dizer necessariamente que deveria estar ali, isso porque esse resultado poderia ter sido obtido através de outro método (por exemplo: Protocolo do Site Map, Mod Oai, Oaister) em vez de rastreamento tradicional.

Se um motor de busca fornece um backlink para um resultado, pode-se supor que o resultado está na web surface. Infelizmente, os motores de busca nem sempre fornecem os back links para esses recursos. Mesmo que uma backlink exista.

Não há maneira de determinar se o recurso que fornece a ligação é ele próprio ou web surface, sem rastrear toda a web. Além disso, um recurso pode residir na web surface, sem ter sido encontrado por um motor de busca.

Portanto, se temos um recurso arbitrário, não podemos saber com certeza se o recurso reside na web surface, sem um rastreamento completo da web.

Para resolver esse problema, alguns projetos estão sendo desenvolvidos, entre eles:

01) Oaister – Universidade de Michigan

02) Intute – Universidade de Manchester

03) Infomine – Universidade da Califórnia, em Riverside.

04) DirectSearch – Gary Price.

Esta classificação representa um desafio durante a busca da Deep Web, em que dois níveis de categorização são obrigatórios.

O primeiro nível é categorizar sites em tópicos verticais ( por exemplo, saúde, viagens, automóveis) e sub-tópicos de acordo com a natureza do conteúdo subjacente de suas bases de dados.

O desafio mais difícil é classificar e mapear as informações extraídas de várias fontes da Deep Web, de acordo com necessidades do usuário final. Relatórios de pesquisa Deep Web não pode exibir URLs, como relatórios de pesquisas tradicionais. Os usuários finais esperam de suas ferramentas de busca, não só encontrar o que estão procurando rapidamente, mas que seja intuitiva e amigável.

Para que sejam significativos, os relatórios de pesquisa tem de oferecer alguma profundidade à natureza dos conteúdos que estão na base das fontes, ou então o usuário final estará perdido no mar de URLs que não indicam o conteúdo. O formato em que os resultados da pesquisa devem ser apresentados varia muito de acordo com assunto específico da pesquisa e do tipo de conteúdo que está sendo exposto. O desafio é encontrar e mapear dados semelhantes em várias fontes diferentes, de modo que os resultados das pesquisas possam ser expostos em um formato unificado sobre o relatório de pesquisa, independentemente de sua fonte.

As linhas entre o conteúdo e o motor de busca da web começaram a diluir-se, com os serviços de busca começando a dar acesso a parte ou todo conteúdo de uma vez com restrição de conteúdo. Uma quantidade crescente de conteúdo da Deep Web se abre para pesquisa livre, com editores e bibliotecas fazendo acordos com grandes motores de busca.

No futuro, o conteúdo da Deep Web poderá ser definida por menos oportunidade para a busca do que as taxas de acesso ou outros tipos de autenticação.

Fonte: Wikipedia

Dark internet

Darknet – Revolução Web

Sites de busca DeepWeb

Adaptação de texto: By Jânio

junho 9, 2012 - Posted by icommercepage | internet | deep web, desenvolvimento, futuro, hidden web, invisible, noticias, pesquisas, projetos

4 Comentários »

[…] * Publicado no MadeInBlog […]

CurtirCurtir

Pingback por Ver! | Blog | Deep Web – Nas profundezas da internet | junho 10, 2012 | Responder
[…] Deepweb – Nas profundezas da internet […]

CurtirCurtir

Pingback por Censura da web já começou « Made in Blog | dezembro 18, 2012 | Responder
Tem um ótimo conteudo neste blog

http://regifelix.com/2012/12/19/deep-web/

CurtirCurtir

Comentário por regifelix | janeiro 3, 2013 | Responder
- Olá RegiFélix:
  
  Eu vou dar uma conferida.
  
  Obrigado pela indicação.
  
  ABS
  
  CurtirCurtir
  
  Comentário por icommercepage | janeiro 3, 2013 | Responder