Como funcionam os motores de busca?

Internet em Março 18, 2010 Sem comentários

Os motores de busca são a chave para encontrar informação específica, espalhada pela vastíssima World Wide Web.

Se não existissem sofisticados motores de busca, seria praticamente impossível localizar o que quer que fosse na Internet, sem saber o seu endereço URL específico.

Mas, será que você sabe como funcionam os motores de busca? E será que sabe o que faz com que alguns motores de busca sejam mais efectivos que outros?

Quando as pessoas usam o termo motor de busca, estão normalmente a referir-se a formas de pesquisa em que a informação é procurada em bases de dados de documentos HTML, cuja informação inicial é recolhida por aquilo a que se chamam robots:

Basicamente, existem 3 tipos de motores de pesquisa:

  • Os que recorrem à utilização de robots (também chamados crawlers; ants ou spiders);
  • Os que se baseiam na informação introduzida manualmente por pessoas;
  • Os híbridos, ou seja, uma combinação dos dois anteriores.

Motores de busca baseados em crawlers (crawler-based) são os que utilizam agentes de software automatizado (chamados crawlers) que visitam os sítios web, lêem a informação disponível, bem como as meta tags, e também seguem as ligações de forma a indexarem todas as páginas relacionadas. Depois, cabe aos crawlers enviarem a informação para um repositório, onde é centralizada e indexada toda a informação. Periodicamente, os crawlers retornam a sítios previamente visitados, de forma a verificarem se ocorreram alterações na informação. A frequência com que os crawlers efectuam este procedimento, é determinado por quem administra o motor de busca.

Motores de busca baseados na acção humana (human-powered), dependem da informação submetida por pessoas, sendo subsequentemente indexada e catalogada. Apenas a informação submetida é indexada.

Em ambos os casos, quando o motor de busca é solicitado para localizar informação, o que de facto acontece é que a pesquisa apenas ocorre ao nível do seu repositório, onde toda a informação se encontra indexada – na realidade, a pesquisa não é feita na Web. Estes repositórios são bases de dados gigantescas, onde é guardada toda a informação recolhida e nas quais são realizadas as pesquisas. Isto explica porque razão, certas vezes, alguns resultados de pesquisas, retornam ligações nulas, ou seja, apontam para páginas inexistentes. Uma vez que os resultados se baseiam apenas na informação indexada, se os índices não estiverem actualizados, pode acontecer que uma dada página se torne inválida, ou seja, deixe de existir na web, mas o motor de busca continuará a considerar que se trata de uma ligação activa, apesar de não ser esse o caso. E assim permanecerá até que a informação seja actualizada.

Mas porque é que pesquisas efectuadas em diferentes motores de busca produzem resultados diferentes? Uma parte da resposta a esta pergunta deve-se ao facto de que nem toda a informação indexada é igual. Tudo depende do que os spiders encontram ou da informação que é submetida pelas pessoas. Mas mais importante, é que nem todos os motores de busca utilizam o mesmo algoritmo para procura de informação através dos índices. O algoritmo é o que os motores de busca usam para determinar a relevância da informação indexada e da qual os utilizadores estão à procura.

Um dos elementos analisados pelo algoritmo é a frequência e localização de palavras-chave numa determinada página web. Aqueles com maior frequência são normalmente considerados mais relevantes. Mas a tecnologia presente nos motores de busca está a tornar-se cada vez mais sofisticada, no sentido de desencorajar a utilização excessiva e por vezes inapropriada destes recursos, a que se dá o nome de keyword stuffing.

Outro elemento que é alvo de análise por parte dos algoritmos é a forma como as páginas se ligam a outras. Através da análise da forma como as páginas se ligam umas às outras, o motor de busca consegue determinar de que tipo de página se trata (se as palavras-chave da página original e da página de destino são idênticas) e se a página pode ser catalogada como sendo importante, ou até merecedora de algum tipo de destaque no ranking.

Tags: , ,

Sem comentários para “Como funcionam os motores de busca?”

Deixe um comentário