Informática: fichamentos / clippings / recortes de não-ficção.
Nonfiction Litblog.
Curador é Mestrando em Computação, Especialista em Governança de T.I., Tecnólogo em Redes, Técnico.
Informática: fichamentos / clippings / recortes de não-ficção.
Nonfiction Litblog.
Curador é Mestrando em Computação, Especialista em Governança de T.I., Tecnólogo em Redes, Técnico.
Artigo em que os fundadores do Google apresentaram seu protótipo, em 1998. Explicam quais eram os problemas dos mecanismos de busca da época, e como se propunham a resolvê-lo, principalmente com o algoritmo PageRank. Também, considerações sobre o modelo de negócios baseado em propagandas, e que complicações podem surgir do funcionamento de um web crawler.
Já deu pra sentir a relevância do artigo? Simplesmente é o artigo acadêmico onde os fundadores do Google apresentam este projeto da universidade deles como atividade do curso que faziam. Abaixo, resumo o que é apresentado no texto. Não me preocupei em resumir a Seção 4 "Anatomia do Google", pois são detalhes de funcionamento interno que não são exatamente relevantes para o usuário normal.
Dados: o banco de dados de 24 milhões de páginas requeria apenas 147GB de espaço em disco, ou 53,5GB quando comprimido - o que já era barato na época. Foi gerado em aproximadamente 9 dias (incluindo todo o tipo de erro que atrasou o processo). O total de links em 24 milhões de páginas era 322 milhões.
Problemas na época:
as pessoas usam listas de sites (como o Yahoo!) cuja manutenção é humana, e por isso são subjetivas, caras de construir e manter, lentas de melhorar, e não podem cobrir todos os tópicos "exotéricos";
mecanismos de busca automatizados que baseiam-se em palavras-chave normalmente retornam muitos resultados de baixíssima qualidade, e anunciantes tomam medidas para enganar esses mecanismos e ganhar a atenção das pessoas.
Soluções do Google:
PageRank: dá uma pontuação de qualidade para cada página web baseado na estrutura de links;
links são utilizados para melhorar resultados de busca.
PageRank
O gráfico de citações (links) da web foi considerado importante por Sergey Brin e Lawrence Page, e era algo largamente não-utilizado. Tais mapas de links entre as páginas permitem o cálculo do PageRank, uma medida objetiva da importância de citação, que corresponde bem, disseram eles, com a ideia subjetiva de importância que as pessoas têm. Isso permitia ao PageRank priorizar bem as buscas por palavras-chave, comparado ao que havia na época: em assuntos mais populares, uma simples busca por coincidência de texto nos títulos das páginas gera bons resultados. E também ajuda muito em buscas por texto completo das páginas, tal como no Google.
O PageRank pega o conceito de citação acadêmica (aonde um artigo menciona o outro como referência), e expande para a web. Porém, de forma diferente, as citações não têm todas o mesmo valor: é feita uma relação entre o número de citações feitas para a página, e o número de citações que a página fez, e isso determina o valor de cada citação.
A fórmula usada pelo PageRank foi apresentada assim:
PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))
A ideia é que o PageRank seja um modelo de comportamento de usuário: o PageRank (PR) é a probabilidade de um surfista web aleatório visite uma página, e o fator "dampening" seria a probabilidade deste surfista aleatório, em cada página, se entediar e requisitar outra página aleatória. Uma variação seria adicionar esse fator "d" a uma única página, ou um grupo de páginas, permitindo personalização e tornando "praticamente impossível" que alguém deliberadamente engane o sistema para ganhar um ranking mais alto.
Dado: calcular o PageRank de 26 milhões de páginas podia ser feito em poucas horas com uma workstation de tamanho médio.
Links
Links dão descrições melhores da página para a qual levam, do quê as próprias páginas dariam de si mesmas. Também, links permitem indexar conteúdos que normalmente não poderiam sê-lo por mecanismos de busca textuais, como imagens, programas, e bancos de dados.