quarta-feira, junho 1

Bots

Porque é que quando queremos fazer um comentário em alguns blogs ou messageboards é necessário copiar umas letras, que muitas vezes são difíceis de ler?
Porque razão alguns internautas escrevem o seu email nas suas páginas pessais ou nos foruns/messageboards na forma nome at hotmail dot com.
Como é que o Google sabe onde estão os documentos "relevantes" para a questão que lhe colocamos?

Estes são alguns dos efeitos mais visíveis dos (ro)bots. Bot é a forma abreviada (e mais chique) de robot. Um bot é um software que percorre automaticamente (sem intervenção humana) a web, ou um conjunto de sites, em busca de informação para a colocar numa base de dados, ou para executar uma acção pré-determinada. São assim chamados pois realizam um trabalho mecânico e repetitivo a uma velocidade que seria impossível de igualar por um humano. Mais informações em Internet bot e em The Web Robots FAQ.

Vejamos exemplos de bots.

Spiders (aranhas), web crawlers & web wanderers:

Estes termos são sinónimos e descrevem programas que automaticamente e recursivamente percorrem a web seguindo links. Quando uma página web é visitada o seu conteúdo é analisado e colocado numa base de dados. É desta forma que os motores de busca, o Google por exemplo, sabem onde estão as páginas web, pois têm uma cópia do seu conteúdo e o seu endereço (URL) na sua base de dados. Procurar a web num motor de busca é um termo ligeiramente enganador... na realidade o internauta está apenas a pesquisar a porção da web que o motor de busca indexou na sua base de dados. Estes termos (spiders , web crawlers e web wanderers) são ligeiramente enganadores, pois dão a impressão de que o próprio software se move entre os sites como um vírus, tal não é o caso, pois os robots apenas pedem documentos presentes nestes sites.

Spambots:

Os motores de busca são usados como a porta de entrada para a web. É por isso que alguns indivíduos ou organizações (spammers & SEOs) tentam enganar os motores de busca de forma a que estes dêem uma maior relevância às suas páginas, do que aquela que estas realmente merecem, devido aos significativos ganhos financeiros associados, quer seja pela venda de mais produtos e serviços, quer seja pela venda de mais publicidade sob a forma de banners, popups, popunders, testemunhos, links afiliados, etc... Devido a estes incentivos financeiros não é de admirar que os spammers usem também robots, chamados spambots, para automatizarem a árdua tarefa de escreverem mensagens em milhares de blogs e fóruns. Esta é uma estratégia que beneficia duplamente os spammers, pois não só estes criam mais links para os seus sites e desta forma ganham mais pagerank, como também ganham texto altamente relevante para as páginas linkadas, pois os motores de busca mais evoluidos (Google, Yahoo, MSN, Ando, Teoma, Gigablast, Hexalead e Baidu) juntam os anchors (o texto sublinhado dos links) à página linkada e atribuem-lhe uma relevância superior à do próprio texto da página! A razão por detrás deste comportamento aparentemente estranho é a de que os anchors dos links orgânicos (i.e. os links dos não spammers), tal como o título da página, costumam a ser óptimas descripções do conteúdo da página web...
O spam nos blogs e nos fóruns está ganhando popularidade e não é só um problema dos motores de busca, como também afecta directamente milhões de blogs e de fóruns, para os quais este é mais uma chatice semelhante à do spam que recebem nos e-mails. Como forma de resolver o problema do ponto de vista dos reponsáveis dos blogs/foruns, estes têm optado por várias estratégias, como a criação de lista negras de IPs responsáveis pelo spam, ou a introdução de moderadores nos foruns que diligentemente apagam o spam, ou a necessidade dos internautas se registarem para poderem colocar mensagens nos fóruns, ou a criação de testes simples, que os robots são incapazes de passar, como copiar algumas letras que às vezes são difíceis de se ler, ou responder se se é um humano ou não, questão à qual os robots são incapazes de responder...

Um exemplo típico de spam é a venda online de prozac: "Lookin to save some money on medications" "buy prozac", com os seus 812 posts de spam em fóruns & blogs.

Harversters (ceifeiras-debulhadoras):

Tal como as ceifeiras-debulhadoras percorrem os campos para ceifar e debulhar os cereais, também os "harversters" percorrem a web para colher os e-mails que encontrem nas páginas web que visitem, para os colocar numa base de dados que será posteriormente vendida a quem queira enviar publicidade por e-mail. Para diminuir o risco de que os seus e-mails sejam colhidos por um harverster e posteriormente vendidos aos spammers, os internautas mais avisados costumam a escrever os seus e-mails na forma: nome at hotmail dot com. No entanto as novas gerações de harversters já sabem lidar com este truque... uma solução simples que ainda funciona consiste em escrever o e-mail na forma nNomMe@hotmail.com e dizer para retirar as letras repetidas ou as maiúsculas.

Os robots também são utilizados para traduzir páginas web, para informar o internauta por e-mail quando há novas notícias sobre um determinado assunto, para identificar oportunidades de arbitragem, vulgo procurar pechinchas para a procura de livros em segunda mão, para fazer o download de sites, ou parte destes, para o disco do internauta à la wget & cURL, sendo esta útima classe de robots conhecida pelo nome sugestivo de aspiradores. Estes últimos poderão ser úteis no caso do internauta querer fazer uma cópia de segurança, no caso deste desconfiar que essa informação não permaneça lá muito tempo...

Mais informações sobre o uso de robots em OReilly - Spidering Hacks.chm.

AD

7 comentários:

Pamina disse...

Li com atenção os vossos artigos de ontem e hoje, inclusive as links. Achei muito interessante, especialmente para quem sabe pouco destas coisas.
Como disse anteriormente, gosto da maneira "organizada" como conduzem o leitor através dos temas.

Anónimo disse...

Aprendi muita coisa. Obrigada!

Anónimo disse...

What a great site
»

Anónimo disse...

What a great site Sluty bikini Porno mature car seat cover Cheap prescription xanax Provigil addiction college students truck rental in hartwell ga georgia Screws and bookcases Infiniti fx45 lease perrino p j jr attorney Screen and digital print industry Maternity leave financial planning

Anónimo disse...

Wonderful and informative web site. I used information from that site its great. 12 man super camping tents cowboy leather jacket

Anónimo disse...

Where did you find it? Interesting read automatic acura shift advice Danish voyeur overnight ritalin monte carlo stochastic financial planning 1996 acura integra specs Leica d-lux 2 battery charger l os angeles mini van roof racks Land rover dealers southern california Reactions fluoxetine Cisco pix detras de zyxel Ativan keyword Ludacris favorite car acura dress patterns maternity

Anónimo disse...

Very cool design! Useful information. Go on! Free blackjack trainers home based business Lasik time cataract surgery Detector distributor radar Inkjet cartridge lexmark electron Wildest amateur 03 Wet t-shirt contest srrests Telemarketing call center southmoor Home decoration interior design in saudi arabia northwest airlines visa manila Mls redding ca Domaine solitude Affiliates program at twin supply inc pmdd zoloft Extra firm chair cushions Answering services houston texas