Personal tools
You are here: Home Wiki DefiniçãoDoProblema
« July 2009 »
Su Mo Tu We Th Fr Sa
1234
567891011
12131415161718
19202122232425
262728293031
 
Views

Mensagens eletrônicas não-solicitadas, muitas vezes (mas nem sempre) de cunho comercial, tornaram-se tão comuns nos últmos anos que mesmo pessoam com fluxo baixo de e-mails as recebem com alguma freqüência. Usuários mais antigos de e-mail, ou que tenham seus endereços eletrônicos divulgados na Internet (em históricos de listas de discussão ou sites de petições, por exemplo) chegam mesmo a receber uma quantidade de spam (como este tipo de mensagem é popularmente conhecido) ordens de magnitude maior do que a quantidade de e-mails legítimos. O problema hoje é sério não só por irritar os usuários, mas porque, em muitos casos, a quantidade de spam em relação à de mensagens legítimas é tão grande que é virtualmente impossível classificar manualmente o que é útil e o que é descartável. Além disso, a quantidade de dados relativos a mensagens indesejadas passando por servidores no mundo todo já é considerável, ou seja, há um imenso desperdício de recursos computacionais. Em muitos casos, ainda, os spams são de natureza maliciosa, pretendendo induzir o leitor da mensagem, por exemplo, ao download de algum programa malicioso ou a fornecer dados pessoais.

Desde que ficou claro que combate a spam era uma preocupação cabível e necessária, tenta-se desenvolver mecanismos de combate a esta prática, de modo a se preservar o e-mail como uma ferramenta útil e pervasiva. O método mais comum é a implementação de filtros, softwares responsáveis por classificar mensagens em spam ou *não-spam (algumas vezes utiliza-se o termo ham*), rodando tanto em servidores de e-mail quanto nas máquinas locais dos destinatários finais.

Filtros, por suas vezes, empregavam (e empregam) as mais diversas técnicas de classificação. Os primeiros filtros eram pouco mais que buscas por ocorrências de palavras (ou seqüências de palavras) como compre agora ou (em mensagens mais recentes) viagra. Outra técnica comum eram as blacklists, listas com endereços de servidores e domínios de que se recusavam mensagens, por serem origem freqüente de spam. Estes métodos e outros, no entanto, sofriam de imobilidade, pois atacavam características muito específicas dos spams, que rapidamente evoluíam para contornar os filtros existentes. Os filtros mais eficientes da época (como o spamassassin) simplesmente empregavam combinações destas técnicas, mas eram lentos e, ainda assim, a eficiência de sua classificação deixava a desejar.

Em Agosto de 2002, Paul Graham publicou em seu site um artigo chamado A Plan For Spam, em que defendia uma abordagem estatística para o problema, e sugeriu uma implementação simples de filtro bayesiano. O software seria treinado com mensagens previamente coletadas, armazenaria (em termos gerais) números de ocorrências de palavras em spam e ham, e, a partir disto, calcularia a probabilidade de uma determinada mensagem ser ou não spam. No caso de uma classificação errada, bastaria retreinar o filtro, incluindo a mensagem em questão, e o filtro gradualmente aprenderia que palavras seriam mais relevantes na classificação.

Rapidamente surgiram várias implementações de filtros bayesianos, com diferentes graus de desempenho. Mas, de modo geral, a qualidade da classificação melhorou significativamente, e filtros bayesianos estão atualmente entre os mais eficientes. Os spams, por outro lado, também evoluíram, tentando de diversas maneiras perder os padrões que os tornam detectáveis.

A qualidade geral de classificadores de spam, hoje em dia, é sensivelmente superior à de poucos anos atrás, mas, dada a crescente quantidade e sofisticação dos spams, ainda há muito espaço para melhoria. No primeiro parágrafo de seu artigo, Paul Graham pergunta *Quanto será que precisamos fazer, sem recorrer a Inteligência Artificial, para automatizar [o processo de classificar spam]?* O presente projeto, tendo em vista a limitação atingida por filtros bayesianos e o renovado interesse, dada a popularidade da WWW, de classificadores de texto utilizando Aprendizado Computacional, pretende, justamente, recorrer à Inteligência Artificial.



Powered by Plone CMS, the Open Source Content Management System

This site conforms to the following standards: