Aplicação de Redes Bayesianas na Construção de Agentes Inteligentes para Mineração de Dados
VASCONCELOS, L. M. R.; CARVALHO, C. L.
Instituto de Informática
lrocha@inf.ufg.br - cedric@inf.ufg.br
Resumo: Atualmente, com a grande quantidade de informação contida na Web, não é garantido que as pesquisas, realizadas através dos tradicionais motores de busca, resultem no que é esperado pelo usuário. Isto se deve, principalmente, à forma em que a Web encontra-se organizada, sem estruturação dos dados. Paralelamente a estes problemas (falta de estruturação e heterogeneidade dos recursos), surge a necessidade de prover significado aos dados, com o intuito de facilitar a busca e recuperação de informações na Web. A Web Semântica é um conceito importante neste contexto, e será utilizada, juntamente com os conceitos de metadados (informações sobre os dados), agentes inteligentes, e mineração de dados, para permitir a construção de um sistema inteligente que facilitará nas buscas e retorno de conhecimento. Por fim, a mineração de dados, que faz uso da tarefa associação, é a responsável por encontrar relações e padrões entre os dados e retornar conhecimento através das regras de associação geradas.
Palavras-Chave: Mineração de Dados, Regras de Associação, Agentes Inteligentes
Introdução: Atualmente, a maior fonte de informação disponível é a Web. Porém, a imensa quantidade de informações ainda não é guardada de maneira eficiente, ou seja, a busca por materiais contidos na Internet é bastante precária. Isto se deve à estruturação do seu conteúdo, que está voltada preferencialmente para o nível de apresentação. Seguindo este contexto, é perceptível que a extração de conhecimento para o usuário é complicada, visto que a quantidade de dados cresce aliada à expansão da Web. Desta forma, as pesquisas não fornecem como resultado o que é realmente esperado pelo usuário. Paralelamente à necessidade de extração e recuperação de informações, surgem conceitos imprescindíveis na realização destas tarefas, tais como o de Web Semântica [4], agente inteligente, metadados e Recuperação de Informações. Com o intuito de aumentar a eficiência na busca, recuperação e intercâmbio de informações na WWW, a base do estudo é feita sobre os principais conceitos e tecnologias que abrangem o desenvolvimento e o uso de metadados, incluindo: XML, RDF, Ontologias, padrões de Metadados e o uso de Agentes Inteligentes. Após esta etapa, foram utilizados os conceitos que envolvem a Mineração de Dados, obtendo os resultados que finalizarão o processo.
Material e Métodos: A elaboração deste trabalho de pesquisa exigiu inicialmente a leitura de livros sobre Mineração de Dados e Banco de Dados, e material disponível na Internet, tais como artigos científicos, dissertações de mestrados, teses de doutorados e projetos de graduação, por exemplo [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14], com os quais foi possível um maior aprofundamento no tema. A etapa posterior foi o conhecimento acerca do problema e do algoritmo mais adequado para a resolução do mesmo. Por fim, foi necessário aprender a linguagem de programação Java para desenvolver o sistema de busca e recuperação de informações.
Resultados e Discussão: Durante o desenvolvimento do Projeto percebeu-se a necessidade de se realizar buscas otimizadas sobre informações expressas por metadados em um contexto mais restrito, através do acesso aos documentos eletrônicos do Instituto de Informática (INF), já que atualmente não há uma forma eficiente para obtenção dos mesmos. Para tanto, foi utilizado o agente Sistema de Busca de Documentos (INF) [1], cujo propósito é realizar buscas eficientes de documento da Biblioteca do Instituto de Informática da UFG, documentos como: relatórios técnicos, projetos finais de curso (PFCs), artigos, teses e etc. A ferramenta utilizada para minerar os dados obtidos na busca foi a Weka (Waikato Environment for Knowledge Analysis) [2]. Seguindo os requisitos exigidos, foi proposta a elaboração de uma ferramenta que colaborasse no sentido de facilitar a busca por padrões na mineração de dados, diminuindo a quantidade de passos que seriam efetuados. Para tanto, a ferramenta elaborada foi o Agente ARFF e a linguagem de programação utilizada na construção do mesmo foi JAVA [3], cujas características envolvem portabilidade, podendo rodar nas mais variadas plataformas.
Conclusões: A Internet é, sem dúvida, a maior e mais pesquisada fonte de informações atualmente. Porém, apesar de isto ser um fator benéfico, existem alguns problemas no que se diz respeito a este grande volume de dados. Os tradicionais motores de busca não atendem as necessidades completas dos usuários, de quem busca a informação. A questão que envolve a recuperação destas informações é um problema devido à forma em que os dados encontram-se armazenados, ou seja, a Web não se encontra estruturada e não possui significados. O presente projeto foi de fundamental relevância no estudo teórico e experimental de tecnologias relevantes no contexto de busca e recuperação de informações, e permitiu a implementação de um protótipo de software que, em conjunto com outros softwares pré-existentes, pode ser de grande utilidade para as atividades de busca e mineração de dados sobre os resultados da pesquisa. A manipulação dos dados é feita sobre um repositório de informações contidos em documentos eletrônicos do INF. Portanto, considerando todo o embasamento teórico contido no trabalho realizado, pode-se dizer que o sistema de busca, juntamente com a atividade de mineração de dados, pode ser utilizado para melhorar o processo de tomada de decisão por prover um melhor suporte a este.
Referências Bibliográficas: 1. PROVENSI, Mateus Ricardo. Recuperação de Informações Expressas por Metadados Através do Uso de Agentes Inteligentes. Projeto Final de Curso; Universidade Federal de Goiás; Instituto de Informática; Goiânia, 2003. 2. Weka.
http://www.cs.waikato.ac.nz/~ml/weka/ (acessado em abril de 2004). 3. The Source for Java Technology. 2003. (http://java.sun.com) (acessado em maio de 2004). 4. BERNERS-LEE, Tim e outros. Semantic Web Development Proposal. Disponível na Internet por www em: http://www.w3.org/2001/sw/, último acesso em janeiro de 2004.5. AGRAWAL R.; IMIELINSKI, T.; Swami, A. "Mining Association Rules between Sets of Items in Large Databases". In Proceedings, ACM SIGMOD Conference on Manegement of Data, Washington, D.C., 1993. 6. AZEVEDO, I. The Seven Ages of Information Retrieval: Semantic Web. Visitado em março de 2004. Disponível no site: www.e.up.pt/~mgi00009/mestrado/ari/sw-resumo.htm. 7. BAEZA-YATES, R.; RIBEIRO-NETO, B. Modern Information Retrieval . Addison Wesley, 1999. 8. SCHUNEIDER, L. F. "Mineração de Dados – Conceitos". Universidade Federal do Rio Grande do Sul, UFRS, Porto Alegre, 2002.10. GREENING, Dan R., Data Mining on the WEB. Web Techniques. San Francisco, v.5, p. 41-46, . Janeiro de 2000. 11. FAYYAD, Usama. "AI Magazine", 1996. 12. ALVES, Daniela Pereira. Recuperação de Informação na Internet com uso de Mineração de Dados sobre Metadados. Projeto Final de Curso; Universidade Federal de Goiás; Instituto de Informática; Goiânia, 2003. 13. VASCONCELOS, Lívia M. Rocha. Aplicação de Regras de Associação para Mineração de Dados na Web. Relatório Técnico; Universidade Federal de Goiás; Instituto de Informática; Goiânia, Fevereiro de 2003. 14. Brusso, Marcos José. Access Miner: Uma proposta para a extração de regras de associação aplicada à mineração do uso da Web. Porto Alegre: PPGC da UFRGS. Dissertação de mestrado, 2000. 95p.Fonte de Financiamento: CNPq