s-WIM : a scalable web information mining tool.
No Thumbnail Available
Date
2012
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
Mineração Web pode ser vista como o processo de encontrar padrões na Web por meio de
técnicas de mineração de dados. Mineração Web é uma tarefa computacionalmente intensiva, e a maioria dos softwares de mineração são desenvolvidos isoladamente, o que torna
escalabilidade e reusabilidade difı́cil para outras tarefas de mineração. Mineração Web é
um processo iterativo onde prototipagem tem um papel essencial para experimentar com
diferentes alternativas, bem como para incorporar o conhecimento adquirido em iterações
anteriores do processo.
Web Information Mining (WIM) constitui um modelo para prototipagem rápida em
mineração Web. A principal motivação para o desenvolvimento do WIM foi o fato de que
seu modelo conceitual provê seus usuários com um nı́vel de abstração apropriado para
prototipagem e experimentação durante a tarefa de mineração.
WIM é composto de um modelo de dados e de uma álgebra. O modelo de dados WIM é
uma visão relacional dos dados Web. Os três tipos de dados existentes na Web, chamados
de conteúdo, de estrutura e dados de uso, são representados por relações. Os principais
componentes de entrada do modelo de dados WIM são as páginas Web, a estrutura de hiper-
links que interliga as páginas Web, e os históricos (logs) de consultas obtidos de máquinas
de busca da Web. A programação WIM é baseada em fluxos de dados (dataflows), onde
sequências de operações são aplicadas às relações. As operações são definidas pela álgebra
WIM, que contém operadores para manipulação de dados e para mineração de dados. WIM
materializa uma linguagem de programação declarativa provida por sua álgebra.
O objetivo do presente trabalho é o desenho de software e o desenvolvimento do Scalable
Web Information Mining (s-WIM), a partir do modelo de dados e da álgebra apresentados pelo WIM. Para dotar os operadores com a escalabilidade desejada – e consequentemente os programas gerados por eles – o s-WIM foi desenvolvido sobre as plataformas
Apache Hadoop e Apache HBase, que provêem escalabilidade linear tanto no armazenamento quanto no processamento de dados, a partir da adição de hardware.
A principal motivação para o desenvolvimento do s-WIM é a falta de ferramentas livres
que ofereçam tanto o nı́vel de abstração provido pela álgebra WIM quanto a escalabilidade
necessária à operação sobre grandes bases de dados. Além disso, o nı́vel de abstração
provido pela álgebra do WIM permite que usuários sem conhecimentos avançados em
linguagens de programação como Java ou C++ também possam utilizá-lo.
O desenho e a arquitetura do s-WIM sobre o Hadoop e o HBase são apresentados
nesse trabalho, bem como detalhes de implementação dos operadores mais complexos. São
também apresentados diversos experimentos e seus resultados, que comprovam a escalabilidade do s-WIM e consequentemente, seu suporte à mineração de grandes volumes de
dados.
Description
Programa de Pós-Graduação em Ciência da Computação. Departamento de Ciência da Computação, Instituto de Ciências Exatas e Biológicas, Universidade Federal de Ouro Preto.
Keywords
Mineração de dados - computação, Recuperação da informação, Aprendizado de máquina, Banco de dados - big data
Citation
MELO, Felipe Santiago Martins Coimbra de. s-WIM: a scalable web information mining tool. 2012. 96 f. Dissertação (Mestrado em Ciência da Computação) - Instituto de Ciências Exatas e Biológicas, Universidade Federal de Ouro Preto, Ouro Preto, 2017.