Melhorias no processo de blocagem para resolução de entidades baseadas na relevância dos termos.

No Thumbnail Available
Date
2018
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
A extensa variedade de informações disponíveis na Web motivou o desenvolvimento de aplicações que integram dados heterogêneos vindos de diferentes fontes. A integração de dados tem como objetivo facilitar o acesso a informações fornecendo uma visão unificada dos dados. Uma tarefa importante no processo de integração de dados é a Resolução de Entidades, que visa identificar instâncias que se referem ao mesmo objeto do mundo real. Uma simples tarefa de Resolução de Entidades pode ser realizada comparando cada instância de uma coleção de dados com todas as outras, o que seria uma tarefa muito custosa para grandes coleções de dados. Nesse contexto, técnicas de blocagem são utilizadas para reduzir o número de comparações criando blocos que contêm as instâncias propensas a corresponder à mesma entidade no mundo real, de modo que a tarefa de Resolução de Entidades possa ser aplicada apenas a esses blocos. Técnicas de processamento de blocos aumentam ainda mais a eficiência, descartando comparações ou mesmo blocos inteiros que envolvam instâncias não correspondentes. Neste trabalho, é proposta uma forma de escolher termos para serem usados na etapa de blocagem e na etapa de processamento de blocos, baseado na relevância dos termos na coleção de dados, de modo a construir blocos que possibilitem encontrar o maior número de instâncias correspondentes, minimizando a quantidade de comparações desnecessárias. A proposta é avaliada comparando-a com trabalhos relevantes disponíveis na literatura. Os resultados mostram que a proposta reduz o tempo de processamento pela metade e melhora a qualidade dos blocos gerados, escalando eficientemente grandes coleções de dados altamente heterogêneos.
Description
Programa de Pós-Graduação em Ciência da Computação. Departamento de Ciência da Computação, Instituto de Ciências Exatas e Biológicas, Universidade Federal de Ouro Preto.
Keywords
Processamento de dados, Integração de dados - computação
Citation
CALDEIRA, Laís Soares. Melhorias no processo de blocagem para resolução de entidades baseadas na relevância dos termos. 2018. 62 f. Dissertação (Mestrado em Ciência da Computação) - Instituto de Ciências Exatas e Biológicas, Universidade Federal de Ouro Preto, Ouro Preto, 2018.