Melhorias no processo de blocagem para resolução de entidades baseadas na relevância dos termos.
No Thumbnail Available
Date
2018
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
A extensa variedade de informações disponíveis na Web motivou o desenvolvimento de
aplicações que integram dados heterogêneos vindos de diferentes fontes. A integração de
dados tem como objetivo facilitar o acesso a informações fornecendo uma visão unificada
dos dados. Uma tarefa importante no processo de integração de dados é a Resolução
de Entidades, que visa identificar instâncias que se referem ao mesmo objeto do mundo
real. Uma simples tarefa de Resolução de Entidades pode ser realizada comparando cada
instância de uma coleção de dados com todas as outras, o que seria uma tarefa muito
custosa para grandes coleções de dados. Nesse contexto, técnicas de blocagem são utilizadas
para reduzir o número de comparações criando blocos que contêm as instâncias propensas
a corresponder à mesma entidade no mundo real, de modo que a tarefa de Resolução de
Entidades possa ser aplicada apenas a esses blocos. Técnicas de processamento de blocos
aumentam ainda mais a eficiência, descartando comparações ou mesmo blocos inteiros
que envolvam instâncias não correspondentes. Neste trabalho, é proposta uma forma de
escolher termos para serem usados na etapa de blocagem e na etapa de processamento de
blocos, baseado na relevância dos termos na coleção de dados, de modo a construir blocos
que possibilitem encontrar o maior número de instâncias correspondentes, minimizando
a quantidade de comparações desnecessárias. A proposta é avaliada comparando-a com
trabalhos relevantes disponíveis na literatura. Os resultados mostram que a proposta
reduz o tempo de processamento pela metade e melhora a qualidade dos blocos gerados,
escalando eficientemente grandes coleções de dados altamente heterogêneos.
Description
Programa de Pós-Graduação em Ciência da Computação. Departamento de Ciência da Computação, Instituto de Ciências Exatas e Biológicas, Universidade Federal de Ouro Preto.
Keywords
Processamento de dados, Integração de dados - computação
Citation
CALDEIRA, Laís Soares. Melhorias no processo de blocagem para resolução de entidades baseadas na relevância dos termos. 2018. 62 f. Dissertação (Mestrado em Ciência da Computação) - Instituto de Ciências Exatas e Biológicas, Universidade Federal de Ouro Preto, Ouro Preto, 2018.