Melhorias no processo de blocagem para resolução de entidades baseadas na relevância dos termos.

dc.contributor.advisorFerreira, Anderson Almeidapt_BR
dc.contributor.authorCaldeira, Laís Soares
dc.contributor.refereeBianchi, Andrea Gomes Campospt_BR
dc.contributor.refereeBianco, Guilherme Dalpt_BR
dc.contributor.refereeFerreira, Anderson Almeidapt_BR
dc.date.accessioned2018-10-09T16:26:12Z
dc.date.available2018-10-09T16:26:12Z
dc.date.issued2018
dc.descriptionPrograma de Pós-Graduação em Ciência da Computação. Departamento de Ciência da Computação, Instituto de Ciências Exatas e Biológicas, Universidade Federal de Ouro Preto.pt_BR
dc.description.abstractA extensa variedade de informações disponíveis na Web motivou o desenvolvimento de aplicações que integram dados heterogêneos vindos de diferentes fontes. A integração de dados tem como objetivo facilitar o acesso a informações fornecendo uma visão unificada dos dados. Uma tarefa importante no processo de integração de dados é a Resolução de Entidades, que visa identificar instâncias que se referem ao mesmo objeto do mundo real. Uma simples tarefa de Resolução de Entidades pode ser realizada comparando cada instância de uma coleção de dados com todas as outras, o que seria uma tarefa muito custosa para grandes coleções de dados. Nesse contexto, técnicas de blocagem são utilizadas para reduzir o número de comparações criando blocos que contêm as instâncias propensas a corresponder à mesma entidade no mundo real, de modo que a tarefa de Resolução de Entidades possa ser aplicada apenas a esses blocos. Técnicas de processamento de blocos aumentam ainda mais a eficiência, descartando comparações ou mesmo blocos inteiros que envolvam instâncias não correspondentes. Neste trabalho, é proposta uma forma de escolher termos para serem usados na etapa de blocagem e na etapa de processamento de blocos, baseado na relevância dos termos na coleção de dados, de modo a construir blocos que possibilitem encontrar o maior número de instâncias correspondentes, minimizando a quantidade de comparações desnecessárias. A proposta é avaliada comparando-a com trabalhos relevantes disponíveis na literatura. Os resultados mostram que a proposta reduz o tempo de processamento pela metade e melhora a qualidade dos blocos gerados, escalando eficientemente grandes coleções de dados altamente heterogêneos.pt_BR
dc.description.abstractenThe extensive variety of information available on Web has motivated the development of applications that integrate heterogeneous data from different sources. Data integration aims to facilitate access to information providing a unified view of the data. An important task in the data integration process is Entity Resolution, which aims to identify instances that refer to the same real-world object. A simple Entity Resolution task may compare instances from a collection each other, which would be a very costly task for large collections. In this context, blocking techniques are used to reduce the number of comparisons by creating blocks of instances that are prone to correspond to the same entity in the real world, applying the Entity Resolution task only in these blocks. Block processing techniques further increase efficiency by discarding comparisons or even entire blocks involving nonmatching instances. In this work, we propose a way of choosing terms to be used in the blocking step and in the block processing step based on the relevance of the terms in the databases, in order to construct blocks that allow us finding the largest number of corresponding instances minimizing the amount of unnecessary comparisons. We assess our proposal comparing it against relevant works available in the literature. The results show that our proposal decrease the run time by half, increasing the efficiency and quality of the blocks generated, efficiently scaling large databases highly heterogeneous.pt_BR
dc.identifier.citationCALDEIRA, Laís Soares. Melhorias no processo de blocagem para resolução de entidades baseadas na relevância dos termos. 2018. 62 f. Dissertação (Mestrado em Ciência da Computação) - Instituto de Ciências Exatas e Biológicas, Universidade Federal de Ouro Preto, Ouro Preto, 2018.pt_BR
dc.identifier.urihttp://www.repositorio.ufop.br/handle/123456789/10336
dc.language.isopt_BRpt_BR
dc.rightsabertopt_BR
dc.rights.licenseAutorização concedida ao Repositório Institucional da UFOP pelo(a) autor(a) em 04/10/2018 com as seguintes condições: disponível sob Licença Creative Commons 4.0 que permite copiar, distribuir e transmitir o trabalho desde que sejam citados o autor e o licenciante. Não permite o uso para fins comerciais nem a adaptação.pt_BR
dc.subjectProcessamento de dadospt_BR
dc.subjectIntegração de dados - computaçãopt_BR
dc.titleMelhorias no processo de blocagem para resolução de entidades baseadas na relevância dos termos.pt_BR
dc.typeDissertacaopt_BR
Files
Original bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
DISSERTAÇÃO_MelhoriasProcessoBlocagem.pdf
Size:
2.24 MB
Format:
Adobe Portable Document Format
License bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
924 B
Format:
Item-specific license agreed upon to submission
Description: