Dynamic topic herarchies and segmented rankings in textual OLAP technology.

dc.contributor.advisorLima, Joubert de Castropt_BR
dc.contributor.authorSouza, Adriano Neves de Paula e
dc.contributor.refereeLima, Joubert de Castropt_BR
dc.contributor.refereeFortes, Reinaldo Silvapt_BR
dc.contributor.refereeCiferri, Ricardo Rodriguespt_BR
dc.contributor.refereeSilva, Rodrigo Rochapt_BR
dc.date.accessioned2017-12-21T11:35:21Z
dc.date.available2017-12-21T11:35:21Z
dc.date.issued2017
dc.descriptionPrograma de Pós-Graduação em Ciência da Computação. Departamento de Ciência da Computação, Instituto de Ciências Exatas e Biológicas, Universidade Federal de Ouro Preto.pt_BR
dc.description.abstractA tecnologia OLAP tem se consolidado há 20 anos e recentemente foi redesenhada para que suas dimensões, hierarquias e medidas possam suportar as particularidades dos dados textuais. A tarefa de organizar dados textuais de forma hierárquica pode ser resolvida com a construção de hierarquias de tópicos. Atualmente, a hierarquia de tópicos é definida apenas uma vez no cubo de dados, ou seja, para todo o \textit{lattice} de cuboides. No entanto, tal hierarquia é sensível ao conteúdo da coleção de documentos, portanto em um mesmo cubo de dados podem existir células com conteúdos completamente diferentes, agregando coleções de documentos distintas, provocando potenciais alterações na hierarquia de tópicos. Além disso, o segmento de texto utilizado na análise OLAP também influencia diretamente nos tópicos elencados por tal hierarquia. Neste trabalho, apresentamos um cubo de dados textual com múltiplas e dinâmicas hierarquias de tópicos. Múltiplas por serem construídas a partir de diferentes segmentos de texto e dinâmicas por serem construídas para cada célula do cubo. Outra contribuição deste trabalho refere-se à resposta das consultas multidimensionais. O estado da arte normalmente retorna os top-k documentos mais relevantes para um determinado tópico. Vamos além disso, retornando outros segmentos de texto, como os títulos mais significativos, resumos e parágrafos. A abordagem é projetada em quatro etapas adicionais, onde cada passo atenua um pouco mais o impacto da construção de várias hierarquias de tópicos e rankings de segmentos por célula de cubo. Experimentos que utilizam parte dos documentos da DBLP como uma coleção de documentos reforçam nossas hipóteses.pt_BR
dc.description.abstractenThe OLAP technology emerged 20 years ago and recently has been redesigned so that its dimensions, hierarchies and measures can support the particularities of textual data. Organizing textual data hierarchically can be solved with topic hierarchies. Currently, the topic hierarchy is de ned only once in the data cube, e.g., forthe entire lattice of cubo ids. However, such hierarchy is sensitive to the document collection content. Thus, a data cube cell can contain a collection of documents distinct fromothers in the same cube, causing potential changes in the topic hierarchy. Further more, the text segment used in OLAP analysis also changes this hierarchy. In this work, we present a textual data cube with multiple dynamic topic hierarchies for each cube cell. Multiple hierarchies, since the presented approach builds a topic hierarchy per text segment. Another contribution of this work refers to query response. The state-of-the-art normally returns the top-k documents to the topic selected in the query. We go beyond by returning other text segments, such as the most signi cant titles, abstracts and paragraphs. The approach is designed in four complementary steps and each step attenuates a bit more the impact of building multiple to pic hierarchies and segmented rankings per cube cell. Experiments using part of the DBLP papers as a document collection reinforce our hypotheses.pt_BR
dc.identifier.citationSOUZA, Adriano Neves de Paula e. Dynamic topic herarchies and segmented rankings in textual OLAP technology. 2017. 82 f. Dissertação (Mestrado em Ciência da Computação) - Instituto de Ciências Exatas e Biológicas, Universidade Federal de Ouro Preto, Ouro Preto, 2017.pt_BR
dc.identifier.urihttp://www.repositorio.ufop.br/handle/123456789/9236
dc.language.isopt_BRpt_BR
dc.rightsabertopt_BR
dc.rights.licenseAutorização concedida ao Repositório Institucional da UFOP pelo(a) autor(a) em 01/12/2017 com as seguintes condições: disponível sob Licença Creative Commons 4.0 que permite copiar, distribuir e transmitir o trabalho desde que sejam citados o autor e o licenciante. Não permite o uso para fins comerciais nem a adaptação.pt_BR
dc.subjectAdministração de dadospt_BR
dc.subjectDados textuaispt_BR
dc.subjectClassificaçãopt_BR
dc.subjectCubo de dadospt_BR
dc.titleDynamic topic herarchies and segmented rankings in textual OLAP technology.pt_BR
dc.typeDissertacaopt_BR
Files
Original bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
DISSERTAÇÃO_DynamicTopicHierarchies.pdf
Size:
3.04 MB
Format:
Adobe Portable Document Format
License bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
924 B
Format:
Item-specific license agreed upon to submission
Description: