Browsing by Author "Ferreira, Anderson Almeida"
Now showing 1 - 20 of 35
Results Per Page
Sort Options
Item Uma abordagem para estimar a similaridade item-item baseada nos relacionamentos semânticos da Linked Open Data.(2019) Pereira, Ítalo Magno; Ferreira, Anderson Almeida; Ferreira, Anderson Almeida; Pereira Junior, Álvaro Rodrigues; Rodrigues, Lívia Couto RubackA época atual está sendo vista como uma era de sobrecarga de informação, uma vez que mais dados são produzidos do que humanos podem processar. Este fato implica na melhoria constante de sistemas de recuperação e tratamento de informação. Inserido neste contexto, os sistemas de recomendação são ferramentas importantes aos usuários, por sugerir itens que possam ser interessantes. No entanto, os sistemas de recomendação baseados em filtragem colaborativa sofrem com o problema conhecido como cold start ou falta de dados iniciais. A opção para contornar esse problema é explorar outras fontes de dados, como a Linked Open Data (LOD), para enriquecer os dados. Contudo, muitas soluções baseadas na LOD não fazem uso dos relacionamentos semânticos e, quando o fazem, não ponderam corretamente seus relacionamentos e, assim, não exploram o seu potencial. Este trabalho visa apresentar uma abordagem para explorar os relacionamentos semânticos da Linked Open Data, por meio da descoberta de características relevantes e ponderação de tais características sem intervenção de um especialista de domínio de aplicação. Para avaliar a proposta, foram realizados experimentos em dois domínios de aplicação, domínio de filmes e museus. Os resultados mostraram-se competitivos comparados a outras abordagens, onde a seleção de propriedades relevantes é feita manualmente.Item Aquisição de imagens digitais e identificação dos ovos do mosquito Aedes Aegypti baseado em um modelo de aprendizado profundo.(2019) Garcia, Pedro Saint Clair; Cámara Chávez, Guillermo; Cámara Chávez, Guillermo; Ferreira, Anderson Almeida; Bianchi, Andrea Gomes Campos; Saúde, André VitalO mosquito Aedes aegypti pode transmitir algumas doenças, o que faz o estudo da proliferação deste vetor uma tarefa necessária. Com o uso de armadilhas feitas em laboratório, denominadas ovitrampas, é possível mapear a deposição de ovos numa determinada comunidade. Uma máquina fotográfica acoplada a uma lupa foi utilizada para adquirir imagens contendo os elementos (ovos) a serem contados. Essas imagens foram processadas a partir de um sistema de cores com o objetivo de encontrar a cor negra, que corresponde `a cor dos ovos. A partir dessas imagens já trabalhadas, foi realizado um processo de transferência de aprendizado com uma rede neural convolucional (CNN). A intenção era separar os elementos que realmente eram ovos dos demais. Por meio desse método, foi possível identificar cada ovo como um simples objeto. Em 90% das imagens testadas a contagem realizada pelo modelo em relação ao número real de ovos foi considerada de correlação perfeita. Para as demais 10% das imagens de teste, a contagem foi considerada de forte correlação, isso aconteceu em imagens que continham uma alta densidade de ovos ou que continham elementos negros que se pareciam com ovos do mosquito.Item Um arcabouço de processamento de textos informais em português brasileiro para aplicações de mineração de dados.(2016) Stiilpen Júnior, Milton; Merschmann, Luiz Henrique de Campos; Merschmann, Luiz Henrique de Campos; Ferreira, Anderson Almeida; Souza, Fabrício Benevenuto deRedes Sociais online (RSO) surgiram no início do século XXI e dão indícios de que terão vida longa. Cerca de 64% dos usuários de mídias sociais dizem acessar ao menos uma rede social todos os dias. Desse modo, é imensa a quantidade de dados gerados por esses canais de comunicação. O Processamento de Linguagem Natural em textos de redes sociais é um tema de pesquisa recente que vem atraindo um número cada vez maior de pesquisadores. Portanto, neste trabalho, é proposta um arcabouço capaz de lidar com a diversidade do português brasileiro, com o informalismo, com a natureza de tempo real e com a falta de contextualização de textos publicados em redes sociais. O arcabouço proposto foi avaliado em duas tarefas (Categorização de Texto e Mineração de Opinião) e os resultados experimentais mostraram que os mecanismos de pré-processamento existentes no arcabouço foram importantes para obtenção de bons resultados.Item A brief survey of automatic methods for author name disambiguation.(2012) Ferreira, Anderson Almeida; Gonçalves, Marcos André; Laender, Alberto Henrique FradeName ambiguity in the context of bibliographic citation records is a hard problem that affects the quality of services and content in digital libraries and similar systems. The challenges of dealing with author name ambiguity have led to a myriad of disambiguation methods. Generally speaking, the proposed methods usually attempt to group citation records of a same author by finding some similarity among them or try to directly assign them to their respective authors. Both approaches may either exploit supervised or unsupervised techniques. In this article, we propose a taxonomy for characterizing the current author name disambiguation methods described in the literature, present a brief survey of the most representative ones and discuss several open challenges.Item Cost-effective on-demand associative author name disambiguation.(2012) Veloso, Adriano Alonso; Ferreira, Anderson Almeida; Gonçalves, Marcos André; Laender, Alberto Henrique Frade; Meira Júnior, WagnerAuthorship disambiguation is an urgent issue that affects the quality of digital library ser-vices and for which supervised solutions have been proposed, delivering state-of-the-art effectiveness. However, particular challenges such as the prohibitive cost of labeling vast amounts of examples (there are many ambiguous authors), the huge hypothesis space (there are several features and authors from which many different disambiguation func-tions may be derived), and the skewed author popularity distribution (few authors are very prolific, while most appear in only few citations), may prevent the full potential of such techniques. In this article, we introduce an associative author name disambiguation approach that identifies authorship by extracting, from training examples, rules associating citation features (e.g., coauthor names, work title, publication venue) to specific authors. As our main contribution we propose three associative author name disambiguators: (1) EAND (Eager Associative Name Disambiguation), our basic method that explores associa-tion rules for name disambiguation; (2) LAND (Lazy Associative Name Disambiguation), that extracts rules on a demand-driven basis at disambiguation time, reducing the hypoth-esis space by focusing on examples that are most suitable for the task; and (3) SLAND (Self-Training LAND), that extends LAND with self-training capabilities, thus drastically reducing the amount of examples required for building effective disambiguation functions, besides being able to detect novel/unseen authors in the test set. Experiments demonstrate that all our disambigutators are effective and that, in particular, SLAND is able to outperform state-of-the-art supervised disambiguators, providing gains that range from 12% to more than 400%, being extremely effective and practical.Item DERIN : a data extraction method based on rendering information and n-gram.(2017) Figueiredo, Leandro Neiva Lopes; Assis, Guilherme Tavares de; Ferreira, Anderson AlmeidaExtracting data from web pages is an important task for several applications such as com- parison shopping and data mining. Ordinarily, the data in web pages represent records from a database and are obtained using a web search. One of the most important steps for extracting records from a web page is identifying out of the different data regions, the one containing the records to be extracted. An incorrect identification of this region may lead to an extraction of incorrect records. This process is followed by the equally important step of detecting and correctly splitting the necessary records and their attributes from the main data region. In this study, we propose a method for data extraction based on render- ing information and an n-gram model (DERIN) that aims to improve wrapper performance by automatically selecting the main data region from a search results page and extracting its records and attributes based on rendering information. The proposed DERIN method can detect different record structures using techniques based on an n-gram model. More- over, DERIN does not require examples to learn how to extract the data, performs a given domain independently and can detect records that are not children of the same parent el- ement in the DOM tree. Experimental results using web pages from several domains show that DERIN is highly effective and performs well when compared with other methods.Item Desenvolvimento de dispositivos vestíveis de realidade aumentada de baixocusto para indústria 4.0.(2018) D’Angelo, Thiago; Oliveira, Ricardo Augusto Rabelo; Oliveira, Ricardo Augusto Rabelo; Bianchi, Andrea Gomes Campos; Silva, Jorge Sá; Kelner, Judith; Ferreira, Anderson AlmeidaCom a 4ª Revolução Industrial, as indústrias geram cada vez mais dados que precisam ser processados, visualizados e interpretados de forma rápida e eficiente para aprimorar o processo de tomada de decisões. Nesse cenário, dispositivos vestíveis de realidade aumentada (RA) e realidade virtual (RV) se apresentam como interfaces intuitivas e eficazes para visualização das informações e podem contribuir para o aprimoramento do processo de tomada de decisões em todos os níveis da indústria. Os Head-Mounted Displays (HMDs) são os principais dispositivos vestíveis utilizados em aplicações de RA e RV. Essas tecnologias são consideradas bastante promissoras e tendem a representar um grande mercado num futuro próximo. Elas podem ser aproveitadas tanto para as tarefas relacionadas ao ambiente de trabalho, como para muitas outras atividades diárias, incluindo entretenimento, Diversos HMDs, capazes de fornecer RV e Ra para os usuários, começaram a surgir nos últimos anos. Apesar disso, dois grandes problemas estão dificultando a adoção desses dispositivos em larga escala: os custos extremamente altos (variando de US$ 700 a US$ 5000) e os problemas de experiência de usuário (por exemplo: o conflito entre vergência e acomodação, o campo de visão reduzido, a alta latência na renderização das imagens virtuais e a dificuldade de calibração dos HMDs). Sendo assim, a análise de alternativas de desenvolvimento que impliquem numa redução significativa do custo de construção dos HMDs, sem uma grande deterioração da experiência do usuário, é um importante passo rumo a adoção em larga escala desses dispositivos, facilitando a aplicação industrial e aprimorando a tomada de decisão em todos níveis da indústria. Dessa forma, com intuito de explorar essas questões e de minimizar esses problemas, é proposto, neste trabalho, o desenvolvimento e a avaliação de três protótipos de HMDs de RA construídos com materiais de baixo-custo. O primeiro protótipo contém diversos sensores para coleta de dados sobre o ambiente no qual o usuário está inserido e é capaz de apresentar essas informações através de um display de RA. O segundo protótipo desenvolvido é capaz de executar algoritmos de Gaze Tracking com objetivo de melhorar a interação e a experiência do usuário durante sua utilização. O terceiro protótipo foi desenvolvido através de uma abordagem mais simples e com foco na melhora da usabilidade. Isso possibilitou a realização de experiência de usuário que comprovou a boa relação de custo x benefício desse dispositivo. Dois algoritmos de processamento de imagens e reconhecimento de padrões, relacionados a algumas aplicações de HMDs, foram implementados e avaliados, quanto ao desempenho em tempo real, em diversas plataformas de hardware. Além disso, o uso dos três protótipos é avaliado em um estudo de caso que contempla a aplicação de realidade aumentada vestível na teleinspeção dos transportadores de correia da indústria de mineração.Item Desenvolvimento de uma abordagem para reconhecimento contínuo da Língua Brasileira de Sinais utilizando imagens dinâmicas e técnicas de aprendizagem profunda.(2020) Escobedo Cárdenas, Edwin Jonathan; Cámara Chávez, Guillermo; Cámara Chávez, Guillermo; Ferreira, Anderson Almeida; Gomes, David Menotti; Luz, Eduardo José da Silva; Schwartz, William RobsonDurante os últimos anos, têm sido desenvolvidas diversas abordagens para o reconhecimento contínuo de línguas de sinais para melhorar a qualidade de vida das pessoas surdas e diminuir a barreira de comunicação entre elas e a sociedade. Analogamente, a incorporação do dispositivo Microsoft Kinect gerou uma revolução na área de visão computacional, fornecendo novas informações multimodais (dados RGB-D e do esqueleto) que podem ser utilizadas para gerar ou aprender novos descritores robustos e melhorar as taxas de reconhecimento em diversos problemas. Assim, nessa pesquisa de doutorado, apresenta-se uma metodologia para o reconhecimento de sinais contínuos da Língua Brasileira de Sinais (LIBRAS) utilizando como dados de entrada de um sinal as informações fornecidas pelo dispositivo Kinect. Diferentemente dos outros trabalhos na literatura, que utilizam arquiteturas de redes mais complexas (como as 3DCNN e BLSTM), o método proposto utiliza janelas deslizantes para procurar segmentos candidatos de serem sinais dentro de um fluxo continuo de video. Do mesmo modo, propõe-se o uso de imagens dinâmicas para codificar as informações espaço-temporais fornecidas pelo Kinect. Assim, pode-se reduzir a complexidade da arquitetura CNN proposta para o reconhecimento dos sinais. Finalmente, baseado no conceito de pares mínimos, um novo banco de dados da Língua Brasileira de Sinais chamado LIBRAS-UFOP é proposto. A base LIBRAS-UFOP possui tanto sinais isolados (56 classes de sinais) como sinais contínuos (37 classes); nós avaliamos nosso método usando essa base e o comparamos com os métodos propostos na literatura. Os resultados experimentais nos datasets LIBRAS-UFOP e LSA64 demostraram a validade do método proposto baseado em imagens dinâmicas como uma alternativa para o reconhecimento de língua de sinais.Item Detecção de comunidades de interesse em microblogs por meio de modelagem de tópicos.(2016) Neves, Brayan Vilela Alves; Ferreira, Anderson Almeida; Ferreira, Anderson Almeida; Merschmann, Luiz Henrique de Campos; Rocha, Leonardo Chaves Dutra; Ferreira, Anderson AlmeidaAtualmente, redes sociais se tornaram grandes fontes de estudos, pois, com elas, é possível encontrar uma gama de informação relacionada a gostos, interesses, desejos e opiniões de seus usuários. O agrupamento desses usuários em comunidades de interesses é uma importante tarefa, quando se deseja estudar a forma de pensar de grupos de pessoas com um mesmo interesse em relação a um assunto. Neste trabalho, é proposto o MDCoI (Método de Detecção de Comunidades de Interesses), um método não supervisionado baseado em modelagem de tópicos para fazer o agrupamento de usuários de microblogs em comunidades de interesses, a partir somente dos textos publicados pelos usuários. O MDCoI opera em 4 passos. O primeiro passo é responsável pela coleta dos dados (publicações) a serem processados. O segundo passo é responsável pelo pré-processamento das publicações. O terceiro passo usa modelagem de tópicos para agrupar publicações com distribuição de tópicos semelhantes. E, o quarto passo é responsável por agrupar usuários com interesses em comum, usando os grupos de publicações do passo anterior. O terceiro passo do MDCoI é comparado ao vencedor do desafio do RepLab2014, com ganhos significativos para o MDCoI, e, para o quarto passo, é feita uma avaliação qualitativa de seu resultado, onde verificou-se consistente com o objetivo do trabalho. O resultado do MDCoI facilita o trabalho do analista de redes, visto que este necessita apenas identificar o assunto/interesse de cada comunidade produzida.Item Estimando similaridade entre entidades quando apenas seus nomes estão disponíveis.(2018) Sousa, Priscila Sad de; Ferreira, Anderson Almeida; Assis, Guilherme Tavares de; Pereira, Denilson Alves; Ferreira, Anderson AlmeidaA similaridade pode refletir a relação ou significado entre dois conceitos ou entidades, por exemplo. Uma entidade pode ser algo físico ou lógico, podendo ser descrita em função de atributos cujos valores informam as características específicas da entidade, diferenciando-nas uma das outras, como por exemplo a entidade artigo científico e alguns de seus atributos, nome, palavras-chaves, resumo. Estimar a similaridade entre entidades desempenha um papel importante em várias tarefas, como, por exemplo, expansão de consultas, desambiguação e recomendação de entidades. Identificar a similaridade entre entidades por meio dos nomes, como entre títulos de artigos científicos, pode não ser viável a partir, apenas, da comparação direta ou usando abordagens de similaridade baseadas em conhecimento. A Web, por outro lado, traz uma grande variedade de dados sobre diversos assuntos e é de livre acesso, sendo uma fonte de dados viável para auxiliar na verificação de similaridade entre um par de nomes de entidades em diversos domínios. Neste trabalho, é proposto um método para calcular a similaridade entre dois nomes de entidades, baseado na comparação direta e nas características inferidas a partir de dados obtidos da Web com modelagem de tópicos e com o auxílio de termos de gênero. Os experimentos mostram que o método é capaz de verificar a similaridade entre nomes de entidades, mesmo entre aqueles que compartilham poucos ou mesmo nenhum termo, superando o método utilizado como baseline.Item Estratégias para redução da fragmentação em métodos incrementais para desambiguação de nomes de autores.(2014) Espiridião, Luciano Vilas Boas; Ferreira, Anderson AlmeidaAmbiguidade de nomes de autores é um grande problema enfrentado pela comunidade científica. Este problema ocorre quando vários autores publicam artigos usando nomes similares, ou quando um mesmo autor publica seus artigos com variações do seu nome. Tradicionalmente, existem métodos de desambiguação automáticos que são aplicadas a todos os registros de citação que estão no repositório de uma biblioteca digital. Mas existem métodos incrementais, que apenas desambiguam os nomes dos autores durante a inserção de um registro de citação no repositório. Estes métodos foram propostos com o objetivo de se obter uma maior eficiência.Porém, como efeito colateral, vários registros de um mesmo autor podem ser considerados como pertencentes a diferentes autores, causando o que é chamado fragmentação. Neste trabalho, é realizado um estudo para comparar várias estratégias visando reduzir a fragmentação dos registros sem comprometer a pureza, ou seja, mantendo os grupos de registros atribuídos a um autor com registros somente de um autor.As estratégias avaliadas foram baseadas em técnicas capazes de isolar os registros de citação possivelmente atribuídos incorretamente durante o processo de desambiguação.A avaliação experimental mostra que algumas estratégias conseguiram produzir melhorias significativas em relação a uma abordagem incremental e mostraram-se muito competitivas em relação a alguns métodos tradicionais.Item Exploring deep learning representations for biometric multimodal systems.(2019) Luz, Eduardo José da Silva; Gomes, David Menotti; Moreira, Gladston Juliano Prates; Ferreira, Anderson Almeida; Moreira, Gladston Juliano Prates; Gomes, David Menotti; Cavalin, Paulo; Cámara Chávez, Guillermo; Santos, Thiago Oliveira dosBiometrics is an important area of research today. A complete biometric system comprises sensors, feature extraction, pattern matching algorithms, and decision making. Biometric systems demand high accuracy and robustness, and researchers are using a combination of several biometric sources, two or more algorithms for pattern matching and di↵erent decision-making systems. These systems are called multimodal biometric systems and today represent state-of-the-art for biometrics. However, the process of extracting features in multimodal biometric systems poses a major challenge today. Deep learning has been used by researchers in the machine learning field to automatize the feature extraction process and several advances were achieved, such as the case of face recognition problem. However, deep learning based methods require a large amount of data and with the exception of facial recognition, there are no databases large enough for the other biometric modalities, hindering the application of deep learning in multimodal methods. In this thesis, we propose a set of contributions to favor the use of deep learning in multimodal biometric systems. First of all, we explore data augmentation and transfer learning techniques for training deep convolution networks, in restricted biometric databases in terms of labeled images. Second, we propose a simple protocol, aiming at reproducibility, for the creation and evaluation of multimodal (or synthetic) multimodal databases. This protocol allows the investigation of multiple biometric modalities combination, even for less common and novel modalities. Finally, we investigate the impact of merging multimodal biometric systems in which all modalities are represented by means of deep descriptors. In this work, we show that it is possible to bring the expressive gains already obtained with the face modality, to other four biometric modalities, by exploring deep learning techniques. We also show that the fusion of modalities is a promising path, even when they are represented by means of deep learning. We advance state-of-the-art for important databases in the literature, such as FRGC (periocular region), NICE / UBIRIS.V2 (periocular region and iris), MobBio (periocular region and face), CYBHi (o↵-the-person ECG), UofTDB (o↵-the-person ECG) and Physionet (EEG signal). Our best multimodal approach, on the chimeric database, resulted in the impressive decidability of 9.15±0.16 and a perfect recognition in (i.e., EER of 0.00%±0.00) for the intra-session multimodal scenario. For inter-session scenario, we reported decidability of 7.91±0.19 and an EER of 0.03%±0.03, which represents a gain of more than 22% for the best inter-session unimodal case.Item Extração e análise de características da linguagem para identificação de evidências da patologia dislexia.(2018) Ribeiro, Fernanda Maria; Bianchi, Andrea Gomes Campos; Pereira Junior, Álvaro Rodrigues; Bianchi, Andrea Gomes Campos; Pereira Junior, Álvaro Rodrigues; Ferreira, Anderson Almeida; Barbosa, Adriano Vilela; Alves, Luciana MendonçaAs patologias da linguagem são alterações na leitura de um texto, ocasionadas por traumatismos físicos ou genéticos. Devido a falta de ferramentas específicas e ao alto custo de uso do software proprietário, de tecnologias de processamento de sinais de áudio para ajudar no processo de identificação de patologias genéticas, muitas pessoas ficam sem tratamento, e, às vezes, à margem da sociedade. Foi desenvolvido uma metodologia por especialistas, que extrai características da leitura de um texto em voz alta e retorna a hipótese de diagnóstico. Neste trabalho, descreve-se uma nova abordagem computacional com o intuito de automatizar de forma eficiente a indicação de probabilidade da dislexia. A análise é feita em gravações (sinais de áudio) da leitura de textos pré-definidos com crianças em idade escolar. São extraídas características diretas e indiretas do sinal de áudio. As diretas são extraídas por meio da metodologia de separação de pausas e sílabas, enquanto as características indiretas são extraídas através da metodologia de alinhamento de sinais de áudio, Hidden Markov Model e pelo desenvolvimento de algumas heurísticas de melhoria. Após a obtenção das características realiza-se a indicação da probabilidade da dislexia por meio de duas metodologias de classificação, a primeira análoga a de especialistas humanos, baseada em pesos; e a segunda por meio de dois classificadores conhecidos na literatura, KNN e SVM. Os testes foram realizados sobre uma base de dados de 40 áudios, 30 sem dislexia e 10 com dislexia, contendo a gravação da leitura de um texto padrão por crianças, sendo comparados a classificação realizada pelo especialista, do texto completo, obtendo 100% de acurácia sobre a indicação de probabilidade de dislexia, sobre os três métodos. A diferença entre os valores das características obtidas automaticamente e os valores de teste foi abaixo de 20% para a maioria das características. Finalmente, os resultados apresentados nesta dissertação mostram que existe um campo de atuação muito promissor do processamento de sinais de áudio, no que diz respeito ao auxílio a especialistas na tomada de decisão relacionadas a patologias da linguagem.Item Fusão de características na re-identificação de pessoas.(2018) Sales, Anderson Luís Cavalcanti; Cámara Chávez, Guillermo; Cámara Chávez, Guillermo; Ferreira, Anderson Almeida; Bianchi, Andrea Gomes Campos; Schwartz, William RobsonRe-Identi cação de pessoas é um problema de correspondência entre identidades capturadas por câmeras de vigilância não sobrepostas. Essa correspondência, também conhecida como rastreamento multi-câmeras é uma tarefa da área de visão computacional. Tem grande foco por se tratar, principalmente, de demandas nas esferas de segurança pública e/ou pessoal. Esse foco se dá em vista das possíveis incapacidades humanas na realização de tarefas repetitivas por um tempo prolongado, por exemplo. Intenciona-se com essa abordagem suavizar, quão possível, os custos inerentes ao processo computacional tradicional. A abordagem proposta é fracionada em duas partes: aprendizado de um espaço métrico de baixa dimensionalidade (denominado fase inicial) e reorganização de rank de amostras a partir de uma classi cação binária ponderada, a m de reduzir a incompatibilidade entre várias câmeras. Usa-se handcrafted image descriptors como ferramentas. Adicionalmente, emprega-se na abordagem proposta, um modelo de aprendizado métrico discriminante para representar features em uma nova dimensão; aprendizado métrico de similaridade em larga escala e distância métrica para construção dos ranks primários entre amostras de teste e imagens da galeria. Em todo o trabalho as imagens amostrais foram divididas a partir da imagem original em secções, a m de aumentar a discriminação entre as amostras.Item Improving author name disambiguation with user relevance feedback.(2012) Ferreira, Anderson Almeida; Machado, Tales Mota; Gonçalves, Marcos AndréAuthor name ambiguity in the context of bibliographic citations is a very hard problem. It occurs when there are citation records of a same author under distinct names or when there exists citation records belonging to distinct authors with very similar names. Among the several methods proposed in the literature, the most effective ones are those that perform a direct assignment of the records to their respective authors by means of the application of supervised machine learning techniques. However, those methods usually need large amounts of labeled training examples to properly disambiguate the author names. To deal with this issue, in previous work, we have proposed a method that automatically obtains and labels the training examples, showing competitive performance compared to representative author name disambiguation methods. In this work, we propose to improve our previous method by exploiting user relevance feedback. In more details we select a very small portion of the citation records for which our method was mostly unsure about the correct authorship and ask the administrators for labeling them. This feedback is then used to improve the effectiveness of the whole process. In our experimental evaluation, we observed that with a very small labeling effort (usually around 5% of the records), the overall disambiguation effectiveness improves by almost 10% on average, with gains of up to 61% in some of the largest ambiguous groups.Item In search of a stochastic model for the E-News Reader.(2019) Veloso, Bráulio Miranda; Assunção, Renato Martins; Ferreira, Anderson Almeida; Ziviani, NivioE-news readers have increasingly at their disposal a broad set of news articles to read. Online newspaper sites use recommender systems to predict and to offer relevant articles to their users. Typically, these recommender systems do not leverage users’ reading behavior. If we know how the topics-reads change in a reading session, we may lead to fine-tuned recommendations, for example, after reading a certain number of sports items, it may be counter-productive to keep recommending other sports news. The motivation for this article is the assumption that understanding user behavior when reading successive online news articles can help in developing better recommender systems. We propose five categories of stochastic models to describe this behavior depending on how the previous reading history affects the future choices of topics. We instantiated these five classes with many different stochastic processes covering short-term memory, revealed-preference, cumulative advantage, and geometric sojourn models. Our empirical study is based on large datasets of E-news from two online newspapers. We collected data from more than 13 million users who generated more than 23 million reading sessions, each one composed by the successive clicks of the users on the posted news. We reduce each user session to the sequence of reading news topics. The models were fitted and compared using the Akaike Information Criterion and the Brier Score. We found that the best models are those in which the user moves through topics influenced only by their most recent readings. Our models were also better to predict the next reading than the recommender systems currently used in these journals showing that our models can improve user satisfaction.Item Incremental author name disambiguation by exploiting domain-specific heuristics.(2017) Santana, Alan Filipe; Gonçalves, Marcos André; Laender, Alberto Henrique Frade; Ferreira, Anderson AlmeidaThe vast majority of the current author name disambiguation solutions are designed to disambiguate a whole digital library (DL) at once considering the entire repository. However, these solutions besides being very expensive and having scalability problems, also may not benefit from eventual manual corrections, as they may be lost whenever the process of disambiguating the entire repository is required. In the real world, in which repositories are updated on a daily basis, incremental solutions that disambiguate only the newly introduced citation records, are likely to produce improved results in the long run. However, the problem of incremental author name disambiguation has been largely neglected in the literature. In this article we present a new author name disambiguation method, specially designed for the incremental scenario. In our experiments, our new method largely outperforms recent incremental proposals reported in the literature as well as the current state-of-the-art non-incremental method.Item Incremental unsupervised name disambiguation in cleaned digital libraries.(2011) Carvalho, Ana Paula de; Ferreira, Anderson Almeida; Laender, Alberto Henrique Frade; Gonçalves, Marcos AndréName ambiguity in the context of bibliographic citation sisone of t h e hardest problems currently faced by the Digital Library ( DL) community. Here we deal with the problem of disambiguating new citations records insertedint o a cleaned DL, without the need t process the whole collection , which is usually necessary for un supervised methods. Although supervised solutions can deal with this situation , there is the costly burden of generating training data besides the fact that these methods cannot and le well the insertion of record s of new author not already existent in the repository. I n t h is article, we propose a new unsupervised method that identifies the correct author sof the new citation records to be inserted in a DL. The method is based on heuristics that are also used to identify whet her the new record s belong to authors already in t h e digital library or not , correctly identifying new authors in most cases. Our experiment al evaluation , using synthetic an d real data sets, shows gains of u p t o 19% when compared to a state- of- t h e- art method without the cost of having to disambiguate the whole DL at each new load ( as d on e by u n supervised methods) or the need for any train in g ( as d on e by supervised methods) .Item Logo detection with second judge single shot multibox.(2017) Coelho, Leonardo Bombonato Simões; Cámara Chávez, Guillermo; Bianchi, Andrea Gomes Campos; Cámara Chávez, Guillermo; Ferreira, Anderson Almeida; Bianchi, Andrea Gomes Campos; Schwartz, William RobsonWith the increasing popularity of Social Networks, the way people interact has changed and the huge amount of data generated open doors to new strategies and marketing analysis. According to Instagram 1 and Tumblr2 an average of 95 and 35 million photos, respectively, are published every day. These pictures contain several implicit or explicit brand logos, this allows us to research how can a brand be better widespread based in regional, temporal and cultural criteria. Using advanced computer vision techniques for object detection and recognition, we can extract information from these images, making possible to understand the impact and the comprehensiveness of a specific brand. This thesis proposes a logo detection technique based on a Convolutional Neural Network (CNN), also used as a second judge. Our proposal is built on the Single Shot Multibox (SSD). In our research, we explored several approaches of the second judge and managed to reduce significantly the number of false positives in comparison with the original approach. Our research outperformed all the others researches on two different datasets: FlickrLogos-32 and Logos-32plus. On the FlickrLogos-32, we surpass the actual state-of-the-art method by 5.2% of F-score and for the Logos-32Plus by 3.0% of F-score.Item Melhorias no processo de blocagem para resolução de entidades baseadas na relevância dos termos.(2018) Caldeira, Laís Soares; Ferreira, Anderson Almeida; Bianchi, Andrea Gomes Campos; Bianco, Guilherme Dal; Ferreira, Anderson AlmeidaA extensa variedade de informações disponíveis na Web motivou o desenvolvimento de aplicações que integram dados heterogêneos vindos de diferentes fontes. A integração de dados tem como objetivo facilitar o acesso a informações fornecendo uma visão unificada dos dados. Uma tarefa importante no processo de integração de dados é a Resolução de Entidades, que visa identificar instâncias que se referem ao mesmo objeto do mundo real. Uma simples tarefa de Resolução de Entidades pode ser realizada comparando cada instância de uma coleção de dados com todas as outras, o que seria uma tarefa muito custosa para grandes coleções de dados. Nesse contexto, técnicas de blocagem são utilizadas para reduzir o número de comparações criando blocos que contêm as instâncias propensas a corresponder à mesma entidade no mundo real, de modo que a tarefa de Resolução de Entidades possa ser aplicada apenas a esses blocos. Técnicas de processamento de blocos aumentam ainda mais a eficiência, descartando comparações ou mesmo blocos inteiros que envolvam instâncias não correspondentes. Neste trabalho, é proposta uma forma de escolher termos para serem usados na etapa de blocagem e na etapa de processamento de blocos, baseado na relevância dos termos na coleção de dados, de modo a construir blocos que possibilitem encontrar o maior número de instâncias correspondentes, minimizando a quantidade de comparações desnecessárias. A proposta é avaliada comparando-a com trabalhos relevantes disponíveis na literatura. Os resultados mostram que a proposta reduz o tempo de processamento pela metade e melhora a qualidade dos blocos gerados, escalando eficientemente grandes coleções de dados altamente heterogêneos.