Geração de impressão digital para recuperação de documentos similares na web

dc.contributor.authorPereira Junior, Álvaro Rodrigues
dc.contributor.authorZiviani, Nivio
dc.date.accessioned2012-10-18T20:40:27Z
dc.date.available2012-10-18T20:40:27Z
dc.date.issued2004
dc.description.abstractThis paper presents a mechanism for the generation of the “finger-print” of a Web document. This mechanism is part of a system for detecting and retrieving documents from the Web with a similarity relation to a suspicious do-cument. The process is composed of three stages: a) generation of a fingerprint of the suspicious document, b) gathering candidate documents from the Web and c) comparison of each candidate document and the suspicious document. In the first stage, the fingerprint of the suspicious document is used as its identifica-tion. The fingerprint is composed of representative sentences of the document. In the second stage, the sentences composing the fingerprint are used as queries submitted to a search engine. The documents identified by the URLs returned from the search engine are collected to form a set of similarity candidate do-cuments. In the third stage, the candidate documents are “in-place” compared to the suspicious document. The focus of this work is on the generation of the fingerprint of the suspicious document. Experiments were performed using a collection of plagiarized documents constructed specially for this work. For the best fingerprint evaluated, on average87.06%of the source documents used in the composition of the plagiarized document were retrieved from the Web.pt_BR
dc.description.abstractenEste artigo apresenta um mecanismo para geração da “impressão di-gital” de um documento da Web. Esse mecanismo é parte de um sistema para detectar e recuperar documentos que tenham sido plagiados da Web, sendo si-milares a um dado documento suspeito. O processo é composto de três etapas: a) geração de uma impressão digital do documento suspeito, b) coleta de do-cumentos candidatos da Web e c) comparação entre cada documento candidato e o documento suspeito. Na primeira etapa, a impressão digital do documento suspeito é usada para identificá-lo. A impressão digital é constituída por um conjunto de frases mais representativas do documento. Na segunda etapa, as frases que constituem a impressão digital são usadas como consultas e subme-tidas para uma máquina de busca. Os documentos identificados pelas URLs da resposta da pesquisa são coletados e formam um conjunto de documentos candidatos à similaridade. Na terceira etapa, os documentos candidatos são localmente comparados com o documento suspeito. O foco deste trabalho está na geração da impressão digital do documento plagiado. Experimentos foram realizados sobre uma coleção de documentos plagiados construída especial-mente para este trabalho. Para a impressão digital de melhor resultado, em média87,06%dos documentos usados na composição do documento plagiado foram recuperados da Web.
dc.identifier.citationPEREIRA JUNIOR, A. R.; ZIVIANI, N. Geração de impressão digital para recuperação de documentos similares na web. In. II Workshop de Tecnologia da Informação e Linguística, II. 2004. Salvador. Anais. Salvador: Workshop de Tecnologia da Informação e Linguística, 2004. Disponível em: <http://homepages.dcc.ufmg.br/~nivio/papers/til04.pdf>. Acesso em: 18/10/2012.pt_BR
dc.identifier.urihttp://www.repositorio.ufop.br/handle/123456789/1681
dc.language.isopt_BRpt_BR
dc.titleGeração de impressão digital para recuperação de documentos similares na webpt_BR
dc.typeTrabalho apresentado em eventopt_BR
Files
Original bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
EVENTO_GeraçãoImpressãoDigital.pdf
Size:
118.51 KB
Format:
Adobe Portable Document Format
License bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
1.71 KB
Format:
Item-specific license agreed upon to submission
Description: