Geração de impressão digital para recuperação de documentos similares na web
dc.contributor.author | Pereira Junior, Álvaro Rodrigues | |
dc.contributor.author | Ziviani, Nivio | |
dc.date.accessioned | 2012-10-18T20:40:27Z | |
dc.date.available | 2012-10-18T20:40:27Z | |
dc.date.issued | 2004 | |
dc.description.abstract | This paper presents a mechanism for the generation of the “finger-print” of a Web document. This mechanism is part of a system for detecting and retrieving documents from the Web with a similarity relation to a suspicious do-cument. The process is composed of three stages: a) generation of a fingerprint of the suspicious document, b) gathering candidate documents from the Web and c) comparison of each candidate document and the suspicious document. In the first stage, the fingerprint of the suspicious document is used as its identifica-tion. The fingerprint is composed of representative sentences of the document. In the second stage, the sentences composing the fingerprint are used as queries submitted to a search engine. The documents identified by the URLs returned from the search engine are collected to form a set of similarity candidate do-cuments. In the third stage, the candidate documents are “in-place” compared to the suspicious document. The focus of this work is on the generation of the fingerprint of the suspicious document. Experiments were performed using a collection of plagiarized documents constructed specially for this work. For the best fingerprint evaluated, on average87.06%of the source documents used in the composition of the plagiarized document were retrieved from the Web. | pt_BR |
dc.description.abstracten | Este artigo apresenta um mecanismo para geração da “impressão di-gital” de um documento da Web. Esse mecanismo é parte de um sistema para detectar e recuperar documentos que tenham sido plagiados da Web, sendo si-milares a um dado documento suspeito. O processo é composto de três etapas: a) geração de uma impressão digital do documento suspeito, b) coleta de do-cumentos candidatos da Web e c) comparação entre cada documento candidato e o documento suspeito. Na primeira etapa, a impressão digital do documento suspeito é usada para identificá-lo. A impressão digital é constituída por um conjunto de frases mais representativas do documento. Na segunda etapa, as frases que constituem a impressão digital são usadas como consultas e subme-tidas para uma máquina de busca. Os documentos identificados pelas URLs da resposta da pesquisa são coletados e formam um conjunto de documentos candidatos à similaridade. Na terceira etapa, os documentos candidatos são localmente comparados com o documento suspeito. O foco deste trabalho está na geração da impressão digital do documento plagiado. Experimentos foram realizados sobre uma coleção de documentos plagiados construída especial-mente para este trabalho. Para a impressão digital de melhor resultado, em média87,06%dos documentos usados na composição do documento plagiado foram recuperados da Web. | |
dc.identifier.citation | PEREIRA JUNIOR, A. R.; ZIVIANI, N. Geração de impressão digital para recuperação de documentos similares na web. In. II Workshop de Tecnologia da Informação e Linguística, II. 2004. Salvador. Anais. Salvador: Workshop de Tecnologia da Informação e Linguística, 2004. Disponível em: <http://homepages.dcc.ufmg.br/~nivio/papers/til04.pdf>. Acesso em: 18/10/2012. | pt_BR |
dc.identifier.uri | http://www.repositorio.ufop.br/handle/123456789/1681 | |
dc.language.iso | pt_BR | pt_BR |
dc.title | Geração de impressão digital para recuperação de documentos similares na web | pt_BR |
dc.type | Trabalho apresentado em evento | pt_BR |
Files
Original bundle
1 - 1 of 1
No Thumbnail Available
- Name:
- EVENTO_GeraçãoImpressãoDigital.pdf
- Size:
- 118.51 KB
- Format:
- Adobe Portable Document Format
License bundle
1 - 1 of 1
No Thumbnail Available
- Name:
- license.txt
- Size:
- 1.71 KB
- Format:
- Item-specific license agreed upon to submission
- Description: