Urdu Paraphrase Plagiarism Corpus (UPPC)

Electronic data

UPPC.zip
211 KB, multipart/x-zip
Text
Available under license: CC BY-NC-SA

DOI

https://doi.org/10.17635/lancaster/researchdata/67

View graph of relations

Dataset

Overview
Cite this

Sharjeel Muhammad (Creator)
Paul Rayson (Creator)
Rao Muhammad Adeel Nawab (Creator)

Data Science Institute
Computing and Communications
UCREL - University Centre for Computer Corpus Research on Language

Description

This corpus contains 160 Urdu text documents in total. 20 documents are original Wikipedia articles on well-known people whereas 140 documents (manually created by volunteers) are paraphrase plagiarise and non-plagiarise versions of the original articles. 75 documents are paraphrased by 5 university students using different paraphrasing techniques. 65 documents are independently written without considering the source article.

Date made available	2016
Publisher	Lancaster University

Contact person

rdm@lancaster.ac.uk

Research

Electronic data

DOI

Urdu Paraphrase Plagiarism Corpus (UPPC)

Description

Contact person

Links

Quick Links

Connect With Us

Faculties & Depts

Contact Us