معلومات
مدير الأطروحة :
سنة البداية :
نهابة 2011
الجامعة :
Ecole Supérieure de Comptabilité et finances
تاريخ المناقشة
تاريخ المناقشة :
29 February 2020
أعضاء لجنة المناقشة :
Prof. Ramdane Maamri
Prof. Salim Chikhi
Prof. Paolo Rosso
Dr. Alberto Barrón-Cedeño
Prof. Yacine Lafifi
Dr. Sihem Mostefai
التفاصيل
Titre :
Plagiarism Detection: A focus on the Intrinsic Approach and the Evaluation in the Arabic Language

Résumé :

Avec l'avènement d'Internet et l'utilisation généralisée des documents numériques, l'accès à
l'information des quatre coins du monde est devenu de plus en plus facile. Cela s’est accompagné avec
le phénomène de copier-coller qui a limité l’appropriation du travail des autres (plagiat) à quelques clics
de souris.
Depuis les années 70 du siècle dernier, les chercheurs ont commencé à développer les logiciels
permettant de détecter automatiquement le plagiat textuel. Cependant, à mesure que les techniques de
ces programmes évoluent, les plagiaires développent des tactiques pour leur échapper. Par conséquent,
les outils de détection du plagiat qui ont le potentiel de résister sont ceux qui sont capables de lutter
contre cette tricherie de différentes manières. De plus, à la suite de la mondialisation, ces outils devraient
également pouvoir gérer des documents dans plusieurs langues. Ainsi, compte tenu de la perpétuation
de ce problème, l’acquisition des dernières technologies de détection du plagiat est devenue une course
aux armements pour une bataille sans fin.
Cette thèse traite deux sujets principaux : la détection de plagiat dans les documents arabes et la
détection de plagiat basée sur les changements de style de rédaction dans le document suspect, appelée
détection de plagiat intrinsèque. Cette approche est une alternative à l’approche par appariement de
texte, notamment en l’absence de la source du plagiat. Nos principales contributions dans ces deux
domaines concernent, premièrement, le développement de corpus arabes permettant l’évaluation des
logiciels de détection de plagiat sur cette langue, et, deuxièmement, la mise au point d'une méthode de
détection de plagiat intrinsèque qui est indépendante de la langue. Cette méthode exploite les n-grammes
de caractères dans une approche d'apprentissage automatique tout en évitant la dimensionnalité.
Représenter des textes avec des n-grammes de caractères est l'une des approches de modélisation de
texte les plus réussies pour certaines applications d'analyse stylistique. Cependant, les études sur les
meilleurs n-grammes de caractères dans le contexte de la détection intrinsèque du plagiat sont presque
inexistantes. Par conséquent, notre troisième contribution clé est une tentative de réduire cet écart en
recherchant les meilleurs n-grammes de caractères, en termes de fréquence et de longueur, pour détecter
le plagiat de manière intrinsèque. Nous avons effectué nos expériences sur des corpus anglais normalisés
ainsi que sur les corpus arabes que nous avons développés. Notre travail expérimental est basé aussi
bien sur la méthode que nous avons développée que sur l’une des méthodes de détection de plagiat
intrinsèque les plus importantes. Les résultats de notre analyse pourraient être exploités par les futures
méthodes de détection de plagiat intrinsèque qui utiliseront les n-grammes de caractères.
Outre les contributions techniques susmentionnées, nous fournissons au lecteur des études
exhaustives et critiques de la littérature relative à la détection de plagiat dans le texte Arabe, et à la
détection de plagiat intrinsèque, qui faisaient défaut dans les deux domaines.


Mots clés :
Intrinsic plagiarism detection Arabic plagiarism detection Character n-grams Stylistic analysis Evaluation corpora