Informations
Directeur de thèse :
Université :
Université Constantine 2
Soutenance
Date de soutenance :
31 Janvier 2016
Membres de Jury :
Batouche Mohamed Chawki
Salim Chikhi
Moussaoui Abdelouahab
Melkemi Kamel Eddine
Benmohammed Med
Manuscrit
Téléchargement :
Détails
Titre :
Approches adaptatives et techniques d'apprentissage automatique pour la segmentation et la reconnaissance dynamiques de l'écriture hors-ligne appliquées aux mots manuscripts en arabe

Résumé :

Cette thèse relève du domaine de la conception et du développement des systèmes de reconnaissance automatique de l’écriture arabe manuscrite. Pour évaluer les performances de tels systèmes, il est nécessaire de les comparer objectivement sur une même base de mots. De nos jours, peu de bases de mots arabes manuscrits sont disponibles et libres d’accès pour les chercheurs du domaine, pour cette raison nous avons développé une nouvelle base de mots contenant les noms de villages algériens qui sera publiée et libre d’accès pour les recherches académiques. La base contient 2100 formulaires incluant 46230 mots enregistrés sous forme d’images binaires et en niveau de gris, représentant 1541 noms de village algériens, écrits par 2100 scripteurs. Nous avons aussi développé un nouveau système de segmentation et de reconnaissance hors-ligne de mots arabes manuscrits. Le modèle proposé utilise un ensemble de réseaux de neurones flous de type Fuzzy ARTMAP lors de la classification. Le système proposé a été testé pour la première fois sur notre nouvelle base de mots, ainsi que sur la base IFN/ENIT afin de donner proportion aux résultats obtenus. Notons finalement, que les taux de segmentation et de reconnaissance enregistrés étaient très satisfaisants.


Mots clés :
Base de mots arabes Annotation d’images Reconnaissance du manuscrit arabe Réseaux de neurones Fuzzy ARTMAP Segmentation


Abstract:

This thesis is about the design and the development of handwriting Arabic recognition systems. To evaluate the performances of such systems, it is necessary to compare them objectively on the same database. A few freely databases are available for Arabic handwriting recognition, for this reason we have developed a new database of Algerian village names to be available freely for research and academic use. The database contains 2100 forms including 46230 communes’ name saved as binary and grayscale images, representing 1541 Algerian village names, collected from 2100 writers. We have also described a new character segmentation and recognition algorithm for offline handwritten Arabic words. The proposed method uses a set of Fuzzy ARTMAP neural networks as classifiers. The system was tested for the first time using the new database and the IFN/ENIT database in order to give proportion to the obtained results. A height segmentation and recognition accuracy were reported.


Keywords:
Database Ground truth information Arabic handwriting recognition Neural networks Fuzzy ARTMAP Segmentation.


الملخص:

موضوع ھذه الرسالة يتمحور حول دراسة وتطوير أنظمة القراءة الآلية لكلمات اللغة العربية المكتوبة يدويا. من أجل تقييم ھذا النوع من الأنظمة،لابد من مقارنة كفاءاتھا فيما بينھا من خلال اختبارھا على نفس القواعد البيانية. لكن إلى يومنا ھذا، لا يزال عدد القواعد البيانية للكلمات العربية المكتوبة يدويا ضئيل جدا، كما يتطلب الحصول على أغلبھا دفع مبالغ مالية  .

لھذه الأسباب قمنا بإنشاء قاعدة نات تحتوي على أسماء بلديات الجزائر والتي سيتم نشرها للاستعمال المجاني في الأبحاث العلمية. تتكون ھذه القاعدة الجديدة من 2100 استمارة تحوي 46230 اسم بلدية تم حفظھا في شكل صور باللونين الأسود والأبيض وأخرى بلون رمادي متدرج، وقد شارك 2100 شخص في كتابة مختلف الكلمات.

كما تقدم ھذه الرسالة نظام آلي جديد لقراءة الكلمات العربية، حيث يقوم ھذا الأخير بتقسيم الكلمة إلى حروف ثم التعرف على كل حرف باستعمال شبكات عصبونية صناعية. قد تم اختبار النظام المقترح باستعمال قاعدة البيانات والجديدة التي تضم أسماء بلديات الجزائر قاعدة بيانات أخرى تحتوي على أسماء بلديات تونسية وذلك بغية إعطاء مصداقية للنتائج المحصل عليھا. نشير أخيرا إلى أن النسب المسجلة فيما يخص تقسيم الكلمات إلى حروف وكذا التعرف عليھا كانت جد مرضية.


الكلمات المفتاحية:
قاعدة بيانات ترميز الصور التعرف على الكتابة اليدوية العربية الشبكات العصبونية تقسيم الكلمات إلى حروف.