Kraken est un puissant moteur de reconnaissance optique et manuscrite (OCR/HTR) conçu pour la transcription de textes imprimés et manuscrits. Flexible et personnalisable, il prend en charge une large gamme de langues et d’écritures, y compris des documents historiques complexes. Grâce à ses modèles entraînables, Kraken permet d’obtenir des résultats précis, même sur des sources dégradées ou atypiques, faisant de lui un outil incontournable pour les chercheurs, archivistes et passionnés de numérisation.
Afin d’avoir la pleine puissance pour cet OCR, utilisez Kaggle pour exécuter Kraken
Utilisation de Kaggle
Afin de pouvoir utiliser au mieux kraken, nous pouvons utiliser Kaggle qui est une plateforme d’analyse de données et de machine learning.
Il offre plusieurs services, nous allons nous attarder sur le notebook (qui est un environnement cloud basé sur Jupyter Notebook permettant d’exécuter du code Python ou R sans configuration locale) et le dataset (où nous pouvons déposer nos images à transcrire et/ou les vérités de terrain (ground thrue) pour améliorer les modèles.. Nous avons droit gratuitement à 12h d’utilisation par semaine pour le notebook.
Dans ce tutoriel, j’ai mis en rouge les zones à cliquer et en vert les zone où il faut entrer/copier le code et n’hésiter pas à zoomer en cliquant sur les images.
Présentation de Kaggle
Aller sur kaggle et créer votre compte, Nous allons créer un notebook et le configurer. Sur la page d’accueil, cliquez sur « Code » dans le menu en haut ou à gauche. Ensuite, cliquez sur « New Notebook » (bouton noir).
Voici la page pour écrire votre code python. Cliquez sur « Code » afin de rajouter un bloc code. Personnellement, j’ai créé un bloc code pour chaque thématique : installation de kraken, création du modèle,…
Comment enregistrer un dataset sur Kaggle
Se connecter à Kaggle
Rendez-vous sur https://www.kaggle.com
Connectez-vous avec votre compte (ou créez-en un si nécessaire).
Accéder à l’upload de dataset
Dans le menu à droite, sélectionnez « Datasets ».
Cliquez sur le bouton noir « New Dataset ».
Ajouter votre fichier
Cliquez sur « Upload Files » et sélectionnez votre fichier (CSV, JSON, images, etc.).
Vous pouvez aussi glisser-déposer le fichier dans la zone d’upload.
Remplir les informations du dataset
Title : Donnez un nom clair à votre dataset.
Description : Expliquez brièvement ce que contient le fichier.
Tags : Ajoutez des mots-clés pour mieux référencer votre dataset.
Enregistrer et publier
Si vous voulez le rendre public, cliquez sur « Public » dans la section « Visibility », puis sur « Create ».
Si vous voulez rajouter ou retirer des datasets, il faut entrer dans votre dataset et descendre et cliquer sur update.




