Reconnaissance optique de caractères (ROC)

L'IWAC a pour mission de fournir des textes de haute qualité provenant de diverses sources sur l'islam et les musulmans d'Afrique de l'Ouest. Nous utilisons la technologie de reconnaissance optique de caractères (ROC) pour convertir les documents scannés en textes consultables et éditables. En combinant la révision manuelle avec des technologies avancées d'intelligence artificielle (IA), nous visons à équilibrer la qualité et l'efficacité, garantissant ainsi que notre base de données reste une ressource précieuse pour les chercheurs et le public.

Articles de journaux

Pour les articles de journaux, nous assurons une précision maximale en révisant manuellement tous les textes extraits. Ce processus méticuleux garantit que le résultat de la ROC est extrêmement fiable, minimisant les erreurs susceptibles de fausser l'information.

Magazines et journaux islamiques

Nous sommes en train d'exploiter les nouveaux développements des grands modèles de langage (Large Language Models, LLMs) pour affiner la numérisation des textes. Pour les magazines et journaux islamiques, nous utilisons un processus de ROC automatisé sans révision manuelle, amélioré par l'IA, spécifiquement le modèle GPT-4o, pour corriger les résultats ROC. Pour limiter les hallucinations, nous fragmentons le texte en plus petites sections avant le traitement. Notre méthode intègre les avancées en translittération, transcription et ROC pour améliorer l'exactitude et l'accessibilité des textes.

Avantages

  1. Efficacité : la ROC pilotée par l'IA réduit considérablement le temps de traitement des documents, permettant ainsi un accès rapide à un plus grand nombre de textes.
  2. Extensibilité : l'IA permet de traiter de vastes quantités de documents sans dépendre de ressources humaines importantes, facilitant ainsi l'entretien et l'expansion de la base de données.
  3. Rentabilité : la correction automatisée réduit les coûts opérationnels par rapport à la révision manuelle, qui est à la fois chronophage et laborieuse.
  4. Adaptabilité : les modèles d'IA s'améliorent continuellement et s'ajustent aux différentes polices et mises en page couramment rencontrées dans les magazines et journaux islamiques, augmentant ainsi la précision globale avec le temps.

Inconvénients et limitations

  1. Hallucinations : les modèles d'IA, y compris GPT-4o, peuvent occasionnellement générer du texte plausible mais inexistant dans le document original. Ces "hallucinations" peuvent introduire des inexactitudes.
  2. Erreurs contextuelles : bien que l'IA corrige de nombreuses erreurs de ROC, elle peut mal interpréter des mots ou des phrases contextuels, entraînant des corrections moins précises dans certains cas.
  3. Absence de contrôle manuel : contrairement aux textes révisés manuellement, les corrections automatisées ne bénéficient pas d'une révision humaine finale, ce qui peut entraîner l'omission de certaines erreurs persistantes.
  4. Cohérence : malgré les améliorations continues des modèles d'IA, leurs performances peuvent être irrégulières, particulièrement pour les documents complexes ou ceux dont la qualité de numérisation est médiocre.

Exemple

 

Conclusion

Si la technologie de ROC améliore considérablement l'accès aux documents numérisés, elle n'est pas infaillible. Il est donc conseillé de se référer au document numérisé original pour vérification lorsque l'exactitude est primordiale.

Pour les chercheurs souhaitant effectuer des analyses informatiques sur les journaux et périodiques islamiques de la Collection, il est important de prendre en compte ces limitations potentielles de la ROC. Une vérification minutieuse du texte corrigé par ROC par rapport aux documents originaux peut aider à maintenir l'intégrité et la fiabilité de l'analyse.