Une plateforme numérique intelligente offrant un accès structuré aux collections de référence académiques du patrimoine littéraire roumain — construite à partir d'exports bruts InDesign jusqu'à la découverte alimentée par Elasticsearch sur de multiples corpus.
Les ouvrages de référence académiques en études littéraires roumaines n'existaient qu'en publications imprimées et fichiers InDesign — sans accès numérique unifié, sans workflow éditorial, sans moyen de rechercher ou mettre à jour de manière collaborative. Du contenu riche incluant texte formaté, images et bibliographies nécessitait une préservation.
Un pipeline de données complet : scraper les exports HTML InDesign, extraire les champs sémantiques via le mappage de classes CSS, sérialiser en JSONL, indexer en masse dans Elasticsearch, et servir via un backend FastAPI avec frontend admin React — supportant l'édition collaborative, le journal d'audit et la recherche multi-corpus.
Scraper BeautifulSoup4 mappant les classes CSS aux champs sémantiques, reconstruisant le texte hiérarchique à partir de HTML plat et extrayant les références d'images.
Recherche plein texte Elasticsearch sur plus de 5 corpus (ELIV, CLRV, HLRV, TLVR, DCLR) avec gestion des diacritiques roumains et navigation alphabétique.
CKEditor5 et React-Quill pour l'édition collaborative d'entrées académiques avec gestion d'images, légendes et préservation du formatage.
Navigation basée sur la chronologie pour les corpus historiques (DCLR), navigation alphabétique A-Z incluant les lettres spécifiques roumaines (Ă, Â, Î, Ș, Ț).
Piste d'audit complète de toutes les modifications — qui a changé quoi, quand, depuis quelle IP — maintenant l'intégrité académique dans les workflows collaboratifs.
Interface en roumain et anglais avec permissions basées sur les rôles garantissant que seuls les chercheurs autorisés peuvent modifier les entrées.
Construisons votre prochaine plateforme ensemble.
Contactez-nous→Voir Plus de Projets