Patrimoniu Digital · Pipeline de Date · Căutare

INTELLIV — Patrimoniu Literar Românesc

O platformă digitală inteligentă care oferă acces structurat la colecții academice de referință ale patrimoniului literar românesc — construită de la exporturi brute InDesign la descoperire alimentată de Elasticsearch pe multiple corpusuri.

Provocarea

Secole de cercetare literară blocate în tipar.

Problema

Lucrările de referință academică din studiile literare românești existau doar ca publicații tipărite și fișiere InDesign — fără acces digital unificat, fără flux editorial, fără modalitate de căutare sau actualizare colaborativă. Conținut bogat inclusiv text formatat, imagini și bibliografii necesita conservare.

Soluția Noastră

Un pipeline complet de date: scrapare exporturi HTML InDesign, extragere câmpuri semantice via mapare clase CSS, serializare în JSONL, indexare în masă în Elasticsearch și servire printr-un backend FastAPI cu frontend React admin — suportând editare colaborativă, jurnal de audit și căutare multi-corpus.

Funcționalități Cheie

De la HTML brut la cercetare.

◈

Pipeline de Extracție Date

Scraper BeautifulSoup4 mapează clase CSS la câmpuri semantice, reconstruiește text ierarhic din HTML plat și extrage referințe imagini.

⟨/⟩

Căutare Multi-Corpus

Căutare full-text Elasticsearch în peste 5 corpusuri (ELIV, CLRV, HLRV, TLVR, DCLR) cu gestionare diacritice românești și navigare alfabetică.

◲

Editare Text Îmbogățit

CKEditor5 și React-Quill pentru editare colaborativă a intrărilor academice cu gestionare imagini, legende și păstrarea formatării.

⬡

Navigare Cronologică

Navigare bazată pe cronologie pentru corpusuri istorice (DCLR), navigare alfabetică A-Z inclusiv litere specifice românești (Ă, Â, Î, Ș, Ț).

☁

Jurnal de Audit

Traseu complet de audit al tuturor modificărilor — cine a schimbat ce, când, de la ce IP — menținând integritatea academică în fluxurile colaborative.

⟲

Suport Bilingv

Interfață în română și engleză cu permisiuni bazate pe roluri asigurând că doar cercetătorii autorizați pot edita intrările.

INTELLIV — Patrimoniu Literar Românesc

Secole de cercetare literară blocate în tipar.

Problema

Soluția Noastră

De la HTML brut la cercetare.

Pipeline de Extracție Date

Căutare Multi-Corpus

Editare Text Îmbogățit

Navigare Cronologică

Jurnal de Audit

Suport Bilingv

De la pipeline la platformă.

Pipeline de Date

Căutare

Backend

Frontend

Ai un proiect similar?