La realizzazione
Come primo passo è stata operata la migrazione delle 2620 voci biografiche, disponibili nel formato di descrizione di pagina PDF utilizzato per l’edizione a stampa, in un formato ipertestuale con riconoscimento automatico della posizione delle immagini e dei riferimenti bibliografici all’interno della struttura. Il risultato è stato raggiunto utilizzando uno strumento open source (pdf2html) che ha generato dei file XML in cui erano riportati, utilizzando opportuni attributi, le indicazioni sulla formattazione del testo; elaborando i file XML è stato possibile evidenziare dei pattern comuni che hanno consentito di associare ad essi l’aspetto semantico e ricostruire così gli articoli nella loro struttura (titolo, sottotitolo, corpo, bibliografia) originaria; inoltre è stato possibile estrarre i primi metadati esterni (ad esempio, l’autore della voce biografica). I file così prodotti sono stati letti e importati nel database della piattaforma WordPress opportunamente configurata e adattata.
Lo strumento che abbiamo ritenuto potesse agevolare particolarmente l’attività del gruppo di lavoro addetto alla revisione e annotazione, è un’applicazione che permettesse di selezionare e inserire i valori degli elementi RDF con il mouse, limitando al massimo l’inserimento di termini da tastiera. Abbiamo realizzato quindi un plugin per WordPress che permette di selezionare il soggetto e indicare la proprietà di esso scegliendola da un menu a tendina che elenca quelle applicabili.
L’utilizzo è risultato veramente agevole e l’interfaccia grafica di WordPress, semplice ed immediata, ha fatto il resto, permettendo di arrivare all’annotazione quasi completa in tempi minori di quelli previsti inizialmente, con grande soddisfazione del gruppo di lavoro. I metadati necessari alla notazione semantica sono stati inseriti così in modo estremamente intuitivo; è stato infatti sufficiente selezionare l’elemento oggetto ed attribuirgli il tag appropriato (che rappresenta la proprietà) scegliendolo da un elenco a discesa di tipo contestuale. È stata predisposta anche una sezione per l’inserimento dell’annotazione semantica fuori dal testo, lasciando ai redattori la possibilità di inserire metadati e rimandando a una fase successiva a quella della revisione dei testi la creazione di un vocabolario controllato per gli oggetti dei predicati. Questa soluzione è stata scelta per evitare i lunghi tempi necessari per la creazione di una ontologia interna e per ridurre al minimo il tempo di apprendimento di una esterna. Anche la bibliografia è stata annotata ed utilizzata per creare delle strutture RDF che descrivono le risorse esterne. Il testo elaborato viene quindi letto dinamicamente da un parser che crea gli elementi RDF, i quali possono tenere conto delle annotazioni sia in text che esterne. I termini da inserire si basano su un lessico controllato e per quanto questo sia per ora locale all’applicazione, è presente una sezione di configurazione (per ora accessibile dal codice) grazie alla quale sarà possibile scegliere l’ontologia da utilizzare per rappresentare i dati all’esterno e creare le corrispondenze tra il vocabolario e quello interno. La disponibilità di un triplestore interrogabile in SPARQL ha permesso di offrire strumenti di ricerca e navigazione avanzata del portale. È stato possibile creare delle ricerche preimpostate per l’utente e un form di ricerca che propone le proprietà e oggetti per l’interrogazione, associando alle richieste una interrogazione SPARQL e restituendo le risposte all’utente.