Classificare per i cittadini. Il motore di ricerca a faccette della Pubblica Amministrazione piemontese.
Maria Elisabetta LAI1, David MANFRIN2
1 CSI-Piemonte (Torino, Italia), mariaelisabetta.lai@csi.it
2 CSI-Piemonte (Torino, Italia), david.manfrin@csi.it
La realizzazione del motore di ricerca della PA piemontese risponde alla necessità di aumentare la reperibilità delle informazioni e dei servizi presenti in rete allo scopo di agevolarne e incrementarne la fruizione da parte di cittadini e imprese.
Il motore intende offrire una soluzione innovativa attraverso l’adozione della classificazione a faccette nell’impianto tassonomico e l’utilizzo di classificatori automatici per l’attribuzione dei contenuti web alla tassonomia individuata.
La progettazione, fondata sul metodo dello User Centered Design, ha coinvolto campioni di utenti fin dalle prime fasi.
Keywords: motore di ricerca, classificazione a faccette, servizi della pubblica amministrazione, reperibilità dell’informazione, progettazione utente – centrica, classificatori semantici.
I cittadini e le imprese che scelgono la Rete per interagire con la Pubblica Amministrazione in modo pratico e veloce hanno bisogno di strumenti per la ricerca che, oltre all’efficienza dei risultati, garantiscano un elevato grado di usabilità e agevolino il reperimento di servizi telematici e contenuti informativi all’interno di un’offerta, quella del web pubblico, in cui può risultare problematico orientarsi.
Il panorama del web istituzionale piemontese, anche per effetto dell’incessante pubblicazione di servizi on line incentivati dal piano di e-gov regionale (REGIONE PIEMONTE 2001), è “difficile da conoscere” perché in continua evoluzione e perché parcellizzato in una miriade di siti che costringono gli utenti a ricordare decine di indirizzi web diversi.
Nel 2004 il CSI-Piemonte1, nell’ambito dell’evoluzione del portale territoriale Sistema Piemonte2, ha avviato la realizzazione di un motore di ricerca specializzato in argomenti inerenti la Pubblica Amministrazione con l’intento di proporre una soluzione innovativa alla questione della “reperibilità” di informazioni e servizi pubblicati in rete dagli Enti pubblici piemontesi.
Il motore si basa su una tassonomia a faccette e sull’utilizzo di classificatori semantici automatici capaci di ricondurre i contenuti on line alla tassonomia individuata.
La classificazione a faccette è stata adottata innanzitutto per superare i limiti delle tassonomie tradizionalmente utilizzate sui siti degli Enti pubblici e per proporre, attraverso un approccio multidimensionale, molteplici chiavi di accesso alle informazioni nel rispetto delle esigenze e delle aspettative degli utenti.
L’introduzione del classificatore automatico è resa necessaria dall’ampiezza dei domini da analizzare e dall’impossibilità di tenere sotto controllo gli aggiornamenti in tempo reale da parte della redazione.
Il motore prevede differenti modalità di ricerca per consentire agli utenti di adottare le strategie più consone alle abitudini e al grado di conoscenza degli argomenti.
Accanto alla tradizionale ricerca per parole chiave, infatti, grazie ai risultati delle classificazione multidimensionale a faccette fornita dal classificatore automatico, è possibile effettuare ricerche direttamente sulla tassonomia, seguendo un percorso di navigazione a discesa sull’albero delle faccette.
La ricerca attraverso l’esplorazione della tassonomia ha lo scopo di agevolare quegli utenti che si accostano al contenuto informativo di un sito senza avere un’idea chiara di ciò che vogliono o possono trovarvi, e che quindi - in una prospettiva esplorativa - gradiscono poter “dare uno sguardo” a ciò che è disponibile.DA SPOSTAREDA SPOSTARE
Inoltre il motore si avvale del vocabolario controllato, che ha lo scopo di allargare il dominio di ricerca e di introdurre un livello interpretativo.
Gli spunti per la tassonomia sono venuti da più fronti.
Dal punto di vista teorico è stato fondamentale l’apporto dell’ambito biblioteconomico (Gnoli 2003; Rosati 2003; MArino 2004) che ha recuperato la metodologia della classificazione a faccette proponendola come strumento efficace negli ambienti digitali.
Dal punto di vista pratico ha influito l’analisi di siti e motori di ricerca3 che sfruttano un approccio multidimensionale.
Infine dal punto di vista normativo, hanno influito le indicazioni del CNIPA (CNIPA 2005) in merito alla opportunità di classificare, oltre che per area tematica, anche per tipologia.
Il modello di riferimento è rappresentato dalle categorie standard per la classificazione a faccette stabilite dal CRG (Vickery 1960), rispetto al quale sono state individuate otto faccette adatte alla classificazione dei servizi di comunità, elencate di seguito:
Servizi e pratiche
Corrisponde alla faccetta “Oggetti” del CRG. Individua i servizi e i documenti offerti dalla PA piemontese sul web.
Aspetti della vita
Corrisponde alla faccetta “Tipologie” del CRG.
Riprende in maniera piuttosto puntuale il modello degli “eventi della vita” utilizzato sul portale nazionale4 di e-gov; benché ambigua e non esaustiva se adottata in modo esclusivo, è stata integrata nell’ambito della tassonomia perché intuitiva per gli utenti e utile a fornire un ulteriore approccio alla ricerca.
Modalità di accesso
Corrisponde alla faccetta “Proprietà” del CRG. Indica il grado di interattività dei servizi;
Persone ed enti
Corrisponde alla faccetta “Pazienti” del CRG. Individua i beneficiari dei servizi.
Istituzioni ed enti pubblici
Corrisponde alla faccetta “Agenti” del CRG. Individua il soggetto istituzionale che pubblica i servizi.
Territorio
Corrisponde alla faccetta “Spazio” del CRG. Indica l’ambito territoriale nel quale il servizio si colloca.
Date
Corrisponde alla faccetta “Tempo” del CRG. Indica l’ambito temporale nel quale il servizio ha validità.
L’analisi di un corpus di oggetti estratti da documenti ufficiali relativi all’e-government o da siti locali ha permesso di stilare un primo elenco di classi relative ad ogni faccetta (foci).
L’attività, svolta da un gruppo di lavoro cui hanno preso parte un architetto dell’informazione (Luca Rosati) e un biblioteconomo (Claudio Gnoli), ha previsto:
l’analisi del campione, rappresentato dai siti degli enti pubblici piemontesi;
l’individuazione delle faccette e dei foci e lo scarto degli elementi non significativi rispetto al caso di studi;
la creazione dello schema di classificazione;
l’adattamento del sistema di labeling: è stato necessario adeguare al tema di studio le etichette previste dallo standard di riferimento, elaborato dal CRG;
la ricerca semantica sulla terminologia: per ciascun termine presente nello schema di classificazione sono stati reperiti sinonimi e locuzioni affini per il popolamento del vocabolario controllato.
la classificazione delle pagine web dei siti istituzionali piemontesi in base allo schema elaborato;
la simulazione delle ricerche, attraverso l’utilizzo di un CMS.
L’attività di ricerca sulla terminologia ha permesso di abbozzare la struttura del vocabolario controllato, lo strumento utile per colmare il divario lessicale fra utente e classificatore e superare così le difficoltà di comprensione legate all’uso di terminologie specialistiche.
I termini inseriti sono stati selezionati in base a:
analisi di report statistici dei motori di ricerca interni ai siti del Comune di Torino5 e di Sistema Piemonte6 che evidenziano le espressioni più ricorrenti;
consultazione di risorse linguistiche7;
esame di un campione rappresentativo di documenti disponibili in rete.
Tra le parole inserite dagli utenti e i termini utilizzati per indicare gli elementi della tassonomia è stata stabilita una relazione di equivalenza: in caso di ricerca per parola chiave, a ciascuna espressione inserita corrisponde una ricerca sui termini del vocabolario controllato associati ai foci. I documenti così estratti sono ritenuti altamente significativi e quindi presentati in cima alla lista dei risultati.
Il vocabolario controllato permette inoltre di interpretare espressioni specialistiche.
Ad esempio, “estate ragazzi” viene riconosciuta come una locuzione autonoma che rinvia al focus relativo ai soggiorni estivi: in questo modo non vengono presentati fra i risultati i documenti che contengono la parola “estate” e la parola “ragazzi” senza che fra queste esista una correlazione semantica.
La progettazione dell'interfaccia e dell'interazione è stata condotta secondo la metodologia dello UCD (Norman 1986) e ha previsto momenti di studio e di incontro con gli utenti per definire un modello d'uso vicino alle aspettative e ai bisogni degli utilizzatori finali.
Raccolta di documentazione e classificazione dei casi di studio
Durante la fase preliminare sono state effettuate ricerche sulle best practices presenti on line. L'analisi dell'interfaccia e dell'interazione è stata effettuata sui servizi con funzionalità paragonabili a quelle del motore in esame8 e sul progetto Flamenco (FLAMENCO 2004). È stato anche valutato e, in certi casi, predisposto l’utilizzo degli stessi servizi in fase di test con gli utenti.
Interviste strutturate con gli utenti
Il primo momento di interazione con gli utenti è servito a delineare quali sono gli approcci più frequenti di ricerca degli utenti, quali gli strumenti più conosciuti e utilizzati e quali le difficoltà ricorrenti in una ricerca on line.
Le interviste, condotte su un campione di utenti selezionati fra persone che per motivi di lavoro interagiscono con la PA (sia liberi professionisti, sia dipendenti di enti pubblici) hanno indagato le strategie di ricerca preferite dagli utenti e ne hanno verificato le risposte attraverso l’esecuzione di semplici task.
Test con utenti attraverso prototipi interattivi e cartacei
Durante le interviste sono stati proposti prototipi interattivi su cui gli utenti hanno eseguito task utili a verificare le prime scelte progettuali e impostare la struttura dell'interfaccia; per ottenere valutazioni su elementi specifici dell'interfaccia sono stati utilizzati anche prototipi cartacei.
Le risposte, il racconto di episodi tipici di ricerca e la prova pratica sui task proposti hanno prodotto indicazioni generali circa le necessità e le aspettative che gli utenti hanno di fronte a un motore di ricerca.
L’analisi dei risultati delle interviste con gli utenti ha fornito spunti per l’individuazione di linee guida utili per la progettazione, elencate di seguito:
La maggior parte degli utenti preferisce adottare strategie molto focalizzate e specifiche nella ricerca di informazione, utilizzando i motori più conosciuti9 per le ricerche generali e siti più specifici, ad esempio quelli degli Enti per quelle particolari;
Gli utenti intendono la ricerca in senso generale, senza distinguere fra browsing e searching.
Pur conoscendo entrambe le strategie, tendono a utilizzarne una sola nei siti che già conoscono. Ad esempio, nei siti dove il browsing si è rivelato non efficace, spesso decidono di non utilizzare nemmeno la ricerca per parola chiave. Questo sembra essere un effetto della scarsa fiducia nell’attendibilità dei risultati della ricerca. La ricerca per parola chiave deve quindi fornire risultati almeno pari o superiori a quelli dei motori di riferimento, altrimenti l’effetto sugli utenti sarà controproducente penalizzando l’intero servizio;
Nell’esaminare i risultati delle ricerche gli utenti tendono a trascurare parte delle informazioni relative ad un certo documento: preferiscono sbagliare e tornare indietro, piuttosto che leggere tutte le informazioni presentate.
Le informazioni di dettaglio devono quindi essere inserite solo se realmente significative e rilevanti dal punto di vista semantico;
Quando l’interfaccia è complessa e presenta molti testi ed etichette verbali, le voci vengono scorse con poca attenzione. Sono quindi da preferirsi etichette sintetiche e significative per l’utente;
Le informazioni sulla classificazione in calce a ogni risultato di ricerca sono poco apprezzate, mentre risultano più utilizzati i filtri posti a lato dell’area dei risultati.
Sembra quindi preferibile presentare le categorie come menu di navigazione, in colonna piuttosto che in orizzontale;
Sono poco gradite le forme di ricerca complessa (ricerche avanzate, più di una casella di ricerca per operazioni logiche, ...) perché non sono immediate e richiedono apprendimento;
Nella ricerca, il comportamento degli utenti varia in base a molti fattori, fra i quali la dimestichezza con gli strumenti e la propensione al cambiamento. Non ci si deve aspettare che tutti sfruttino appieno le modalità di ricerca disponibili, e quindi è opportuno contenere il numero di funzioni.
A partire dalla linee guida sono stati elaborati il modello della home page e della pagina dei risultati.
La home page dà evidenza alle principali funzioni di ricerca: il campo per l’inserimento delle parole chiave e il menu di navigazione a faccette.
Occupano una posizione meno rilevante le funzionalità accessorie, quali ad esempio l’indicazione delle ricerche più frequenti nell’arco della settimana (top choice) e i suggerimenti di ricerca sugli argomenti del momento (popular now).
Dalla home page è possibile consultare la guida e accedere all’area per la segnalazione di nuovi servizi alla redazione.
La pagina dei risultati pone al centro l’elenco dei documenti estratti per agevolarne la leggibilità.
La struttura e il look’n’feel prevedono, analogamente alla maggioranza dei motori di ricerca:
titolo della pagina cliccabile
abstract del contenuto
url non cliccabile della pagina.
Nella colonna di sinistra, per ciascuna faccetta è riportato l’elenco dei foci inerenti all'insieme di risultati; a sua volta ogni focus si presenta come link attivo per consentire ulteriori raffinamenti della ricerca.
È presente anche la funzione per la ricerca fra i risultati.
Il sistema prevede la componente di front end dedicata alle funzionalità di ricerca e la componente di back end per il reperimento dei contenuti, la loro classificazione e la costruzione dell’indice.
Il Back End
Esegue le seguenti operazioni:
reperisce i documenti appartenenti al dominio di interesse (spider) e per ciascuno di essi produce la una versione testuale;
effettua una prima analisi linguistica e strutturale estraendo i metadati rilevanti quali parole chiave, dimensione, titolo, ... (software linguistico proprietario);
classifica ogni documento sulla base del contenuto e ne valuta l’eventuale attribuzione ai foci (classificatori automatici).
In relazione alla proprietà semantica delle faccette, si utilizzano classificatori diversi, statistici o simbolici (questi ultimi richiedono la configurazione ad hoc di regole di sintassi e semantica da parte di un linguista).
costruisce l’indice del corpus documentale.
Il Front End
Attraverso la consultazione dell’indice del corpus documentale fornisce l’elenco dei risultati corrispondenti alla ricerca effettuata dall’utente.
Nel caso di ricerca per parola chiave, il termine inserito dall’utente subisce un processo di normalizzazione e all’analisi morfologica e semantica per l’eventuale associazione ai foci attraverso il vocabolario controllato.
Nel caso in cui la parola digitata non sia presente nel vocabolario, il sistema effettua una ricerca testuale (full text) sul corpus dei documenti.
(CNIPA 2005) CNIPA – Centro Nazionale per l’Informatica della Pubblica Amministrazione. Monitoraggio dei progetti di e-government fase I – Terzo Rapporto di sintesi. Settembre 2005.
(FLAMENCO 2004) FLAMENCO GROUP. Flamenco technical details [risorsa elettronica]. <http://bailando.sims.berkeley.edu/flamenco-technical.html>, [2004]. [consultato: Giugno 2005].
(Gnoli 2003) Gnoli, Claudio. <<La classificazione come investimento nella qualità dell'informazione>> [risorsa elettronica]. AIB-WEB. Contributi. < http://www.aib.it/aib/contr/gnoli4.htm>. [consultato: Luglio 2004]
(MArino 2004) Marino, Vittorio. <<Classificazioni per il web: i vantaggi dell’adozione di schemi a faccette>> [risorsa elettronica]. AIB-WEB. Contributi. <http://www.aib.it/aib/contr/marino1.htm>. [consultato: Luglio 2004]
(Norman 1986) Norman, Donald A.; Draper, Stephen W. User centered system design: New perspective on human-computer interaction. Erlbaum Associates, 1986.
(REGIONE PIEMONTE 2001) <<Piano di e-government piemontese. Linee Guida >> Aprile 2001. [risorsa elettronica resource]. < http://www.ruparpiemonte.it/e-gov/dwd/egov_piem.pdf >. [consultato: Luglio 2004]
(Rosati 2003) Rosati, Luca. << Per un accesso multidimensionale all'informazione: o della classificazione a faccette >> [risorsa elettronica]. Information Architecture Institute.. < http://iainstitute.org/it/articoli/000204.html>. [consultato: Luglio 2004].
(Vickery 1960) Vickery, Brian C. Faceted classification: a guide to the construction and use of special schemes. London: Aslib, 1960.
1 Il CSI-Piemonte è Consorzio per il Sistema Informativo fondato su iniziativa della Regione Piemonte, dell’Università e del Politecnico di Torino per promuovere l’innovazione della Pubblica Amministrazione locale realizzando servizi e sistemi informativi con l’impiego dei più moderni strumenti informatici e telematici.
2 www.sistemapiemonte.it
3 www.epinions.com, www.epicurious.com, www.wine.com
4 http://www.italia.gov.it/
5 www.comune.torino.it
6 www.sistemapiemonte.it
7 Dizionario italiano Sabatini-Coletti, Lessico di frequenza dell’italiano parlato edito da Tullio De Mauro
8 www.exalead.com, www.siderean.com/fooddemo.jsp