A che servono le classificazioni

Claudio Gnoli
(Università di Pavia. Dip' Matematica ; ISKO Italia)

Uno degli aspetti che interessano l'architettura dell'informazione è l'organizzazione ottimale dei contenuti nei documenti, tipicamente in particolare nei siti web. A questo scopo vengono utilizzate, più o meno consapevolmente, varie forme di sistemi per l'organizzazione della conoscenza (knowledge organization system, KOS), come parole-chiave, tesauri, stringhe di soggetto, tassonomie, ontologie, schemi di classificazione [Foskett 2001; Gnoli 2002; Gnoli et al. 2006].

Gli schemi di classificazione sono forse i più classici tra i KOS. Sono stati sviluppati soprattutto a partire dalla fine dell'Ottocento, per far fronte alla crescita della quantità di documenti da ordinare e gestire nelle biblioteche e nelle bibliografie. In questa relazione, necessariamente schematica, passeremo in rassegna tre tipi principali di schemi di classificazione: i primi due ampiamente noti in letteratura, il terzo meno noto e attualmente oggetto di studio da parte dell'autore. Per ciascun tipo mostreremo qualche esempio di applicazione all'organizzazione di siti web.


Classificazione enumerativa

La maggior parte degli schemi di classificazione sono sostanzialmente enumerativi, ossia si basano sull'elencazione delle classi nelle quali è possibile ripartire i documenti da classificare. Poiché le possibilità di combinare fra loro i concetti sono limitate, quasi tutti i concetti da utilizzare devono essere già previsti dallo schema, che perciò è necessariamente costituito da tavole voluminose. L'universo della conoscenza viene suddiviso in un certo numero di classi principali, ognuna di queste in sottoclassi, e così via, sviluppando in questo modo un albero gerarchico, di profondità teoricamente illimitata.

L'esempio più famoso è la Classificazione decimale Dewey (CDD), introdotta dal bibliotecario newyorkese Melvil Dewey a partire dal 1876, e da allora progressivamente espansa, aggiornata e adottata in biblioteche di tutto il mondo. La notazione della CDD utilizza cifre per rappresentare le classi e le loro sottoclassi, analogamente alle cifre dei numeri decimali: ad esempio, 808 "retorica" comprende 808.8 "collezioni di letteratura", che comprende 808.83 "fiction", che comprende 808.838 "fantascienza".

Un lettore appassionato di fantascienza può imparare che il suo numero magico è 808.838 e cercarlo nella biblioteca del suo comune, ma anche in altre biblioteche, nei loro cataloghi in rete (gli opac), o in repertori di siti web che utilizzino la CDD.

Per esempio, nel catalogo collettivo delle biblioteche dell'Università "La Sapienza", inserendo 808.838 nel campo Classificazione e selezionando il bottone "lista", si arriva alle schede bibliografiche di 78 libri di fantascienza posseduti dall'università. Le basi-dati dei cataloghi in rete e le loro interfacce di ricerca si prestano molto bene a sfruttare la notazione decimale della CDD in modi intelligenti. Purtroppo, come è stato mostrato anche dalla recente indagine nazionale Opac semantici su un campione di 152 opac italiani, nella realtà attuale dei cataloghi delle biblioteche queste possibilità sono largamente sprecate, e agli utenti vengono offerte poche occasioni per rendersi conto dell'utilità della classificazione.

Molti autori [es. Saeed & Chaudry 2001] rilevano come la struttura ricca e collaudata degli schemi di classificazione possa essere impiegata anche per organizzare repertori di risorse Internet. E in effetti non mancano esempi di questo genere di applicazione, dei quali McKiernan [2001] ha realizzato un ormai storico meta-repertorio.

Uno dei repertori più curati e consolidati è BUBL, un servizio informativo della Strathclyde university di Glasgow, che seleziona siti web di utilità generale e li propone organizzati anche secondo la CDD, ciascuno corredato da una scheda con una breve descrizione. Nell'ambito dello schema generale dello scibile disponibile sul Web, sotto 808.838 trovano posto nove siti scelti di fantascienza britannica. In Italia, la regione Toscana mantiene un Virtual reference desk per le biblioteche pubbliche strutturato sul modello di BUBL, nel quale il nostro appassionato, usando sempre lo stesso codice 808.838, potrà trovare un interessante Fantascienza.com.


Classificazione a faccette

Un'evoluzione della classificazione enumerativa è stata introdotta dall'indiano S.R. Ranganathan a partire dagli anni Trenta, e successivamente diffusa dai membri del Classification Research Group. In essa, il contenuto dei documenti è analizzato in una serie di aspetti fra loro complementari, le cosiddette faccette, e quindi espresso per combinazione dei codici corrispondenti a ciascuna faccetta. Ad esempio, le faccette tipiche della medicina sono Organo, Problema, Causa e Cura. A loro volta, le faccette di ogni disciplina sono riconducibili a un piccolo numero di categorie fondamentali transdisciplinari, come Oggetti, Parti, Proprietà, Materiali, Azioni, Operazioni, Agenti, Spazio, Tempo, ciascuna espressa da un simbolo costante [Gnoli 2004]. Poiché le tavole di uno schema a faccette devono elencare solo i possibili valori (fuochi) di ogni faccetta, lasciando le loro possibili combinazioni al classificatore, esse risultano molto più compatte di quelle di uno schema enumerativo.

Sulla base di approfonditi studi ed esperienze, si è trovato conveniente che le faccette di ciascun documento siano espresse in una sequenza standard, detta ordine di citazione. In questo modo, i libri negli scaffali o le voci nei menù vengono a trovarsi disposti in una successione massimamente utile, che facilita agli utenti il reperimento delle informazioni più affini a quelle che hanno cercato.

Pur godendo della stima degli esperti di tutto il mondo, in quanto metodo più avanzato ed efficace di quello enumerativo, l'analisi a faccette non è stata ancora applicata in modo massiccio a biblioteche e bibliografie. Infatti gli schemi enumerativi, come la CDD e la Library of Congress Classification, godono di maggiore notorietà e di strutture organizzative più potenti che forniscono una ricca documentazione anche in lingue diverse dall'inglese, e questo basta a convincere molti enti ad utilizzarle in luogo dei più avanzati schemi a faccette.

Un nuovo interesse per la potenza della logica a faccette si riscontra però negli ultimi anni proprio in architettura dell'informazione. Numerosi siti infatti adottano più o meno esplicitamente un'indicizzazione "a faccette", in cui cioè il contenuto di ciascuna pagina è accessibile alternativamente attraverso l'uno o l'altro degli aspetti che contribuiscono a formarlo. Questa tecnica è ritenuta vantaggiosa anche ai fini dell'usabilità, in quanto offre agli utenti diversi percorsi per arrivare alle stesse risorse a seconda dei loro rispettivi punti di partenza, invece di costringerli ad adattarsi a un modello concettuale gerarchico che inevitabilmente esprime solo uno di tali possibili percorsi [Rosati 2005]. Esempi noti di siti organizzati in questo modo sono Flamenco, InformeDesign e Wine.com.

Peraltro la gran parte dei siti commerciali che si presenta "a faccette" adotta questa tecnica solo in parte: infatti, dopo che i contenuti sono stati scomposti in faccette (analisi), queste non vengono riassemblate secondo un ordine di citazione standard ed espresse conseguentemente da una notazione (sintesi), bensì solo presentate in forma sciolta, elencando i fuochi in ordine alfabetico [Gatto 2006]. Il risultato è una forma ibrida fra classificazione a faccette e semplici parole-chiave.

Solo alcuni progetti, perlopiù di matrice inglese, hanno sperimentato un'applicazione completa della classificazione a faccette a grandi basi di dati. Ai pionieristici lavori di Steven Pollitt e collaboratori (Hibrowse, View-based systems), hanno fatto seguito i progetti FACET di Douglas Tudhope e FATKS di Vanda Broughton e Aida Slavic, entrambi riferiti alla teoria dell'analisi a faccette come sviluppata dal Classification Research Group. In FACET, la struttura a faccette dell'Art and architecture thesaurus è evidenziata mediante colori differenti che esprimono ognuno una faccetta di un manufatto, ad esempio sedie intagliate [Oggetto] vittoriane [Stile] in rovere [Materiale].

In italiano si possono vedere due esempi di architettura a faccette in "AIB-Web. Contributi" e in "Trovabile", che raccolgono articoli rispettivamente di biblioteconomia e di architettura dell'informazione. Entrambi, pur non utilizzando una notazione (anche in considerazione delle dimensioni limitate a poche decine di articoli), organizzano i loro indici in base alle categorie standard del CRG. In Contributi è seguito anche l'ordine di citazione standard, ad esempio documenti biomedici [Oggetto] : supporti digitali [Materiale] : selezione e valutazione [Operazione] è espresso in questo ordine e quindi ai fini del browsing ricade primariamente nella classe documenti biomedici. In Trovabile l'ordine di citazione non è standard (anche a causa di vincoli imposti dal CMS sottostante) ma le faccette sono sfruttate efficacemente per suggerire al lettore di ogni articolo link ad altri documenti che abbiano in comune con esso il fuoco dell'una o dell'altra faccetta.

Classificazione libera

La classificazione libera, a differenza dei due tipi descritti precedentemente, non è ancora stata descritta formalmente in letteratura; tuttavia i suoi principi di fondo sono stati enunciati e applicati a più riprese da autori come Brisch e Gardin, e sono inconsapevolmente applicati anche in molte basi-dati bibliografiche di letteratura tecnico-scientifica.

Anche in questo caso il soggetto di un documento viene scomposto in concetti semplici, i quali però a differenza che nelle faccette "classiche" non sono legati fra loro da rapporti sintattici predefiniti, bensì semplicemente giustapposti. Ogni concetto è espresso da una notazione, che rimane la stessa in tutto lo schema indipendentemente dalla disciplina di cui fa parte (per cui il simbolo per i cavalli sarà lo stesso in zoologia, in veterinaria, in storia dei trasporti, ecc., e potrà essere combinato con qualsiasi altro simbolo). L'ordine di citazione dei simboli è di solito lo stesso delle tavole oppure il suo inverso. Ad esempio, la videocassetta "Selvaggia val d'Aveto : storia e natura di un confine lungo 3000 anni" può essere classificata come

Q Kr Ch @tn Ydv   ecosistemi : fiumi : storia : val d'Aveto : documenti video

La classificazione libera è in corso di sperimentazione nell'ambito del progetto Integrative level classification, sviluppato dal capitolo italiano dell'ISKO. Il progetto prevede l'applicazione di tecniche di classificazione non disciplinare a basi-dati bibliografiche campione di dimensioni limitate (qualche centinaio di record), e lo sfruttamento della classificazione attraverso interfacce di ricerca scritte in PHP.

Una prima base-dati [Gnoli & Merli 2005] consiste di una bibliografia sull'ambiente e la cultura locale di un'area dell'Appennino settentrionale, all'interno del sito web "Dove comincia l'Appennino" ad essa dedicato. (Il significato locale del simbolo @ è illustrato da Gnoli [2005a].)

Oltre alle tradizionali ricerche per autore e titolo, gli utenti possono scorrere lo schema di classificazione oppure cercare un termine al suo interno. A ciascuna classe è possibile arrivare anche attraverso diversi tipi di sinonimi e termini associati, grazie a un tesauro incorporato nello schema. Ad esempio, inserendo nella casella Argomento il termine "corsi d'acqua", l'utente arriva alla classe Kr il cui equivalente verbale è in effetti "fiumi, torrenti", ma di cui "corsi d'acqua" è registrato come sinonimo.

Selezionando questa classe, vengono estratti dalla bibliografia i tre documenti (compresa la videocassetta dell'esempio precedente) il cui codice di classificazione comprende anche la notazione Kr, liberamente combinata con qualsiasi altra classe. Il fatto che nei codici le classi siano disposte in ordine invertito di livelli di integrazione, quindi con il livello più alto ("ecosistemi") espresso per primo, fa sì che i risultati siano ordinati in una successione utile che tiene conto innanzitutto dei fenomeni di livello più alto trattati in ciascun documento.

Lo stesso sistema di classificazione libera è stato applicato anche ai menù del sito stesso di cui la bibliografia fa parte [Gnoli 2005b]. Il menù principale propone una scelta fra argomenti ordinati per livello di integrazione crescente:

                monti e valli
        animali e piante
        il passato
        persone
        parole
        cucina
        paesi
        musica
        cultura popolare
        riflessioni

(si noti che sono volutamente impiegati termini che esprimono fenomeni concreti, come "animali e piante" e "il passato", piuttosto che discipline, come "biologia" e "storia").

Selezionando la voce "il passato" si arriva a una pagina introduttiva generale sull'argomento, che propone anche il sottomenù di tutte le pagine disponibili che hanno a che fare con il passato. Questo sottomenù è ottenuto dinamicamente grazie ad una query che estrae da una tabella MySQL i nomi dei file di tutti gli articoli associati al codice Ch, lo stesso che nella bibliografia contraddistingue i documenti di storia. Ad esempio, l'articolo "Còsola e l'alta val Borbera tra passato e presente" è classificato con il codice V Ul Ch @bk, in quanto tratta di economia (V), paesi (Ul), storia (Ch) e val Borbera (@bk). Questo significa che esso comparirà non soltanto nel sottomenù "il passato", ma anche nei sottomenù "paesi" e "val Borbera", i quali estraggono rispettivamente le pagine con i codici Ch e @bk. Questo sistema permette dunque di aggiungere nuove pagine o ridescrivere le pagine preesistenti senza dover modificare i file dei menù di ciascun argomento, che verranno aggiornati automaticamente.

Come si può osservare, la classificazione libera equivale funzionalmente all'assegnazione di parole-chiave sciolte a ciascun documento: in entrambi i casi, infatti, i componenti semantici sono semplicemente elencati senza che siano specificate relazioni sintattiche. Forme affini alla classificazione libera possono essere considerati anche i sistemi di etichettatura cosiddetti (un po' impropriamente) "a faccette" come quello introdotto da Google Mail, e le folksonomy in cui il contenuto dei documenti è indicizzato mediante termini assegnati liberamente dagli utenti [Quintarelli 2005]. La differenza principale fra questi sistemi e la classificazione libera è che, essendo in quest'ultima i concetti espressi con una notazione invece che con parole, i documenti elencati in ciascun sottomenù risultano automaticamente ordinati in modo sistematico invece che alfabetico, rispecchiando la struttura generale dello schema. Le varie forme di parole-chiave, pseudo-faccette e folksonomy si possono invece considerare come stadi intermedi tra l'indicizzazione alfabetica e la classificazione.

La caratteristica prima della classificazione, infatti, è quella di proporre una visualizzazione sistematica delle voci, secondo (per usare le parole di Ranganathan) una successione conveniente allo scopo presente. L'apparente intuitività dell'ordine alfabetico, adottato nella grande maggioranza dei menù, è in realtà limitata dal fatto che gli utenti possono avere in mente termini diversi da quelli impiegati nello schema: soprattutto nel caso di elenchi piuttosto lunghi (decine di voci o più), la classificazione (meglio se combinata con un tesauro alfabetico, come mostrato sopra) può invece guidare l'utente nelle vicinanze delle voci che più gli interessano, saltando l'intermediazione della terminologia.

Riferimenti bibliografici


Foskett 2001 = Il soggetto / AC Foskett -- Bibliografica : Milano : 2001

Gatto 2006 = A righe o a quadretti? / Eugenio Gatto = Le dimensioni dell'informazione : giornata di studio AIB Piemonte-ISKO Italia. [4] / Caterina Barazia, Claudio Gnoli : cura -- ISKO Italia <http://www.iskoi.org/doc/dimensioni4.htm> : 2006-

Gnoli 2002 = Indicizzazione semantica nell'era digitale / Claudio Gnoli = (ESB forum) -- Burioni <http://www.burioni.it/forum/gnoli-sem.htm> : 2002-

Gnoli 2004 = Classificazione a faccette / Claudio Gnoli -- AIB : Roma : 2004

Gnoli 2005a = Classificazione a livelli per una bibliografia web di cultura locale / Claudio Gnoli = Classificare la documentazione locale : giornata di studio : San Giorgio di Nogaro : 17 dicembre 2005. [3] -- <http://www.iskoi.org/doc/locale3.htm> : 2005-


Gnoli 2005b = Architettura dell'informazione a faccette libere / Claudio Gnoli = (Trovabile) -- <http://trovabile.org/faccette_libere> : 2005-


Gnoli & Merli 2005 = Notazione e interfaccia di ricerca per una classificazione a livelli / Claudio Gnoli, Gabriele Merli = AIDA informazioni. 23 : 2005. n 1-2. p 57-72 [abstract all'interno di <http://www.aidainformazioni.it/2005/122005.html#articoli>].


Gnoli et al. 2006 = Organizzare la conoscenza : dalle biblioteche all'architettura dell'informazione per il Web / Claudio Gnoli, Vittorio Marino, Luca Rosati -- Hops-Tecniche nuove : Milano : 2006


McKiernan 2001 = Beyond bookmarks : schemes for organizing the Web / Gerry McKiernan -- Iowa state university <http://www.public.iastate.edu/~CYBERSTACKS/CTW.htm> : agg' 2001


Quintarelli 2005 = Folksonomies : power to the people / Emanuele Quintarelli = (ISKO Italia. Documenti) -- : 2005-


Rosati 2005 = Le faccette in architettura dell'informazione / Luca Rosati = Le dimensioni dell'informazione : giornata di studio AIB Piemonte-ISKO Italia. [3] / Caterina Barazia, Claudio Gnoli : cura -- ISKO Italia <http://www.iskoi.org/doc/dimensioni3.htm> : 2005-


Saeed & Chaudry 2001 = Potential of bibliographic tools to organize knowledge on the Internet: the use of Dewey decimal classification scheme for organizing Web-based information resources / Hamid Saeed, Abdus Sattar Chaudry = Knowledge organization. 28 : 2001. n 1. p 17-26