Structureren van informatie

Het structureren van informatie houdt in dat gegevens geordend en georganiseerd worden ingegeven op zo'n manier dat die gegevens zo snel, efficiënt en accuraat mogelijk teruggevonden kunnen worden. Structureren van informatie is het ordenen van data.

Er wordt een onderscheid gemaakt tussen formeel en inhoudelijk structureren. Bij het eerste worden de gegevens geordend, bij het tweede wordt de inhoud van de gegevens geordend door ze bijvoorbeeld onder te verdelen in categorieën, trefwoorden toe te kennen, enz. Inhoudelijk structureren wordt ook wel onderwerpsontsluiting genoemd.

Documentaire informatie

Het structureren van documentaire informatie gaat specifiek over het ingeven van gegevens van informatie die vastgelegd is omdat ze nuttig, zinvol of belangrijk wordt beschouwd. Het zijn boeken, videobanden, cd's, dvd's, cd-ROMS, microfilms, ... die gemaakt werden met de bedoeling dat anderen, nu en in de toekomst, van die informatie gebruik kunnen maken.

Problemen

Een groot probleem bij het bewaren van informatie is de duurzaamheid van de dragers waarop de informatie vastgelegd is. Elk materiaal heeft een houdbaarheidsdatum, of het nu gaat om papier, microfilm, cd-roms of iets anders. Zo kan papier vergaan, inkt vervagen en materiaal bedoeld voor computers kan misschien enige tijd later niet meer gelezen worden, zoals diskettes.

Een ander probleem is de overvloed aan informatie. Door de uitvinding van de boekdrukkunst verschenen er plots veel meer boeken dan bij handgeschreven boeken mogelijk was. Na de industriële revolutie kon er door meer mensen en over meer onderwerpen geschreven worden. Met de komst van het internet is de hoeveelheid informatie zo uitgebreid geworden dat het bijna niet meer mogelijk is belangrijk van onbelangrijk te onderscheiden en alle gegevens te verzamelen.

Bovendien kunnen websites voortdurend bijgewerkt, verplaatst en verwijderd worden. Het opslaan van die gegevens is een nooit eindigende opdracht.

Formeel structureren

Formele structurering draait om het ingeven van de gegevens.

Het ordenen van de documentaire gegevens gebeurde voor de komst van ICT via de steekkaartencatalogus. Elk document -- boeken, artikels, kranten, geluidsopnames, ... -- werd beschreven volgens de standaard vastgelegde normen. Deze normen zijn de Paris-principles die in 1961 werden vastgelegd.

De boeken en de andere documenten werden ook geordend door het plaatsingssysteem. De verschillende soorten informatiedragers konden worden onderverdeeld volgens materiaal (boeken, kranten, cd's, ...) of andere criteria zoals bijzondere boeken, populaire items, actualiteit en alle andere mogelijk nuttige indelingen.
Een plaatsingssysteem is niet hetzelfde als een classificatiesysteem. Een plaatsingssysteem kan afgeleid zijn van een classificatiesysteem, maar kan dus ook andere indelingen hebben.

Computercatalogen bieden een aantal voordelen in vergelijking met het steekkaartensysteem. Er kunnen programma's geschreven worden om de invoer te vergemakkelijken en te versnellen, er kan gewerkt worden met databases en waar bij de steekkaarten enkel gezocht kon worden op auteur, kan een computer ook laten zoeken op titel, onderwerp, thema en vele andere.

MARC

In 1965 lanceerde de Library of Congress (Washington) MARC (MAchine Readable Cataloging). Dit programma liet toe gegevens in te voeren in een computer. Oorspronkelijk was het bedoeld als een uitwisselingsprogramma zodat bibliotheken hun data konden doorgeven aan elkaar.
Al snel werd het echter ook gebruikt om de cataloog op te stellen.

Het programma maakt gebruik van codes om aan te geven welke gegevens ingevoerd moeten worden. Het nummer voor de titel is bijvoorbeeld 245, waardoor het net als Dewey's classificatiesysteem in alle bibliotheken ter wereld gebruikt kan worden.
MARC is een erg uitgebreid systeem dat de mogelijkheid biedt om alle mogelijke gegevens in te voeren. Maar die uitgebreidheid is ook een nadeel. Het programma is theoretisch op alles voorzien, maar in de praktijk niet erg handig.

Functional Requirements for Bibliographic Records

FRBR (functional requirements for bibliographic records) is een conceptueel model dat in 1998 opgesteld werd door de IFLA (the International Federation of Library Institutions and Associations) om het maken van online catalogen te verbeteren.
Allyson Carlyle:

FRBR is a conceptual model with the primary purpose of improving cataloging (the process), cataloging records (the product) and catalogs (the technology).

FRBR stelt een entiteit-relatie model voor. Dingen worden onderverdeeld als verschillende entiteiten waar bepaalde attributen bijhoren en waarbij de entiteiten in relatie tot elkaar staan.

Entiteiten

De entiteiten zijn opgedeeld in 3 grote groepen:

Groep 1
- Werk
- Expressie
- Manifestatie
- Item

Groep 2
- Persoon
- Corporatie

Groep 3
- Concept
- Object
- Event
- Place

Een werk is het concept van een document bv. het onderwerp Romeo en Julia. Een expressie is de vorm waarin het onderwerp gegoten wordt bv. een boek, een toneelstuk, een opera of enige andere manier waarin het onderwerp tot uitdrukking wordt gebracht.

Een manifestatie is de tastbare vorm van de manifestatie: het gedrukte boek, het script voor het toneelstuk of het libretto van de opera. Het item is dan één specifiek exemplaar van de manifestatie, zoals het boek Romeo en Julia dat in de boekhandel te koop is, een specifieke toneelvoorstelling in een reeks van vele opvoeringen of één operavoorstelling van de hele tournee.

FRBR stelt het concept dus top down voor, van het abstracte werk tot het specifieke item. Het catalogiseren zelf gebeurt 'bottom-up', vanuit de aparte items.

Attributen

De attributen omschrijven de verschillende entiteiten, zij zijn de kenmerken van de entiteit waardoor de gebruiker de entiteit kan opzoeken. Voor elk onderdeel van de groepen entiteiten zijn attributen vastgesteld door FRBR. Bij een werk zijn dat bijvoorbeeld titel, materiaal, datum van publicatie, enz.

Relaties

De entiteiten kunnen verschillende soorten relaties hebben. Zo staan de 4 entiteiten van groep 1 tot elkaar in verhouding doordat een werk gerealiseerd wordt in een expressie, een expressie vorm krijgt in een manifestatie, en een manifestatie uit meerdere items bestaat.

Entiteiten uit verschillende groepen kunnen met elkaar in relatie staan, bv. tussen groep 1 en groep 2: een werk wordt bedacht door een persoon of corporatie, een expressie is er door vorm gegeven, een manifestatie er door geproduceerd en een item kan het bezit van een persoon of corporatie zijn.

Bovendien kan een werk als onderwerp alle entiteiten uit de 3 groepen hebben, waardoor ze allemaal tot elkaar in relatie staan. Door deze relaties kan een gebruiker via verschillende gegevens komen bij het document dat hij zoekt.

Inhoudelijke ontsluiting

Documenten kunnen door de gebruiker opgezocht worden via de gegevens titel, auteur en alle andere die ingegeven zijn bij het structureren. Er kan niet gezocht worden op inhoud.
Het onderwerp van een document wordt aangegeven door inhoudelijke ontsluiting. Er zijn verschillende methodes. Inhoudelijke ontsluiting volgens thema of onderwerp van het boek kan pas sinds het gebruik van de computer verspreid werd. Voor de automatisering van de bibliotheken kon de gebruiker enkel zoeken op de gegevens van de formele ontsluiting in de steekkaartencatalogus. De boeken en andere documenten werden wel geordend in een classificatiesysteem. Een classificatiesysteem verschilt van de zoekmethoden op een computer vooral omdat het niet zo specifiek is. Elk document wordt ondergebracht in een categorie, maar verder niet nader omschreven per boek. Een classificatiesysteem is dus meer een plaatsingssysteem dan inhoudelijke ontsluiting.

Classificatiesystemen

Een classificatie is een indeling van alles wat bestaat in verschillende kennisgebieden. Alle onderverdelingen krijgen bovendien een code. Er bestaan vele manieren om zaken in te delen, maar het is eigen aan een classificatiesysteem om een code te hebben bij elk onderdeel. Net als bij MARC zorgt de code ervoor dat het systeem in alle bibliotheken ter wereld bruikbaar is, ongeacht de taal van het land.

DDC

Een nog steeds veelgebruikt classificatiesysteem is de Dewey Decimal Classification (DDC). Dit systeem werd in 1876 bedacht door Melvil Dewey. Het bestaat uit 10 klassen met telkens 10 subklassen die elk 10 rubrieken bevatten. De Dewey Decimal Classification wordt nog steeds met groot succes toegepast in Angelsaksische landen.

In 1905 stelden Paul Otlet en Henri La Fontaine hun Universal Decimal Classification (UDC) voor. Het systeem was niet bedoeld om documenten te ordenen, maar om via een code tot in detail het onderwerp van een document te kunnen aanduiden. Het wordt nu enkel nog als een classificatiesysteem gebruikt, vooral in wetenschappelijke bibliotheken.

LCC

In 1901 had de Library of Congress al haar Library of Congress-Classificatie gepubliceerd, die ontwikkeld was in 1897. Het is nu een van de meest gebruikte classificaties.

SISO

Rond 1950 bedacht men in Nederland een schema voor de indeling van de systematische catalogus in openbare bibliotheken (SISO). Het werd tot ongeveer 1990 met enige aanpassingen ook gebruikt in Vlaanderen, tot in 1987 de Vlaamse SISO uitgevonden werd. Als plaatsingssysteem vertoonde het echter tekortkomingen. Daarom werd niet veel later ZIZO opgestart (Zonder Inspanning ZOeken). Dit systeem wordt veel gebruikt in jeugdbibliotheken.

Andere classificatiesystemen

Er zijn 2 grote soorten systemen te onderscheiden:

Enumeratieve

Enumeratieve classificaties zijn een opsomming van alle mogelijke kennisgebieden, zoals SISO. Het is een eenvoudig bruikbaar systeem, maar er zijn enkele nadelen. Het is vrij omslachtig om een nieuwe categorie in te voegen, aangezien alles hernummerd moet worden. Nieuwe onderwerpen zoals nieuwe technologieën of wetenschappelijke takken moeten dus eerst naar best vermogen ondergebracht wordt tot het belangrijk genoeg besloten wordt om een eigen klasse toe te kennen. Bovendien is de opdeling erg groot en bevat een enumeratief classificatiesysteem 100.000 tot 200.000 klassen.

Combinatieve

Bij combinatieve classificaties worden codes van verschillende klassen en subklassen gecombineerd om tot het specifieke onderwerp van het document te komen. Analytisch-synthetische classificatie en facetclassificatie werken op zo'n manier.

Analytisch-synthetisch

Bij een analytisch-synthetische classificatie wordt een onderwerp opgesplitst in onderdeeltjes (geanalyseerd) waarna alle codes van de onderdelen bijeengevoegd worden tot één grote(re) code (gesynthetiseerd). Voor deze werkwijze bestaan er regels over wat er gecombineerd kan worden en in welke volgorde.

Facetclassificatie

Facetclassificatie is een uitvinding van S.R. Ranganathan. In zijn werk Colonclassification uit 1933 beschrijft hij de basisfacetten die met elkaar gecombineerd kunnen worden. Het PMEST-schema staat voor personality, matter, energy, space en time.

De combinatieve classificaties leveren vaak het probleem op dat de overzichtelijkheid van de code verloren gaat. De nummering wordt steeds ingewikkelder naarmate dieper op het gewenste onderwerp wordt ingezoomd. Een oplossing is subklassen als "overige" te benoemen.

Overzichtelijkheid is een van de vereisten voor een goede classificatie.

Vereisten voor een classificatiesysteem

Een goed classificatiesysteem voldoet aan de volgende eisen:

er zijn ongeveer 25 hoofdklassen
er wordt uniformiteit gehandhaafd bij het ordenen van de subklassen
de indeling moet duidelijk zijn
de indeling kan chronologisch, geografisch, naar belangrijkheid, traditioneel of indien nodig alfabetisch zijn
alle subklassen samen omvatten de gehele klasse
er zijn geen overlappingen
de codes moeten kort, eenvoudig, overzichtelijk en flexibel zijn

Onderwerpen ontsluiten

In de computercatalogus kan een document gezocht worden op woorden in de titel of zelfs voor- of achternaam van de auteur en andere gegevens. Naast titelwoorden kan er ook gezocht worden op trefwoorden.
Trefwoorden leveren meer resultaten op dan titelwoorden. Er kunnen een aantal problemen zijn met de resultaten:

ruis: documenten die niet beantwoorden aan de zoekopdracht
precisie: de verhouding tussen het aantal geschikte documenten en de ruis.
recall: de verhouding tussen het aantal geschikte boeken dat in de resultatenlijst verschijnt en het aantal boeken die ook geschikt zijn, maar niet worden gevonden.

Er kan ook met zoekwoorden gewerkt worden. Met zoekwoorden worden die documenten weergegeven die de woorden van de zoekopdracht ergens in hun beschrijving hebben, wanneer de woorden in de titel, de trefwoorden of de korte inhoud van het document staan.

Voor fictie worden themawoorden en genres gebruikt.

Methode

Om een document inhoudelijk te ontsluiten moet eerst het onderwerp of de onderwerpen ervan vastgesteld worden. Bij de beschrijving van het onderwerp wordt gebruikgemaakt van een vast vocabularium zodat de gebruikte woorden altijd dezelfde zijn.

Het zoeken naar het onderwerp van het document is de inhoudsanalyse. Het resultaat is een onderwerpsomschrijving, ook wel de inhoudskarakteristiek genoemd.
Er wordt een globaal onderwerp en deelonderwerpen bepaald, met onderscheid tussen een kern en bepalingen. De kern is het onderwerpselement dat geen precisering van een ander element is. Bepalingen zijn dan de elementen die het kernonderwerp uitbreiden.

De vocabulariumlijst waaruit de bewoording voor het onderwerp gekozen wordt kan vrij zijn, waarbij de indexeerder elk woord uit de taal mag gebruiken. De lijst kan ook gecontroleerd zijn. Dit is dan een vaste lijst van termen. Meestal wordt er een vaste lijst gebruikt die toch uitgebreid mag worden.

Er zijn twee manieren om de onderwerpen te beschrijven:

precoördinatief: een uitgebreid onderwerp wordt met één of meerdere woorden beschreven.
postcoördinatief: een uitgebreid onderwerp wordt beschreven met combinaties.

Trefwoorden zijn precoördinatieve classificatie, bij postcoördinatieve classificatie wordt gebruikgemaakt van een thesaurus. Een thesaurus is een lijst van termen met enkelvoudige termen die gecombineerd kunnen worden omdat ze met elkaar in verband staan. Een woord wordt dan gecombineerd met een aantal onderwerpen die aangegeven worden met onder andere broader term (BT), narrower term (NT) en related term (RT).

Elektronische documenten

De opkomst van de ICT zorgde voor een groot aantal problemen voor het catalogiseren van informatie. De vele mogelijkheden die de computer bood voor het produceren van documenten creëerden een aantal problemen voor het beheer ervan. De snelheid waarmee documenten gemaakt kunnen worden en de aard van de elektronische bestanden maakt het ordenen en inventariseren een haast onmogelijke opdracht.

Elektronische documenten zoals online artikelen, e-zines (magazines), e-books en websites verschilden in vele opzichten van de bekende materialen (boeken, cassettes, diskettes, cd's, kranten, ...) . Websites kunnen veranderd, verplaatst en verwijderd worden en dat aan een snel tempo. Bovendien zijn er bijkomende juridische en technische problemen zoals het auteursrecht, beveiliging van de documenten, bewaring, enz.

Metadata

Metadata is data over data. Het zijn de beschrijvingsgegevens die over een document worden ingegeven om het te beheren, opzoekbaar te maken en te lokaliseren. De gegevens kunnen bij het document of in een database geplaatst worden.

De gegevens die gebruikt werden om documenten te beschrijven waren niet aangepast aan de gegevens van elektronische documenten. Er waren verschillende metadatastandaarden ontwikkeld voor allerlei soorten documenten en objecten, zoals gedrukt werk, kunstwerken en elektronische documenten. Omdat er van vele materialen elektronische versies bestaan, zijn er voor al deze verschillende soorten documenten standaarden bedacht. Dublin Core is één zo'n invloedrijke standaard.

Dublin Core

De Dublin Core regels voor metadata werden vastgelegd tijdens een workshop georganiseerd door het OCLC en NCSA (National center for Supercomputing Applications) in Dublin, Ohio in 1995. De Dublin Core staat voor een kernset van beschrijvingsgegevens voor het terugvinden van elektronische documenten.

Er zijn 15 kerngegevens:

Title
Subject and keywords
Description (content)
Source
Language

Relation
Coverage
Creator
Contributor
Publisher

Rights Management (auteursrecht)
Date
Type
Format
Identifier

Elk gegeven is optioneel en kan herhaald worden. Een aantal websites nemen de Dublin Core metadata op, waarbij de metadata meegeïndexeerd wordt met de inhoud van de webpagina’s. De Dublin Core regels zijn eenvoudig in gebruik en worden nu gebruikt in onder meer musea, archieven, audio-visuele toepassingen en open archives.

Andere metadatastandaarden

Naast Dublin Core zijn er voor verschillende materialen nog metadatastandaarden bedacht.
Zo zijn er onder andere

TEI (Text Encoding Initiative) wordt gebruikt om literatuur te beschrijven. Het geeft een volledig gecodeerde weergave van de tekst met een header die het document beschrijft.
GEM (Gateway to Educational Materials ) beschrijft educatieve internetbronnen. LOM (Learning Object Metadata) wordt gebruikt voor technologische leermiddelen zoals afstandsleren en elektronische leerplatforms.
CDWA (Categories for the Descriptions of Works of Art) en VRA (Visual Resources Association Core Categories ) beschrijven kunstwerken en ook afbeeldingen (foto's, dia's, ...) van kunstwerken.
MPEG geeft hulpmiddelen om audio- en videomateriaal te beschrijven.

De grote hoeveelheid standaarden gaat ten koste van de oorspronkelijke bedoeling om duidelijkheid te scheppen bij het beschrijven van elektronische documenten.

Indexering van elektronische documenten

Het indexeren van elektronische documenten probeert de documenten inhoudelijk opzoekbaar en doorzoekbaar te maken. Naast manueel indexeren van webpagina's kan ook automatisch geïndexeerd worden door de computer zelf en ook via zoekmachines kan de inhoud ontsloten worden.

Handmatig indexeren

Handmatig indexeren van webpagina's vergt veel tijd. De te indexeren pagina's moeten geselecteerd worden en het indexeren van de inhoud gebeurt traag. Naar schatting 1% van het web is handmatig geïndexeerd.

Ondanks het lage tempo en de hoge kostprijs biedt handmatig indexeren ook voordelen. Door de selectie is de kwaliteit gecontroleerd en gegarandeerd. Bovendien zijn de webpagina's gestructureerd en kan de gebruiker browsen door categorieën zonder de juiste trefwoorden te zoeken.

Zoekmachines

Zoekmachines zoals het bekende Google halen hun resultaten op aan de hand van metatags . Deze tags worden door de auteur van de webpagina in de broncode van de pagina gezet met formele gegevens over de pagina en de inhoud. Toch werken zoekmachines niet feilloos. Er is veel ruis, weinig precisie en een kleine recall.

Automatisch indexeren

Bij automatisch indexeren probeert de computer de volledige tekst van de pagina te indexeren ( full text ). Er zijn echter problemen met stopwoorden (de, of, van, een, ...) en woordcombinaties bv. de Tweede Wereldoorlog wordt als geheel gezocht, niet op "de", "tweede" of "wereldoorlog".
Een tweede mogelijkheid is intelligent indexeren. De computer selecteert relevante termen met behulp van een trefwoordenlijst, maakt een onderscheid tussen het belang van de titel en het belang van de tekst, enz.

Het Semantisch web probeert een intelligente onderliggende structuur te geven aan webpagina's die voor een computer enkel qua vormgeving herkenbaar zijn.

Zie ook

Ontsluiting (informatiewetenschap)

Referenties

http://www.loc.gov/marc/
Byrne, Deborah J., MARC Manual, Colorado (USA), 1991
Taylor, Arlene G., Understanding FRBR, Connecticut (USA), 2007