Structureren van informatieHet structureren van informatie houdt in dat gegevens geordend en georganiseerd worden ingegeven op zo'n manier dat die gegevens zo snel, efficiënt en accuraat mogelijk teruggevonden kunnen worden. Structureren van informatie is het ordenen van data. Er wordt een onderscheid gemaakt tussen formeel en inhoudelijk structureren. Bij het eerste worden de gegevens geordend, bij het tweede wordt de inhoud van de gegevens geordend door ze bijvoorbeeld onder te verdelen in categorieën, trefwoorden toe te kennen, enz. Inhoudelijk structureren wordt ook wel onderwerpsontsluiting genoemd. Documentaire informatieHet structureren van documentaire informatie gaat specifiek over het ingeven van gegevens van informatie die vastgelegd is omdat ze nuttig, zinvol of belangrijk wordt beschouwd. Het zijn boeken, videobanden, cd's, dvd's, cd-ROMS, microfilms, ... die gemaakt werden met de bedoeling dat anderen, nu en in de toekomst, van die informatie gebruik kunnen maken. ProblemenEen groot probleem bij het bewaren van informatie is de duurzaamheid van de dragers waarop de informatie vastgelegd is. Elk materiaal heeft een houdbaarheidsdatum, of het nu gaat om papier, microfilm, cd-roms of iets anders. Zo kan papier vergaan, inkt vervagen en materiaal bedoeld voor computers kan misschien enige tijd later niet meer gelezen worden, zoals diskettes. Een ander probleem is de overvloed aan informatie. Door de uitvinding van de boekdrukkunst verschenen er plots veel meer boeken dan bij handgeschreven boeken mogelijk was. Na de industriële revolutie kon er door meer mensen en over meer onderwerpen geschreven worden. Met de komst van het internet is de hoeveelheid informatie zo uitgebreid geworden dat het bijna niet meer mogelijk is belangrijk van onbelangrijk te onderscheiden en alle gegevens te verzamelen. Bovendien kunnen websites voortdurend bijgewerkt, verplaatst en verwijderd worden. Het opslaan van die gegevens is een nooit eindigende opdracht. Formeel structurerenFormele structurering draait om het ingeven van de gegevens. Het ordenen van de documentaire gegevens gebeurde voor de komst van ICT via de steekkaartencatalogus. Elk document -- boeken, artikels, kranten, geluidsopnames, ... -- werd beschreven volgens de standaard vastgelegde normen. Deze normen zijn de Paris-principles die in 1961 werden vastgelegd. De boeken en de andere documenten werden ook geordend door het plaatsingssysteem. De verschillende soorten informatiedragers konden worden onderverdeeld volgens materiaal (boeken, kranten, cd's, ...) of andere criteria zoals bijzondere boeken, populaire items, actualiteit en alle andere mogelijk nuttige indelingen.
Computercatalogen bieden een aantal voordelen in vergelijking met het steekkaartensysteem. Er kunnen programma's geschreven worden om de invoer te vergemakkelijken en te versnellen, er kan gewerkt worden met databases en waar bij de steekkaarten enkel gezocht kon worden op auteur, kan een computer ook laten zoeken op titel, onderwerp, thema en vele andere. MARCIn 1965 lanceerde de Library of Congress (Washington) MARC (MAchine Readable Cataloging). Dit programma liet toe gegevens in te voeren in een computer. Oorspronkelijk was het bedoeld als een uitwisselingsprogramma zodat bibliotheken hun data konden doorgeven aan elkaar.
Het programma maakt gebruik van codes om aan te geven welke gegevens ingevoerd moeten worden. Het nummer voor de titel is bijvoorbeeld 245, waardoor het net als Dewey's classificatiesysteem in alle bibliotheken ter wereld gebruikt kan worden.
Functional Requirements for Bibliographic RecordsFRBR (functional requirements for bibliographic records) is een conceptueel model dat in 1998 opgesteld werd door de IFLA (the International Federation of Library Institutions and Associations) om het maken van online catalogen te verbeteren.
FRBR stelt een entiteit-relatie model voor. Dingen worden onderverdeeld als verschillende entiteiten waar bepaalde attributen bijhoren en waarbij de entiteiten in relatie tot elkaar staan. EntiteitenDe entiteiten zijn opgedeeld in 3 grote groepen:
Een werk is het concept van een document bv. het onderwerp Romeo en Julia. Een expressie is de vorm waarin het onderwerp gegoten wordt bv. een boek, een toneelstuk, een opera of enige andere manier waarin het onderwerp tot uitdrukking wordt gebracht. Een manifestatie is de tastbare vorm van de manifestatie: het gedrukte boek, het script voor het toneelstuk of het libretto van de opera. Het item is dan één specifiek exemplaar van de manifestatie, zoals het boek Romeo en Julia dat in de boekhandel te koop is, een specifieke toneelvoorstelling in een reeks van vele opvoeringen of één operavoorstelling van de hele tournee. FRBR stelt het concept dus top down voor, van het abstracte werk tot het specifieke item. Het catalogiseren zelf gebeurt 'bottom-up', vanuit de aparte items. AttributenDe attributen omschrijven de verschillende entiteiten, zij zijn de kenmerken van de entiteit waardoor de gebruiker de entiteit kan opzoeken. Voor elk onderdeel van de groepen entiteiten zijn attributen vastgesteld door FRBR. Bij een werk zijn dat bijvoorbeeld titel, materiaal, datum van publicatie, enz. RelatiesDe entiteiten kunnen verschillende soorten relaties hebben. Zo staan de 4 entiteiten van groep 1 tot elkaar in verhouding doordat een werk gerealiseerd wordt in een expressie, een expressie vorm krijgt in een manifestatie, en een manifestatie uit meerdere items bestaat. Entiteiten uit verschillende groepen kunnen met elkaar in relatie staan, bv. tussen groep 1 en groep 2: een werk wordt bedacht door een persoon of corporatie, een expressie is er door vorm gegeven, een manifestatie er door geproduceerd en een item kan het bezit van een persoon of corporatie zijn. Bovendien kan een werk als onderwerp alle entiteiten uit de 3 groepen hebben, waardoor ze allemaal tot elkaar in relatie staan. Door deze relaties kan een gebruiker via verschillende gegevens komen bij het document dat hij zoekt. Inhoudelijke ontsluitingDocumenten kunnen door de gebruiker opgezocht worden via de gegevens titel, auteur en alle andere die ingegeven zijn bij het structureren. Er kan niet gezocht worden op inhoud.
ClassificatiesystemenEen classificatie is een indeling van alles wat bestaat in verschillende kennisgebieden. Alle onderverdelingen krijgen bovendien een code. Er bestaan vele manieren om zaken in te delen, maar het is eigen aan een classificatiesysteem om een code te hebben bij elk onderdeel. Net als bij MARC zorgt de code ervoor dat het systeem in alle bibliotheken ter wereld bruikbaar is, ongeacht de taal van het land. DDCEen nog steeds veelgebruikt classificatiesysteem is de Dewey Decimal Classification (DDC). Dit systeem werd in 1876 bedacht door Melvil Dewey. Het bestaat uit 10 klassen met telkens 10 subklassen die elk 10 rubrieken bevatten. De Dewey Decimal Classification wordt nog steeds met groot succes toegepast in Angelsaksische landen. In 1905 stelden Paul Otlet en Henri La Fontaine hun Universal Decimal Classification (UDC) voor. Het systeem was niet bedoeld om documenten te ordenen, maar om via een code tot in detail het onderwerp van een document te kunnen aanduiden. Het wordt nu enkel nog als een classificatiesysteem gebruikt, vooral in wetenschappelijke bibliotheken. LCCIn 1901 had de Library of Congress al haar Library of Congress-Classificatie gepubliceerd, die ontwikkeld was in 1897. Het is nu een van de meest gebruikte classificaties. SISORond 1950 bedacht men in Nederland een schema voor de indeling van de systematische catalogus in openbare bibliotheken (SISO). Het werd tot ongeveer 1990 met enige aanpassingen ook gebruikt in Vlaanderen, tot in 1987 de Vlaamse SISO uitgevonden werd. Als plaatsingssysteem vertoonde het echter tekortkomingen. Daarom werd niet veel later ZIZO opgestart (Zonder Inspanning ZOeken). Dit systeem wordt veel gebruikt in jeugdbibliotheken. Andere classificatiesystemenEr zijn 2 grote soorten systemen te onderscheiden: EnumeratieveEnumeratieve classificaties zijn een opsomming van alle mogelijke kennisgebieden, zoals SISO. Het is een eenvoudig bruikbaar systeem, maar er zijn enkele nadelen. Het is vrij omslachtig om een nieuwe categorie in te voegen, aangezien alles hernummerd moet worden. Nieuwe onderwerpen zoals nieuwe technologieën of wetenschappelijke takken moeten dus eerst naar best vermogen ondergebracht wordt tot het belangrijk genoeg besloten wordt om een eigen klasse toe te kennen. Bovendien is de opdeling erg groot en bevat een enumeratief classificatiesysteem 100.000 tot 200.000 klassen. CombinatieveBij combinatieve classificaties worden codes van verschillende klassen en subklassen gecombineerd om tot het specifieke onderwerp van het document te komen. Analytisch-synthetische classificatie en facetclassificatie werken op zo'n manier. Analytisch-synthetisch Bij een analytisch-synthetische classificatie wordt een onderwerp opgesplitst in onderdeeltjes (geanalyseerd) waarna alle codes van de onderdelen bijeengevoegd worden tot één grote(re) code (gesynthetiseerd). Voor deze werkwijze bestaan er regels over wat er gecombineerd kan worden en in welke volgorde. Facetclassificatie Facetclassificatie is een uitvinding van S.R. Ranganathan. In zijn werk Colonclassification uit 1933 beschrijft hij de basisfacetten die met elkaar gecombineerd kunnen worden. Het PMEST-schema staat voor personality, matter, energy, space en time. De combinatieve classificaties leveren vaak het probleem op dat de overzichtelijkheid van de code verloren gaat. De nummering wordt steeds ingewikkelder naarmate dieper op het gewenste onderwerp wordt ingezoomd. Een oplossing is subklassen als "overige" te benoemen. Overzichtelijkheid is een van de vereisten voor een goede classificatie. Vereisten voor een classificatiesysteemEen goed classificatiesysteem voldoet aan de volgende eisen:
Onderwerpen ontsluitenIn de computercatalogus kan een document gezocht worden op woorden in de titel of zelfs voor- of achternaam van de auteur en andere gegevens. Naast titelwoorden kan er ook gezocht worden op trefwoorden.
Er kan ook met zoekwoorden gewerkt worden. Met zoekwoorden worden die documenten weergegeven die de woorden van de zoekopdracht ergens in hun beschrijving hebben, wanneer de woorden in de titel, de trefwoorden of de korte inhoud van het document staan. Voor fictie worden themawoorden en genres gebruikt. MethodeOm een document inhoudelijk te ontsluiten moet eerst het onderwerp of de onderwerpen ervan vastgesteld worden. Bij de beschrijving van het onderwerp wordt gebruikgemaakt van een vast vocabularium zodat de gebruikte woorden altijd dezelfde zijn. Het zoeken naar het onderwerp van het document is de inhoudsanalyse. Het resultaat is een onderwerpsomschrijving, ook wel de inhoudskarakteristiek genoemd.
De vocabulariumlijst waaruit de bewoording voor het onderwerp gekozen wordt kan vrij zijn, waarbij de indexeerder elk woord uit de taal mag gebruiken. De lijst kan ook gecontroleerd zijn. Dit is dan een vaste lijst van termen. Meestal wordt er een vaste lijst gebruikt die toch uitgebreid mag worden. Er zijn twee manieren om de onderwerpen te beschrijven:
Trefwoorden zijn precoördinatieve classificatie, bij postcoördinatieve classificatie wordt gebruikgemaakt van een thesaurus. Een thesaurus is een lijst van termen met enkelvoudige termen die gecombineerd kunnen worden omdat ze met elkaar in verband staan. Een woord wordt dan gecombineerd met een aantal onderwerpen die aangegeven worden met onder andere broader term (BT), narrower term (NT) en related term (RT). Elektronische documentenDe opkomst van de ICT zorgde voor een groot aantal problemen voor het catalogiseren van informatie. De vele mogelijkheden die de computer bood voor het produceren van documenten creëerden een aantal problemen voor het beheer ervan. De snelheid waarmee documenten gemaakt kunnen worden en de aard van de elektronische bestanden maakt het ordenen en inventariseren een haast onmogelijke opdracht. Elektronische documenten zoals online artikelen, e-zines (magazines), e-books en websites verschilden in vele opzichten van de bekende materialen (boeken, cassettes, diskettes, cd's, kranten, ...) . Websites kunnen veranderd, verplaatst en verwijderd worden en dat aan een snel tempo. Bovendien zijn er bijkomende juridische en technische problemen zoals het auteursrecht, beveiliging van de documenten, bewaring, enz. MetadataMetadata is data over data. Het zijn de beschrijvingsgegevens die over een document worden ingegeven om het te beheren, opzoekbaar te maken en te lokaliseren. De gegevens kunnen bij het document of in een database geplaatst worden. De gegevens die gebruikt werden om documenten te beschrijven waren niet aangepast aan de gegevens van elektronische documenten. Er waren verschillende metadatastandaarden ontwikkeld voor allerlei soorten documenten en objecten, zoals gedrukt werk, kunstwerken en elektronische documenten. Omdat er van vele materialen elektronische versies bestaan, zijn er voor al deze verschillende soorten documenten standaarden bedacht. Dublin Core is één zo'n invloedrijke standaard. Dublin CoreDe Dublin Core regels voor metadata werden vastgelegd tijdens een workshop georganiseerd door het OCLC en NCSA (National center for Supercomputing Applications) in Dublin, Ohio in 1995. De Dublin Core staat voor een kernset van beschrijvingsgegevens voor het terugvinden van elektronische documenten. Er zijn 15 kerngegevens:
Elk gegeven is optioneel en kan herhaald worden. Een aantal websites nemen de Dublin Core metadata op, waarbij de metadata meegeïndexeerd wordt met de inhoud van de webpagina’s. De Dublin Core regels zijn eenvoudig in gebruik en worden nu gebruikt in onder meer musea, archieven, audio-visuele toepassingen en open archives. Andere metadatastandaardenNaast Dublin Core zijn er voor verschillende materialen nog metadatastandaarden bedacht.
De grote hoeveelheid standaarden gaat ten koste van de oorspronkelijke bedoeling om duidelijkheid te scheppen bij het beschrijven van elektronische documenten. Indexering van elektronische documentenHet indexeren van elektronische documenten probeert de documenten inhoudelijk opzoekbaar en doorzoekbaar te maken. Naast manueel indexeren van webpagina's kan ook automatisch geïndexeerd worden door de computer zelf en ook via zoekmachines kan de inhoud ontsloten worden. Handmatig indexerenHandmatig indexeren van webpagina's vergt veel tijd. De te indexeren pagina's moeten geselecteerd worden en het indexeren van de inhoud gebeurt traag. Naar schatting 1% van het web is handmatig geïndexeerd. Ondanks het lage tempo en de hoge kostprijs biedt handmatig indexeren ook voordelen. Door de selectie is de kwaliteit gecontroleerd en gegarandeerd. Bovendien zijn de webpagina's gestructureerd en kan de gebruiker browsen door categorieën zonder de juiste trefwoorden te zoeken. ZoekmachinesZoekmachines zoals het bekende Google halen hun resultaten op aan de hand van metatags . Deze tags worden door de auteur van de webpagina in de broncode van de pagina gezet met formele gegevens over de pagina en de inhoud. Toch werken zoekmachines niet feilloos. Er is veel ruis, weinig precisie en een kleine recall. Automatisch indexerenBij automatisch indexeren probeert de computer de volledige tekst van de pagina te indexeren ( full text ). Er zijn echter problemen met stopwoorden (de, of, van, een, ...) en woordcombinaties bv. de Tweede Wereldoorlog wordt als geheel gezocht, niet op "de", "tweede" of "wereldoorlog".
Het Semantisch web probeert een intelligente onderliggende structuur te geven aan webpagina's die voor een computer enkel qua vormgeving herkenbaar zijn. Zie ookReferenties
Information related to Structureren van informatie |