Het Friese web gearchiveerd
18 oktober 2022Op een seminar over de nieuwe ronde internetextensies raakte ik in gesprek met Kees Teszelszky, conservator bij de KB, Nationale Bibliotheek in Den Haag. Omdat dit niet de meest logische persoon is om op deze plek tegen te komen, raakten we aan de praat. Kees blijkt als “conservator digitale collecties” meer dan gemiddeld betrokken bij domeinextensies. Meer specifiek: bij .frl, de extensie van en voor Friezen.
De KB is namelijk een project gestart om het Nederlandse web in kaart te brengen en te archiveren. Anders dan bij “offline media” als boeken en kranten, is informatie op websites vluchtig en is er geen archiveerplicht. Omdat een steeds groter deel van ons leven zich online afspeelt, is het van belang om ook deze digitale bronnen te bewaren voor toekomstig onderzoek naar onze huidige tijd. Of, zoals Kees zelf zegt: “Wat jij en ik online publiceren, dat is het digitale erfgoed van de toekomst.”
Het Friese domein als pilot
Het hele Nederlandse web is echter extreem groot. Om ervaring op te doen en de beste aanpak te definiëren, besloot de KB een pilot te starten met een geografisch en cultureel bijna net zo duidelijk af te bakenen deel van het Nederlandse internet: het Friese domein. Hierbij moet het woord “domein” worden gelezen als “gebied” en niet als “domeinnaam”.
In eerste instantie is het niet de bedoeling om alles te archiveren. Het doel is een collectie van wetenschappelijke waarde en dat hoeft niet uitputtend te zijn. Het is daarentegen wel de bedoeling om wát er gearchiveerd wordt, volledig te archiveren. Dus niet een paar pagina’s van een website die je als het je uitkomt op een later moment nog eens langsloopt (zoals bijvoorbeeld The Internet Archive doet), maar een volledige doorloop van de website die op gezette momenten herhaald wordt.
Hoe bepaal je welke websites interessant zijn? Dat begint met een overzicht van alle Friese websites. Het bestaan van de eigen internetextensie .frl is hierbij gouden informatie: de lijst met alle geregistreerde .frl-domeinen is namelijk gewoon opvraagbaar. Er is gekeken of ook op een eenduidige manier Friese domeinen onder andere domeinextensies (bijvoorbeeld .nl en .com) meegenomen konden worden. Dat bleek echter zo complex dat de pilot afgekaderd is tot .frl.
De lijst met te archiveren websites is vervolgens op basis van algoritmes gemaakt. Daarnaast is het publiek gevraagd om domeinnamen aan te leveren die in hun ogen onmisbaar zijn in een archief van het Friese web. Uitgangspunt is dat ze een inkijkje moeten geven in taal, cultuur, geografie of geschiedenis.
Een typisch Nederlandse moeilijkheid is dat de KB niet zomaar een website mag archiveren: hiervoor moet eerst de eigenaar op de hoogte worden gesteld en geen bezwaar hebben. De KB pleit dan ook voor meer actuele wetgeving rondom digitaal archiveren, zoals bijna alle andere landen die wel hebben.
De resultaten
Het .frl-project is nog niet afgelopen. Nog niet alle websites zijn “gecrawled” en (mede door de coronabeperkingen van afgelopen jaren) is er nog geen collectiebeschrijving en definitieve database opgesteld. Op dit moment staat de teller op bijna 10.000 gearchiveerde websites.
Als de crawling klaar is, zijn de twee voornaamste gegevenssets die beschikbaar zijn de gearchiveerde websites zelf en een grote verzameling metadata. Deze twee bronnen bieden wetenschappers de mogelijkheid de voor hen relevante data te selecteren voor hun eigen onderzoek. Dit echter alleen binnen de muren van de KB gezien de beperkende Nederlandse wetgeving.
Een voorbeeld van een onderzoek dat al tijdens het opbouwen van het archief is gedaan, is linguïstisch van aard: het blijkt dat er binnen Friesland zelf een enorme variatie is in taalgebruik. Of dit ook zou zijn gevonden in onderzoek binnen de traditionele media is maar de vraag!
Meer weten?
Wil je meer weten over het webarchiveringsproject van de KB? Op hun website staat een drietal zeer toegankelijke filmpjes over het verleden, het heden en de toekomst van webarchivering en natuurlijk de webcollecties zelf.
—
Door Siemen Roorda, geoTLD Expert bij Dotlocal.