Webbinsamling

Nationalbiblioteket samlar in och arkiverar inhemskt nätmaterial som är tillgängligt för allmänheten på ett så heltäckande och mångsidigt sätt som möjligt. Nätmaterial samlas in med hjälp av ett automatiskt insamlingsprogram eller med utgivarnas hjälp. Om Nationalbiblioteket inte kan samla in materialet automatiskt men anser det vara av betydelse kontaktar biblioteket nätutgivaren som överlåter materialet eller möjliggör insamlingen av det.

Materialet i webbarkivet är heltext-indexerat. Allmänheten kan se webbarkivets innehåll på dataterminalerna för friexemplar som förutom i Nationalbiblioteket kommer att finnas tillgängliga i Riksdagsbiblioteket, Nationella audiovisuella arkivet samt friexemplarsbiblioteken runt om i Finland.

Årlig insamling

En omfattande insamling av inhemskt nätmaterial genomförs minst en gång om året med hjälp av ett automatiskt insamlingsprogram. Det är fråga om en s.k. landsdomän eller insamling i Finland, dvs. Nationalbiblioteket arkiverar webbplatser vars domännamn slutar med ".fi" eller ".ax". Även andra inhemska webbsidor lagras.

Temainsamlingar

Temainsamlingens syfte är att arkivera nätmaterial om ett visst ämne eller en aktuell händelse. Sådana material är till exempel:

  • aktuella material i anslutning till betydande nationella och statliga evenemang (t.ex. val och statsbesök)
  • även material med anknytning till andra evenemang (t.ex. stora idrottstävlingar, festivaler och konserter)
  • oväntade världspolitiska förändringar, naturkatastrofer o.d. situationer
  • insamlingar som genomförs i samarbete med museer, arkiv och olika forskningsinstitutioner.

Temainsamlingarnas länkar samlas utifrån listor som Nationalbibliotekets personal upprättat. Temainsamlingarna beskrivs i samlingsbeskrivningar i nationalbibliografin eller nationaldiskografin, dvs. databaserna Fennica eller Viola.

Tekniska data

Nationalbiblioteket gör insamlingar närmast genom sökroboten Heritrix. De huvudsakliga föremålen för insamling är webbplatser men även andra filer samlas (t.ex. ftp). Insamlingarna genomförs parallellt så att den belastning som en enstaka www-server utsätts för fördelar sig över en lång tidsperiod och den totala belastningen på nätet förblir liten. Inte ens de mest omfattande insamlingarna har lett till en märkbar ökning av filöverföringarna på stamnätsnivå.

Vid insamlingen av webbplatser identifierar sig Nationalbibliotekets sökrobot genom att använda följande värden för http-fält:

User-Agent: Mozilla/5.0 (compatible; heritrix/1.14.0+http://www.nationallibrary.fi/)
From: kk-webcrawler@helsinki.fi

Nationalbiblioteket söker även webbplatser som är lokaliserade i Finland genom att gå igenom servrar på nätet och granska huruvida de sprider webbsidor utåt (HTTP/portti 80). Sökningen av nya webbsidor sker med Nationalbibliotekets dator nwa5.lib.helsinki.fi (IP 128.214.91.134).

Vid insamlingarna används vanligen innehållet i den s.k. robots.txt-filen. Nationalbiblioteket kan även besluta att samla in material som skyddas av robots.txt-filen om materialet anses betydelsefullt för insamlingen.

De insamlade filerna samt datakommunikationen vid filöverföringen på protokollsnivå lagras som sådana i ARC- eller WARC-filformat. Nationalbiblioteket lagrar de aktuella arkivfilerna i sina datasystem.

Frågor om insamlingen kan skickas till adressen: e-vapaa(at)helsinki.fi

Databaser


I Webbsidor
URL : http://www.nationalbiblioteket.fi/utgtjanster/friexemplar/webbinsamling.html