Indexeringsdokumentation - Vastra-Gotalandsregionen/oppna-program-vardaktorsportalen GitHub Wiki

Introduktion

Denna sida beskriver indexering och processering av information f�r V�rdakt�rsportal-s�kets k�llor. Nuvarande k�llor:

Regionala medicinska riktlinjer
1177.se
L�kemedelsverket
SBU
Socialstyrelsen
TLV

Dokumentprocessering och indexering

Dokument samlas in, bearbetas, och matas till Solr genom ramverket Open Pipeline. Inom Open Pipeline konfigureras ett antal Pipelines, som i sig best�r av en insamlingsagent och en serie processeringssteg. Solr �r indexeringsmotorn d�r alla processerade dokument lagras. Open Pipeline och Solr �r utvecklade som java webbapplikationer och k�rs p� samma Tomcat p� Indexeringsservern.

Adress till Open Pipeline: http://vgas0488.vgregion.se:8180/docproc/ Namn p� webbapplikation: docproc

Adress till Solr: http://vgas0488.vgregion.se:8080/solr/VAP-index< Namn p� webbapplikation: solr

Definitioner

Collection � Inneh�llsm�ssigt avdelad m�ngd inneh�ll, motsvarar i allm�nhet en pipeline. Exempel: SBU, L�kemedelsverket Insamlingsagent, konnektor � Program som extraherar dokument fr�n ett k�llsystem. Pipeline � Insamllingsagent och processeringssteg. Processeringssteg � Funktionalitet som bearbetar ett dokument.

Insamlingsagenter

Web

Webcrawlning sker med hj�lp av tv� konnektorer: L�nkar fr�n rss-fl�den samlas in av en rss-konnektor, som uppdaterar crawlerns databas med nya l�nkar som hittats, och eventuellt med information om dokumenten har uppdaterats sedan de senast crawlades. Matning och bearbetning hanteras av crawlern (web-konnektor), som konsumerar information i crawlerdatabasen.

Solr

Dokument som processerats av Open Pipeline lagras i ett index hos Solr. Varje dokument best�r av ett antal f�lt som innh�ller dokumentets information. Exempel p� dessa �r br�dtext (body), titel, f�rfattare, datum och k�lla. F�r h�g tillg�nlighet �r Solr uppsatt med replikering. Replikering sker var 20:e minut. Det inneb�r att indexet f�r indexering replikeras (kopieras) till det index som s�kningar g�rs mot. Detta m�jlig�r att man kan k�ra s�k-indexet p� en eller flera separata serverar i produktion.

Index-schema

Index-schemat specificerar vilka f�lt som finns och hur de anv�nds. Schemat definieras i en konfigurationsfil hos Solr som heter schema.xml. V�rdakt�rsportalen k�r just nu exakt samma schema som hitta f�r enklare underh�ll, det g�r att det kan finnas f�lt i schemat som inte anv�nds.

Ett f�lt definieras genom dess namn, datatyp och om det �r indexerat och/eller lagrat. Ett indexerat f�lt �r s�kbart i Solr, medan ett lagrat f�lt kan visas i anv�ndargr�nssnittet. Ett indexerat f�lt som inte �r lagrat anv�nds f�r filtreringsm�jligheter, exempelvis datum. Ett lagrat f�lt som inte �r indexerat �r exempelvis filstorlek som man inte vill s�ka p� men �nd� kunna visa i gr�nssnittet.

Nedan f�ljer en specifikation av index-schemat. Kolumnen "Highlight" visar i vilka f�lt som s�kord blir markerade i s�kresultatet.