Distributed Document Processing - Search index optimization by data preprocessing and workload distribution

Detta är en Uppsats för yrkesexamina på avancerad nivå från Chalmers tekniska högskola/Institutionen för data- och informationsteknik

Författare: Johan P Sjöberg; Sture Svensson; [2009]

Nyckelord: ;

Sammanfattning: This thesis investigates the possible improvements to indexing filesstored on servers in a local network; it is a known fact that the taskof indexing is very time demanding and network consuming. At thesame time the servers possess potentially unused processing capabilities.The proposed improvement given by this thesis is to distributethe tasks of text extraction and data processing to the idle processingcapabilities of the servers. In addition to the theoretical basis ofthe improvement a working java prototype is also constructed. Theprototype is designed to be capable of interoperability with virtuallyany existing indexing service via a unison adapter interface. It's alsoconstructed to be able to handle any file type by an extractor interface.In addition the system also provides network synchronization and loaddistribution mechanisms. The result of the investigation indicates thatthe gains from the constructed system are substantial, especially regardingdecreasing the magnitude of generated network traffic as wellas reducing the overall time needed to perform the indexing operation.Relieving the index server of some work also implies that less powerfulserver configuration is necessary to effectively perform the indexingtask.//SammanfattningDenna uppsats undersöker möjlig förbättring av att samla in nätverkslagradefiler för indexering. Det är ett känt faktum att indexeringär en mycket tidskrävande och nätverksbetungande uppgift, samtidigtsom servrar som lagrar filer har potentiellt stora mängder outnyttjaderesurser. De föreslagna förbättringarna i denna uppsats baseras påatt fördela ut textutvinning och databehandling till ledig processeringskapacitetpå servrarna. Utöver undersökningar av den teoretiskagrunden för förbättringarna har även en applikation skrivits i java.Prototypen är utformad för att vara kapabel att samverka med i principalla befintliga indexeringstjänster via ett adaptergränssnitt. Den ärockså byggd för att potentiellt kunna hantera samtliga filtyper via etttextextraheringsgränssnitt. Utöver distribuering så tillhandahåller systemetäven nätverkssynkronisering och belastningsdelning. Resultatetav undersökningen visar att vinsten från distribuering är betydande,särskilt när det gäller att minska nätverkstrafiken men även på dentotala tidsåtgången för indexeringen. Den minskade belastningen påindexservern leder även till att en mindre kraftfull server kan användasför att utföra indexeringen.

  KLICKA HÄR FÖR ATT SE UPPSATSEN I FULLTEXT. (PDF-format)