Mining semi-structured data, theoretical and experimental aspects of pattern evaluation

Leiden Repository

Mining semi-structured data, theoretical and experimental aspects of pattern evaluation

Type: Doctoral Thesis
Title: Mining semi-structured data, theoretical and experimental aspects of pattern evaluation
Author: Graaf, Edgar Hubert de
Publisher: Leiden Institute of Advanced Computer Science, Faculty of Science, Leiden University
Issue Date: 2008-10-29
Keywords: Co-occurrence visualization
Data Mining
Frequent Pattern Mining
Abstract: In dit proefschrift worden verschillende manieren onderzocht om semi-gestructureerde gegevens te analyseren, bijv. HTML bestanden. HTML bestanden hebben een structuur/opbouw, maar waar en hoe vaak je een tekst bold of italic maakt varieert voor elke HTML. Er is gekeken naar verschillende manieren om de voorkomens van een patroon (bijvoorbeeld alle moleculen in onze dataset bevatten een bepaalde set van atomen en verbindingen) te tellen om zo interessante patronen te vinden. Het juist presenteren van de resultaten aan de gebruiker is ook van belang. Dit proefschrift behandelt de visuele weergave van resultaten van de analyse (mining) van semi-gestructureerde gegevens, zodat de gebruiker eenvoudiger interessante patronen kan vinden. De conclusies zijn moeilijk kort samen te vatten. Echter het blijkt dat sommige patronen interessanter waren wanneer zij heel vlak achter elkaar voorkwamen en andere wanneer zij bijvoorbeeld wekelijks voorkwamen. Om nog meer interessante patronen te vinden is het aan te raden rekening te houden met dit element van tijd. Verder blijkt het dat visualisaties nodig zijn om de grote hoeveelheid patronen effectief te presenteren, bijvoorbeeld de gebruiker ziet in één oog opslag substructuren van moleculen die voorkomen. Het onderzoek in dit proefschrift is belangrijk voor de analyse van data. Denk bijvoorbeeld aan de analyse van het gedrag van klanten. Het is interessant voor bedrijven om te weten dat klanten bepaalde producten aanschaffen bijvoorbeeld elke maandag. Dit is vernieuwend omdat wij subgroepen van producten ontdekken, maar wij tellen subgroepen met de juiste eigenschappen voor tijd zwaarder dan subgroepen die gewoon zomaar voorkomen. De visualisatie van samen voorkomende molecuul substructuren kan de analyse van deze versnellen en deze manier van plotten is nieuw.
Description: Promotor: J.N. Kok, Co-promotor: W.A. Kosters
With summary in Dutch
Faculty: Faculteit der Wiskunde en Natuurwetenschappen
Citation: Graaf, E.H.de, 2008, Doctoral thesis, Leiden University
ISBN: 9789088910661
Sponsor: This research was financed by the Netherlands Organisation for Scientific Research (NWO) in the framework of project MISTA, grant no. 612.066.304. The work in this thesis has been carried out under the auspices of the research school IPA (Institute for Programming Research and Algorithmics
Handle: http://hdl.handle.net/1887/13207
 

Files in this item

Description Size View
application/pdf Full text 2.305Mb View/Open
application/pdf Cover 527.5Kb View/Open
application/pdf Propositions 28.62Kb View/Open

This item appears in the following Collection(s)