Prof. Dr.-Ing. Petr Kroha
Vorlesung Information Retrieval Systeme
Charakteristik
Umfang: 2/0/0, im Wintersemester Voraussetzungen: Vordiplom, Teilnahme an Vorlesung Informationssysteme
Inhalte:
-
Einführung in die Verarbeitung von nicht-strukturierten Daten
-
Probleme der Bibliotheken, Probleme der IRS
-
Relevanz, Deskriptoren und Indexierung, Messen in IRS, Präzision, Recall, Anfragen
-
Funktionalität eines IRS
-
Normalisierung, Zoning, Zipf-Gesetz, Stemming, Dokument- und Index-Datenbank
-
Suchmöglichkeiten von IRS, Proximity, fuzzy-Suche, Thesaurus, Konzept, Darstellung von Dokumenten, Darstellung der Anfragen
-
Browsing, Ranking
-
Manuelle und automatische Indexierung, Wörterbuch, gewichtete Indexierung, Vektor-Systeme
-
Datenstrukturen für IRS, invertierte Datei, N-Gram-Struktur, PAT-Struktur, Trie-Struktur, Patricia-Tree, Signatur-Datei
-
Suchalgorithmen, String-Search, Knuth-Morris-Pratt-Algorithmus, Boyer-Moore-Algorithmus, endliche Automaten in IRS, Aho-Corasick-Algorithmus, Rabin-Karp Signatur
-
Dokument-Clustering, Wort-Clustering, Vektormodell der Ähnlichkeit, Centroid
-
Datenkompression, Huffman-Kodierung, Ziv-Lempel-Kodierung, arithmetische Kodierung
-
Auswertung von IRS
-
Text Mining, Text-Klassifikation, supervised und unsupervised Learning, Overfitting, Naive Bayes Klassifikation
-
Zeichenketten in Molekularbiologie, unexaktes Matching, Editdistanz, dynamische Programmierung
Students who want to take their written examinations in English, should tell Mr. Rentzsch before the last lecture of the semester!
Materialien
-
Kontrollfragen
-
Allgemeine Prüfungshinweise
-
Literaturempfehlungen:
-
Kowalski, Gerald: Information Retrieval Systems: Theory and Implementation. Kluwer, 1997.
-
Frakes, W.B., Baeza-Yates, R.: Information Retrieval - Data Structures & Algorithms. Prentice Hall, 1992.
-
Klassisches Buch: Salton, G.: Information Retrieval. 1987.