Meine Merkliste
my.bionity.com  
Login  

Latent Dirichlet Allocation



Latent Dirichlet allocation (LDA) ist ein von David Blei, Andrew Ng und Michael I. Jordan vorgestelltes generatives Wahrscheinlichkeitsmodell für Dokumente wie Text- oder Bildkorpora. Dabei wird jedes Korpuselement, oft Dokument genannt, als eine Mischung von verschiedenen zugrundeliegenden Themen (eng. latent topics) betrachtet. Jedes sichtbare Wort im Dokument ist wiederum einem Thema zugeordnet. Diese Themen, deren Anzahl zu Beginn mit k festgelegt wird, erklären Ähnlichkeiten zwischen Dokumenten. So wären mögliche Themen in Bildkorpora z.B. Himmel, Wiese oder Straße; in Textkorpora abstraktere Inhalte, wie Sport, Politik oder Bildung.

LDA wurde als ein grafisches Modell im Jahr 2003 präsentiert. Es dient u.a. zur Dokumentmodellierung, Text Klassifikation, Information Retrieval, Collaborative Filtering oder dem Finden von neuen Inhalten in Textkorpora. Andere Anwendungen finden sich im Bereich der Bioinformatik.

Externe Referenzen

  • Blei, D. M., Ng, A. Y., and Jordan, M. I. 2003. Latent dirichlet allocation. Journal of Machine Learning Research. 3:993-1022. Mar. 2003.
  • LDA Implementierung in C von Prof. Blei.
 
Dieser Artikel basiert auf dem Artikel Latent_Dirichlet_Allocation aus der freien Enzyklopädie Wikipedia und steht unter der GNU-Lizenz für freie Dokumentation. In der Wikipedia ist eine Liste der Autoren verfügbar.
Ihr Bowser ist nicht aktuell. Microsoft Internet Explorer 6.0 unterstützt einige Funktionen auf ie.DE nicht.