Join Waitlist
GAISEO Logo G lossary

Inside the page

Share this
Cosima Vogel

Definition: BM25 (Best Matching 25) ist ein probabilistischer Ranking-Algorithmus, der Dokumente basierend auf Query-Term-Häufigkeit, Dokumentlänge und Korpus-Statistiken bewertet—die dominante Sparse-Retrieval-Methode in Suchmaschinen und als erste Stufe in vielen KI-Suchsystemen.

BM25 war jahrzehntelang das Rückgrat der Suche und bleibt essenziell in der KI-Ära. Während neuronale Methoden Schlagzeilen machen, handhabt BM25 oft die erste Retrieval-Stufe in hybriden KI-Systemen. BM25 zu verstehen erklärt, warum Keyword-Präsenz auch in semantischer Suche noch zählt.

Wie BM25 funktioniert

  • Term Frequency (TF): Dokumente mit mehr Query-Term-Vorkommen scoren höher, mit abnehmenden Returns.
  • Inverse Document Frequency (IDF): Seltene Terme im Korpus werden stärker gewichtet.
  • Dokumentlängen-Normalisierung: Längere Dokumente gewinnen nicht automatisch; Länge wird normalisiert.
  • Sättigung: Term-Frequency-Impact sättigt—10 Erwähnungen sind kaum besser als 5.

BM25-Formel-Komponenten

Komponente Was sie misst Impact
TF (Term Frequency) Wie oft Term im Dokument erscheint Höher ist besser (mit Sättigung)
IDF (Inverse Doc Freq) Wie selten Term im Korpus ist Seltene Terme höher gewichtet
k1 Parameter TF-Sättigungsgeschwindigkeit Typisch 1.2-2.0
b Parameter Längen-Normalisierungsstärke Typisch 0.75

Warum BM25 für AI-SEO wichtig ist

  1. First-Stage Retrieval: Viele KI-Systeme nutzen BM25 für initiale Kandidaten vor neuronalem Reranking.
  2. Hybride Systeme: BM25 kombiniert mit Dense Retrieval ist verbreitet; für beides optimieren maximiert Abdeckung.
  3. Exaktes Matching: Markennamen, technische Begriffe und spezifische Queries brauchen BM25-artiges Keyword-Matching.
  4. Baseline-Performance: Starke BM25-Performance sichert Sichtbarkeit in traditioneller und KI-Suche.

„BM25 ist das Arbeitspferd der Suche. Während neuronale Methoden semantisches Verständnis hinzufügen, stellt BM25 sicher, dass du gefunden wirst, wenn jemand nach exakt deinem Angebot sucht.“

Für BM25 optimieren

  • Ziel-Keywords inkludieren: Stelle sicher, dass Schlüsselbegriffe in deinem Content erscheinen, besonders in Titeln und frühen Absätzen.
  • Natürliche Keyword-Nutzung: Mehrfache Erwähnungen helfen, aber Sättigung bedeutet, du brauchst keine exzessive Wiederholung.
  • Long-Tail-Terme: Inkludiere spezifische, weniger häufige Begriffe mit hohem IDF-Wert.
  • Angemessene Länge: Decke Themen gründlich ab, aber vermeide unnötiges Padding.

Verwandte Konzepte

Häufig gestellte Fragen

Ist BM25 mit KI-Suche noch relevant?

Absolut. Die meisten Produktions-KI-Suchsysteme nutzen BM25 oder ähnliche Algorithmen als erste Retrieval-Stufe, oft kombiniert mit neuronalem Reranking. BM25s Geschwindigkeit und Präzision für exakte Matches machen es unverzichtbar selbst in fortgeschrittenen KI-Pipelines.

Wie unterscheidet sich BM25 von neuronaler Suche?

BM25 matcht Keywords direkt—wenn der exakte Term nicht präsent ist, gibt es keinen Match. Neuronale Suche versteht Bedeutung, sodass „Automobil“ „Auto“ matchen kann. Beide haben Stärken: BM25 für Präzision, Neural für semantisches Verständnis.

Quellen

Zukunftsausblick

BM25 bleibt relevant, da Hybrid Search Standard wird. Gelernte Sparse-Methoden wie SPLADE könnten BM25 ergänzen, aber das Prinzip des Keyword-Matchings wird persistieren.