Abkürzungen

Alle wichtigen Begriffe und Abkürzungen rund um RAG – gesammelt auf einer Seite.

A) RAG- und LLM-Grundbegriffe

Begriff / Abkürzung	Erklärung
RAG	Retrieval Augmented Generation: LLM holt vor der Antwort passende externe Inhalte (Dokumente/Chunks) und nutzt sie als Kontext, um Halluzinationen zu senken und Aktualität/Domain‑Wissen einzubinden.
LLM	Large Language Model: großes Sprachmodell für Generierung/Reasoning.
LM	Language Model: allgemeiner Begriff (klein bis groß).
SLM	Small Language Model: kleinere Modelle (billiger/schneller), oft für Router, Grader oder lokale Setups.
Grounding / Groundedness	Grad, in dem eine Antwort auf bereitgestellter Evidenz basiert (statt freier Generierung).
Halluzination	Plausibel klingende, aber unbelegte oder falsche Aussage des Modells.
Knowledge Base (KB)	Wissensbasis: Dokumente, Wikis, Handbücher, Datenbanken, Richtlinien.
Standard RAG / Vanilla RAG	Einfaches RAG: Chunking → Embeddings → Vektorsuche (Top‑K) → Kontext ins LLM.
Conversational RAG	RAG mit Dialog‑Memory; Follow‑ups werden durch Query Rewriting in Stand‑alone Queries umgeschrieben.
CRAG	Corrective RAG: zusätzliche Grader‑Schicht prüft Retrieval‑Qualität; bei schlechten Treffern wird nach‑retrieved oder auf andere Quellen ausgewichen.
Adaptive RAG	Routing/Classifier entscheidet pro Anfrage: ohne Retrieval / Standard RAG / Agent / Spezialpfad.
Self RAG	Modell reflektiert während der Antwort (z. B. via Reflection‑Tokens), ob Aussagen belegt sind, und triggert bei Unsicherheit neues Retrieval.
Fusion RAG / RAGFusion	Mehrere Query‑Varianten, paralleles Retrieval, Zusammenführung via Rank Fusion (z. B. RRF) → höherer Recall.
HyDE	Hypothetical Document Embeddings: LLM erzeugt hypothetische Antwort; deren Embedding wird zur Suche genutzt.
Agentic RAG	Agent plant iterativ, ruft Tools (Vektorsuche, Web, APIs) auf, sammelt Evidenz und beantwortet erst dann.
GraphRAG	RAG auf Basis eines Wissensgraphen (Entitäten/Relationen) statt reiner Textähnlichkeit; gut für Mehrhop‑Zusammenhänge.
Pipeline	Kette aus Bausteinen: Ingestion → Chunking → Indexing → Retrieval → Prompting → Generation → Evals/Logging.
Orchestration	Steuerlogik, die Komponenten koordiniert (z. B. Router, Agent Loop, Tool Calls, Retries).
Context Window	Maximale Tokenmenge, die das Modell gleichzeitig verarbeiten kann (Prompt + Kontext + Antwort).
Token Budget	Praktische Begrenzung der Tokens pro Anfrage; beeinflusst Top‑K, Chunk‑Länge, Compression.

B) Retrieval-Methoden und Rankingbegriffe

Begriff / Abkürzung	Erklärung
IR	Information Retrieval: Fachgebiet rund um Suchen, Ranking, Relevanz.
Top K	Nimmt die K bestbewerteten Treffer (z. B. K=5/10/20). Zentraler Trade‑off: Recall vs. Rauschen.
kNN	k Nearest Neighbors: Suche nach den k ähnlichsten Vektoren.
Dense Retrieval	Semantische Suche über Embeddings (dichte Vektoren). Robust gegen Paraphrasen.
Sparse Retrieval	Keyword‑Suche (sparse Vektoren), klassisch z. B. BM25. Stark bei exakten Begriffen/IDs.
Hybrid Search	Kombination aus Dense + Sparse (Semantik + exakte Treffer).
BM25	Klassisches Rankingverfahren der Keyword‑Suche (IR‑Standard).
TF‑IDF	Klassischer Keyword‑Score (Term Frequency – Inverse Document Frequency), oft historisch/grundlegend.
RRF	Reciprocal Rank Fusion: fusioniert mehrere Rankings; bevorzugt Dokumente, die in mehreren Rankings weit oben sind.
MMR	Maximal Marginal Relevance: wählt Treffer, die relevant und divers sind (reduziert Redundanz im Kontext).
Recall@K	Anteil relevanter Dokumente, die in den Top‑K erscheinen (wichtig für RAG‑Qualität).
Precision@K	Anteil der Top‑K‑Treffer, die wirklich relevant sind (Rauschmaß).
MRR	Mean Reciprocal Rank: bewertet, wie weit oben der erste relevante Treffer steht.
nDCG	Normalized Discounted Cumulative Gain: Rankingqualität bei abgestufter Relevanz (sehr üblich im IR).
Re‑ranking / Reranker	Zweite Stufe: Kandidatenliste wird mit stärkerem Modell neu sortiert (mehr Präzision, mehr Rechenzeit).
Bi‑Encoder	Embedding‑Modell: Query und Dokument getrennt eingebettet → schnelle Vektorsuche.
Cross‑Encoder	Reranker‑Modell: Query + Dokument gemeinsam bewertet → präziser, aber langsamer.
DPR	Dense Passage Retrieval: bekanntes Dense‑Retrieval‑Paradigma (Query/Passage‑Encoder).
ColBERT	Retrieval‑Ansatz mit tokenweiser Interaktion (gute Qualität, spezieller Index).
SPLADE	Neuronales Sparse Retrieval (generiert sparse Termgewichte), oft als Alternative/Ergänzung zu BM25.
Query Expansion (QE)	Erweitert Query um Synonyme/Varianten, um mehr passende Treffer zu finden.
PRF	Pseudo Relevance Feedback: Query wird anhand Top‑Treffer automatisch verbessert (klassisches IR‑Prinzip).
Query Rewriting	Umschreiben einer Nutzerfrage in eine explizite Suchanfrage (besonders bei Dialogen).
Semantic Search	Suche nach Bedeutung statt exakter Wörter (typisch Dense Retrieval).
Lexical Search	Suche nach Begriffen/Wortformen (typisch Sparse Retrieval/BM25).
Filters / Metadata Filters	Einschränkung der Suche über Metadaten (z. B. Region, Version, Datum, Dokumenttyp).

C) Embeddings, Ähnlichkeit und Vektor-Grundlagen

Begriff / Abkürzung	Erklärung
Embedding	Vektorrepräsentation eines Textes (oder Bildes etc.) im semantischen Raum.
Embedding Model	Modell, das Text → Vektor abbildet (Qualität stark domänenabhängig).
Dimensionality	Vektordimension (z. B. 384/768/1024/3072); beeinflusst Speicher/Speed/Genauigkeit.
Normalization	Normieren von Vektoren (z. B. L2‑Norm), wichtig für konsistente Ähnlichkeitsmaße.
Cosine Similarity	Ähnlichkeitsmaß (Winkel zwischen Vektoren), häufigster Standard.
Dot Product	Skalarprodukt; bei normierten Vektoren eng verwandt mit Cosine.
Euclidean Distance	Abstand im Raum; je nach Index/DB genutzt.
Vector Store	Speicher/Index für Vektoren + Metadaten + Payload (Text, IDs).
Vector DB	Vektordatenbank mit ANN‑Indexing, Filtern, Skalierung (z. B. Qdrant/Weaviate/Pinecone/Milvus).
ANN	Approximate Nearest Neighbor: Näherungssuche für Geschwindigkeit bei großen Datenmengen.
Exact Search	Exakte kNN (langsamer, aber präziser) – meist nur bei kleinen Datenmengen.
HNSW	Hierarchical Navigable Small World: sehr verbreiteter ANN‑Index (schnell, gute Qualität).
IVF	Inverted File Index: ANN‑Indexfamilie (z. B. IVF Flat/IVF PQ), oft in FAISS.
PQ	Product Quantization: komprimiert Vektoren, spart Speicher, kann Qualität kosten.
OPQ	Optimized Product Quantization: verbesserte PQ‑Variante (bessere Kompression/Qualität).
FAISS	Facebook AI Similarity Search: bekannte Library für Vektorsuche/Indexing.
Sharding	Verteilung von Daten/Index auf mehrere Knoten (Skalierung).
Replication	Mehrfachhaltung für Verfügbarkeit/Read‑Skalierung.
Recall–Latency Trade‑off	Grundkonflikt: bessere Trefferqualität kostet meist mehr Zeit/Rechenaufwand.

D) Dokumentaufbereitung und Pipeline-Bausteine

Begriff / Abkürzung	Erklärung
Ingestion	Einlesen/Überführen von Rohdaten (PDF, HTML, DB‑Records) in eine indexierbare Form.
ETL / ELT	Datenpipeline‑Muster: Extract‑Transform‑Load (oder Load‑then‑Transform).
Parsing	Extraktion von Text/Struktur aus Dateien (PDF‑Layout, Tabellen, Überschriften).
Chunking	Aufteilen von Dokumenten in kleinere Einheiten für Indexing/Retrieval.
Chunk Size	Länge eines Chunks (in Tokens/Wörtern/Zeichen); beeinflusst Kontextqualität.
Overlap	Überlappung zwischen Chunks, damit Sätze/Definitionen nicht „zerschnitten“ werden.
Semantic Chunking	Chunking entlang semantischer Grenzen (Absätze/Überschriften/Topics), nicht nur nach Länge.
Parent‑Child Chunking	Kleine „Child“‑Chunks indexieren, bei Treffer den größeren „Parent“‑Kontext nachladen.
Metadata	Zusatzinfos pro Dokument/Chunk (Datum, Version, Autor, Abteilung, URL).
Docstore	Ablage der Originaldokumente oder Langtexte neben dem Vektorindex.
Deduplication	Entfernen von Duplikaten/nahezu identischen Chunks (reduziert Rauschen, spart Kosten).
Boilerplate Removal	Entfernt wiederkehrende Seitenelemente (Footer, Menüs) aus Web/PDF‑Texten.
Language Detection	Erkennung der Sprache; wichtig für passende Embeddings/Tokenizer.
PII Redaction	Maskierung personenbezogener Daten vor Indexing/Logging.
Index Build	Erstellen/Aktualisieren des Suchindex (Batch oder inkrementell).
Incremental Indexing	Nur Änderungen nachziehen (statt alles neu), wichtig bei dynamischen KBs.
TTL	Time To Live: Ablaufzeit für Cache‑Einträge oder temporäre Daten.

E) Prompting, Generierung und Steuerparameter

Begriff / Abkürzung	Erklärung
Prompt	Eingabe an das LLM (Instruktionen + Kontext + Frage).
System Prompt	Höchstrangige Instruktionsebene (Rolle/Regeln/Policies).
Prompt Template	Wiederverwendbares Prompt‑Gerüst mit Platzhaltern (Kontext, Frage, Format).
Instruction Following	Fähigkeit, Anweisungen zuverlässig umzusetzen (Format, Stil, Regeln).
Temperature	Zufälligkeit der Ausgabe (hoch = kreativer, niedrig = deterministischer).
Top‑p (Nucleus Sampling)	Sampling‑Parameter: wählt aus wahrscheinlichsten Tokens, bis Summe p erreicht.
Max Tokens	Maximale Länge der Antwort (oder Gesamt‑Output).
Stop Sequences	Zeichenfolgen, bei denen die Ausgabe beendet wird (Formatsteuerung).
Structured Output / JSON Mode	Ausgabe in festem Schema (z. B. JSON), um Weiterverarbeitung zu erleichtern.
Citation / Attribution	Quellen-/Evidenzangabe: welche Chunks stützen welche Aussage (wichtig für Vertrauen).
Grounded Answering	Antwort strikt nur aus Kontext, sonst „nicht genug Evidenz“.
Abstention	Gezieltes „Nicht beantworten“, wenn Evidenz fehlt (Qualitätsmerkmal).
Context Stuffing	Zu viel Kontext „reinstopfen“; führt oft zu schlechteren Antworten.
Contextual Compression	Verdichten der Treffer auf relevante Sätze/Passagen, um Rauschen zu senken.
Refusal / Guardrails	Regeln, wann das System Inhalte ablehnt oder einschränkt (Safety/Policy).
Prompt Injection	Angriff: bösartige Inhalte in Dokumenten/Pages versuchen, Systeminstruktionen zu überschreiben.

F) Evaluation, Qualitätsmetriken und Observability

Begriff / Abkürzung	Erklärung
Evals	Systematische Qualitätsprüfung (Testset, Regressionstests, Metriken).
Golden Set	Kuratierter Satz typischer Fragen + erwarteter Antworten/Quellen.
Offline Eval	Bewertung ohne Nutzer‑Traffic (Batch), gut für Regression/Experimente.
Online Eval	Bewertung im Betrieb (A/B‑Tests, Nutzerfeedback, Live‑Metriken).
A/B Test	Vergleich zweier Varianten (z. B. Chunking‑Strategie) unter echten Bedingungen.
RAGAS	Framework/Methodik für RAG‑Metriken (z. B. Faithfulness, Answer Relevance, Context Precision/Recall).
Faithfulness	Wie stark die Antwort durch Kontext gedeckt ist (keine freien Erfindungen).
Answer Relevance	Wie gut die Antwort die Frage wirklich adressiert.
Context Precision	Wie viel des gelieferten Kontextes tatsächlich relevant ist (wenig Rauschen).
Context Recall	Ob der Kontext die nötige Evidenz überhaupt enthält (vollständig genug).
Latency (Latenz)	Antwortzeit (End‑to‑End), oft als p50/p95/p99 gemessen.
Throughput	Anfragen pro Zeit (Skalierbarkeit).
Tracing	Nachverfolgung einer Anfrage durch alle Schritte (Retriever, Reranker, LLM‑Call).
Span	Teilabschnitt in einem Trace (z. B. „Embedding“, „Vector Search“, „LLM Call“).
Cost Tracking	Token‑/API‑Kosten pro Anfrage, pro Komponente.
Regression	Qualitätsverschlechterung durch Änderungen; Evals sollen sie früh erkennen.
Human in the Loop	Menschliche Bewertung/Korrektur als Qualitätsanker (bes. bei kritischen Domänen).

G) Agenten, Tool Calling und Reasoning‑Patterns

Begriff / Abkürzung	Erklärung
Agent	LLM‑gesteuerte Steuerlogik, die iterativ plant, Tools nutzt und Evidenz sammelt.
Tool / Tool Call	Externer Funktionsaufruf (Vektorsuche, Web‑API, DB‑Query, Rechner, Kalender etc.).
Function Calling	Modell erzeugt strukturierte Tool‑Parameter (z. B. JSON), um Tools zuverlässig aufzurufen.
Planner / Executor	Muster: Plan erstellen (Planner) und Schritte ausführen (Executor).
ReAct	Reason + Act: Wechsel zwischen Denken (Plan) und Tool‑Aktion, iterativ.
Multi‑Agent	Mehrere spezialisierte Agenten (Legal/Ops/Finance), die kooperieren oder sich kontrollieren.
Toolformer‑Idee	Modelle/Workflows, die Tool‑Nutzung als Kernkompetenz betrachten.
Chain of Thought (CoT)	Schrittweises Denken (intern), oft nützlich für komplexe Aufgaben; wird häufig nicht vollständig ausgegeben.
Retry / Backoff	Wiederholversuche bei Tool/API‑Fehlern, mit Wartezeitstrategie.
Stopping Criteria	Abbruchregeln für Agent‑Loops (gegen Endlosschleifen, Kostenexplosion).

H) Graphen, Wissensrepräsentation und strukturierte Abfragen

Begriff / Abkürzung	Erklärung
KG	Knowledge Graph / Wissensgraph: Entitäten (Knoten) + Relationen (Kanten).
Entity	Benannte Einheit (Person, System, Produkt, Vertrag, Paragraph).
Relation	Verbindung zwischen Entitäten („gehört zu“, „abhängig von“, „verursacht“).
Graph Traversal	Systematisches Durchlaufen des Graphen, um Pfade/Mehrhop‑Zusammenhänge zu finden.
Multi‑Hop	Frage erfordert mehrere Sprünge: A→B→C, nicht nur einen Treffer.
RDF	Standardmodell für Graphdaten (Triples: Subjekt – Prädikat – Objekt).
SPARQL	Abfragesprache für RDF‑Graphen.
Property Graph	Graphmodell (Knoten/Kanten mit Properties), häufig in Neo4j/Memgraph.
Cypher	Abfragesprache für Property Graphs (v. a. Neo4j).
Ontology	Formale Begriffs-/Beziehungsdefinition (Semantik, Kategorien, Regeln).

I) Sicherheit, Compliance und Betrieb

Begriff / Abkürzung	Erklärung
PII	Personally Identifiable Information: personenbezogene Daten (Schutz/Maskierung wichtig).
DSGVO / GDPR	Datenschutzgrundverordnung: Vorgaben zu Verarbeitung, Logging, Aufbewahrung, Auskunft, Löschung.
RBAC	Role Based Access Control: Zugriff nach Rollen (wer darf was sehen?).
ABAC	Attribute Based Access Control: Zugriff nach Attributen (Projekt, Region, Clearance).
ACL	Access Control List: konkrete Zugriffsliste pro Ressource.
DLP	Data Loss Prevention: Mechanismen gegen Datenabfluss (Filter, Policies, Maskierung).
Encryption at Rest / in Transit	Verschlüsselung gespeicherter Daten bzw. beim Transport (TLS).
KMS	Key Management Service: Schlüsselverwaltung für Verschlüsselung.
Audit Log	Protokoll, wer wann was abgefragt/ausgegeben hat (Compliance/Forensik).
Data Residency	Vorgabe, wo Daten gespeichert/verarbeitet werden dürfen (Land/Region).
Prompt Injection Defense	Maßnahmen: Kontext‑Isolierung, Zitierpflicht, Parser‑Härtung, Allow‑list‑Tools, Policy‑Prompts, Content‑Sanitizing.

J) Training, Anpassung und Optimierung

Begriff / Abkürzung	Erklärung
Fine Tuning	Modell wird auf spezifische Daten nachtrainiert (Verhalten/Wissen).
SFT	Supervised Fine Tuning: Training auf Input‑Output‑Beispielen.
RLHF	Reinforcement Learning from Human Feedback: Optimierung anhand menschlicher Präferenzen.
RLAIF	…from AI Feedback: Präferenzsignale durch ein Modell statt Menschen.
LoRA	Low Rank Adaptation: effizientes Fine Tuning mit wenigen Zusatzparametern.
PEFT	Parameter Efficient Fine Tuning: Sammelbegriff für effiziente FT‑Methoden (z. B. LoRA).
Distillation	Wissen/Verhalten von großem Modell in kleineres übertragen (Speed/Cost).
Router Training	Training/Heuristiken für Classifier in Adaptive RAG (welcher Pfad wann?).
Embedding Fine Tuning	Anpassung des Embedding‑Modells an Domänensprache (kann Retrieval stark verbessern).