Abkürzungen
Alle wichtigen Begriffe und Abkürzungen rund um RAG – gesammelt auf einer Seite.
A) RAG- und LLM-Grundbegriffe
| Begriff / Abkürzung | Erklärung |
|---|---|
| RAG | Retrieval Augmented Generation: LLM holt vor der Antwort passende externe Inhalte (Dokumente/Chunks) und nutzt sie als Kontext, um Halluzinationen zu senken und Aktualität/Domain‑Wissen einzubinden. |
| LLM | Large Language Model: großes Sprachmodell für Generierung/Reasoning. |
| LM | Language Model: allgemeiner Begriff (klein bis groß). |
| SLM | Small Language Model: kleinere Modelle (billiger/schneller), oft für Router, Grader oder lokale Setups. |
| Grounding / Groundedness | Grad, in dem eine Antwort auf bereitgestellter Evidenz basiert (statt freier Generierung). |
| Halluzination | Plausibel klingende, aber unbelegte oder falsche Aussage des Modells. |
| Knowledge Base (KB) | Wissensbasis: Dokumente, Wikis, Handbücher, Datenbanken, Richtlinien. |
| Standard RAG / Vanilla RAG | Einfaches RAG: Chunking → Embeddings → Vektorsuche (Top‑K) → Kontext ins LLM. |
| Conversational RAG | RAG mit Dialog‑Memory; Follow‑ups werden durch Query Rewriting in Stand‑alone Queries umgeschrieben. |
| CRAG | Corrective RAG: zusätzliche Grader‑Schicht prüft Retrieval‑Qualität; bei schlechten Treffern wird nach‑retrieved oder auf andere Quellen ausgewichen. |
| Adaptive RAG | Routing/Classifier entscheidet pro Anfrage: ohne Retrieval / Standard RAG / Agent / Spezialpfad. |
| Self RAG | Modell reflektiert während der Antwort (z. B. via Reflection‑Tokens), ob Aussagen belegt sind, und triggert bei Unsicherheit neues Retrieval. |
| Fusion RAG / RAGFusion | Mehrere Query‑Varianten, paralleles Retrieval, Zusammenführung via Rank Fusion (z. B. RRF) → höherer Recall. |
| HyDE | Hypothetical Document Embeddings: LLM erzeugt hypothetische Antwort; deren Embedding wird zur Suche genutzt. |
| Agentic RAG | Agent plant iterativ, ruft Tools (Vektorsuche, Web, APIs) auf, sammelt Evidenz und beantwortet erst dann. |
| GraphRAG | RAG auf Basis eines Wissensgraphen (Entitäten/Relationen) statt reiner Textähnlichkeit; gut für Mehrhop‑Zusammenhänge. |
| Pipeline | Kette aus Bausteinen: Ingestion → Chunking → Indexing → Retrieval → Prompting → Generation → Evals/Logging. |
| Orchestration | Steuerlogik, die Komponenten koordiniert (z. B. Router, Agent Loop, Tool Calls, Retries). |
| Context Window | Maximale Tokenmenge, die das Modell gleichzeitig verarbeiten kann (Prompt + Kontext + Antwort). |
| Token Budget | Praktische Begrenzung der Tokens pro Anfrage; beeinflusst Top‑K, Chunk‑Länge, Compression. |
B) Retrieval-Methoden und Rankingbegriffe
| Begriff / Abkürzung | Erklärung |
|---|---|
| IR | Information Retrieval: Fachgebiet rund um Suchen, Ranking, Relevanz. |
| Top K | Nimmt die K bestbewerteten Treffer (z. B. K=5/10/20). Zentraler Trade‑off: Recall vs. Rauschen. |
| kNN | k Nearest Neighbors: Suche nach den k ähnlichsten Vektoren. |
| Dense Retrieval | Semantische Suche über Embeddings (dichte Vektoren). Robust gegen Paraphrasen. |
| Sparse Retrieval | Keyword‑Suche (sparse Vektoren), klassisch z. B. BM25. Stark bei exakten Begriffen/IDs. |
| Hybrid Search | Kombination aus Dense + Sparse (Semantik + exakte Treffer). |
| BM25 | Klassisches Rankingverfahren der Keyword‑Suche (IR‑Standard). |
| TF‑IDF | Klassischer Keyword‑Score (Term Frequency – Inverse Document Frequency), oft historisch/grundlegend. |
| RRF | Reciprocal Rank Fusion: fusioniert mehrere Rankings; bevorzugt Dokumente, die in mehreren Rankings weit oben sind. |
| MMR | Maximal Marginal Relevance: wählt Treffer, die relevant und divers sind (reduziert Redundanz im Kontext). |
| Recall@K | Anteil relevanter Dokumente, die in den Top‑K erscheinen (wichtig für RAG‑Qualität). |
| Precision@K | Anteil der Top‑K‑Treffer, die wirklich relevant sind (Rauschmaß). |
| MRR | Mean Reciprocal Rank: bewertet, wie weit oben der erste relevante Treffer steht. |
| nDCG | Normalized Discounted Cumulative Gain: Rankingqualität bei abgestufter Relevanz (sehr üblich im IR). |
| Re‑ranking / Reranker | Zweite Stufe: Kandidatenliste wird mit stärkerem Modell neu sortiert (mehr Präzision, mehr Rechenzeit). |
| Bi‑Encoder | Embedding‑Modell: Query und Dokument getrennt eingebettet → schnelle Vektorsuche. |
| Cross‑Encoder | Reranker‑Modell: Query + Dokument gemeinsam bewertet → präziser, aber langsamer. |
| DPR | Dense Passage Retrieval: bekanntes Dense‑Retrieval‑Paradigma (Query/Passage‑Encoder). |
| ColBERT | Retrieval‑Ansatz mit tokenweiser Interaktion (gute Qualität, spezieller Index). |
| SPLADE | Neuronales Sparse Retrieval (generiert sparse Termgewichte), oft als Alternative/Ergänzung zu BM25. |
| Query Expansion (QE) | Erweitert Query um Synonyme/Varianten, um mehr passende Treffer zu finden. |
| PRF | Pseudo Relevance Feedback: Query wird anhand Top‑Treffer automatisch verbessert (klassisches IR‑Prinzip). |
| Query Rewriting | Umschreiben einer Nutzerfrage in eine explizite Suchanfrage (besonders bei Dialogen). |
| Semantic Search | Suche nach Bedeutung statt exakter Wörter (typisch Dense Retrieval). |
| Lexical Search | Suche nach Begriffen/Wortformen (typisch Sparse Retrieval/BM25). |
| Filters / Metadata Filters | Einschränkung der Suche über Metadaten (z. B. Region, Version, Datum, Dokumenttyp). |
C) Embeddings, Ähnlichkeit und Vektor-Grundlagen
| Begriff / Abkürzung | Erklärung |
|---|---|
| Embedding | Vektorrepräsentation eines Textes (oder Bildes etc.) im semantischen Raum. |
| Embedding Model | Modell, das Text → Vektor abbildet (Qualität stark domänenabhängig). |
| Dimensionality | Vektordimension (z. B. 384/768/1024/3072); beeinflusst Speicher/Speed/Genauigkeit. |
| Normalization | Normieren von Vektoren (z. B. L2‑Norm), wichtig für konsistente Ähnlichkeitsmaße. |
| Cosine Similarity | Ähnlichkeitsmaß (Winkel zwischen Vektoren), häufigster Standard. |
| Dot Product | Skalarprodukt; bei normierten Vektoren eng verwandt mit Cosine. |
| Euclidean Distance | Abstand im Raum; je nach Index/DB genutzt. |
| Vector Store | Speicher/Index für Vektoren + Metadaten + Payload (Text, IDs). |
| Vector DB | Vektordatenbank mit ANN‑Indexing, Filtern, Skalierung (z. B. Qdrant/Weaviate/Pinecone/Milvus). |
| ANN | Approximate Nearest Neighbor: Näherungssuche für Geschwindigkeit bei großen Datenmengen. |
| Exact Search | Exakte kNN (langsamer, aber präziser) – meist nur bei kleinen Datenmengen. |
| HNSW | Hierarchical Navigable Small World: sehr verbreiteter ANN‑Index (schnell, gute Qualität). |
| IVF | Inverted File Index: ANN‑Indexfamilie (z. B. IVF Flat/IVF PQ), oft in FAISS. |
| PQ | Product Quantization: komprimiert Vektoren, spart Speicher, kann Qualität kosten. |
| OPQ | Optimized Product Quantization: verbesserte PQ‑Variante (bessere Kompression/Qualität). |
| FAISS | Facebook AI Similarity Search: bekannte Library für Vektorsuche/Indexing. |
| Sharding | Verteilung von Daten/Index auf mehrere Knoten (Skalierung). |
| Replication | Mehrfachhaltung für Verfügbarkeit/Read‑Skalierung. |
| Recall–Latency Trade‑off | Grundkonflikt: bessere Trefferqualität kostet meist mehr Zeit/Rechenaufwand. |
D) Dokumentaufbereitung und Pipeline-Bausteine
| Begriff / Abkürzung | Erklärung |
|---|---|
| Ingestion | Einlesen/Überführen von Rohdaten (PDF, HTML, DB‑Records) in eine indexierbare Form. |
| ETL / ELT | Datenpipeline‑Muster: Extract‑Transform‑Load (oder Load‑then‑Transform). |
| Parsing | Extraktion von Text/Struktur aus Dateien (PDF‑Layout, Tabellen, Überschriften). |
| Chunking | Aufteilen von Dokumenten in kleinere Einheiten für Indexing/Retrieval. |
| Chunk Size | Länge eines Chunks (in Tokens/Wörtern/Zeichen); beeinflusst Kontextqualität. |
| Overlap | Überlappung zwischen Chunks, damit Sätze/Definitionen nicht „zerschnitten“ werden. |
| Semantic Chunking | Chunking entlang semantischer Grenzen (Absätze/Überschriften/Topics), nicht nur nach Länge. |
| Parent‑Child Chunking | Kleine „Child“‑Chunks indexieren, bei Treffer den größeren „Parent“‑Kontext nachladen. |
| Metadata | Zusatzinfos pro Dokument/Chunk (Datum, Version, Autor, Abteilung, URL). |
| Docstore | Ablage der Originaldokumente oder Langtexte neben dem Vektorindex. |
| Deduplication | Entfernen von Duplikaten/nahezu identischen Chunks (reduziert Rauschen, spart Kosten). |
| Boilerplate Removal | Entfernt wiederkehrende Seitenelemente (Footer, Menüs) aus Web/PDF‑Texten. |
| Language Detection | Erkennung der Sprache; wichtig für passende Embeddings/Tokenizer. |
| PII Redaction | Maskierung personenbezogener Daten vor Indexing/Logging. |
| Index Build | Erstellen/Aktualisieren des Suchindex (Batch oder inkrementell). |
| Incremental Indexing | Nur Änderungen nachziehen (statt alles neu), wichtig bei dynamischen KBs. |
| TTL | Time To Live: Ablaufzeit für Cache‑Einträge oder temporäre Daten. |
E) Prompting, Generierung und Steuerparameter
| Begriff / Abkürzung | Erklärung |
|---|---|
| Prompt | Eingabe an das LLM (Instruktionen + Kontext + Frage). |
| System Prompt | Höchstrangige Instruktionsebene (Rolle/Regeln/Policies). |
| Prompt Template | Wiederverwendbares Prompt‑Gerüst mit Platzhaltern (Kontext, Frage, Format). |
| Instruction Following | Fähigkeit, Anweisungen zuverlässig umzusetzen (Format, Stil, Regeln). |
| Temperature | Zufälligkeit der Ausgabe (hoch = kreativer, niedrig = deterministischer). |
| Top‑p (Nucleus Sampling) | Sampling‑Parameter: wählt aus wahrscheinlichsten Tokens, bis Summe p erreicht. |
| Max Tokens | Maximale Länge der Antwort (oder Gesamt‑Output). |
| Stop Sequences | Zeichenfolgen, bei denen die Ausgabe beendet wird (Formatsteuerung). |
| Structured Output / JSON Mode | Ausgabe in festem Schema (z. B. JSON), um Weiterverarbeitung zu erleichtern. |
| Citation / Attribution | Quellen-/Evidenzangabe: welche Chunks stützen welche Aussage (wichtig für Vertrauen). |
| Grounded Answering | Antwort strikt nur aus Kontext, sonst „nicht genug Evidenz“. |
| Abstention | Gezieltes „Nicht beantworten“, wenn Evidenz fehlt (Qualitätsmerkmal). |
| Context Stuffing | Zu viel Kontext „reinstopfen“; führt oft zu schlechteren Antworten. |
| Contextual Compression | Verdichten der Treffer auf relevante Sätze/Passagen, um Rauschen zu senken. |
| Refusal / Guardrails | Regeln, wann das System Inhalte ablehnt oder einschränkt (Safety/Policy). |
| Prompt Injection | Angriff: bösartige Inhalte in Dokumenten/Pages versuchen, Systeminstruktionen zu überschreiben. |
F) Evaluation, Qualitätsmetriken und Observability
| Begriff / Abkürzung | Erklärung |
|---|---|
| Evals | Systematische Qualitätsprüfung (Testset, Regressionstests, Metriken). |
| Golden Set | Kuratierter Satz typischer Fragen + erwarteter Antworten/Quellen. |
| Offline Eval | Bewertung ohne Nutzer‑Traffic (Batch), gut für Regression/Experimente. |
| Online Eval | Bewertung im Betrieb (A/B‑Tests, Nutzerfeedback, Live‑Metriken). |
| A/B Test | Vergleich zweier Varianten (z. B. Chunking‑Strategie) unter echten Bedingungen. |
| RAGAS | Framework/Methodik für RAG‑Metriken (z. B. Faithfulness, Answer Relevance, Context Precision/Recall). |
| Faithfulness | Wie stark die Antwort durch Kontext gedeckt ist (keine freien Erfindungen). |
| Answer Relevance | Wie gut die Antwort die Frage wirklich adressiert. |
| Context Precision | Wie viel des gelieferten Kontextes tatsächlich relevant ist (wenig Rauschen). |
| Context Recall | Ob der Kontext die nötige Evidenz überhaupt enthält (vollständig genug). |
| Latency (Latenz) | Antwortzeit (End‑to‑End), oft als p50/p95/p99 gemessen. |
| Throughput | Anfragen pro Zeit (Skalierbarkeit). |
| Tracing | Nachverfolgung einer Anfrage durch alle Schritte (Retriever, Reranker, LLM‑Call). |
| Span | Teilabschnitt in einem Trace (z. B. „Embedding“, „Vector Search“, „LLM Call“). |
| Cost Tracking | Token‑/API‑Kosten pro Anfrage, pro Komponente. |
| Regression | Qualitätsverschlechterung durch Änderungen; Evals sollen sie früh erkennen. |
| Human in the Loop | Menschliche Bewertung/Korrektur als Qualitätsanker (bes. bei kritischen Domänen). |
G) Agenten, Tool Calling und Reasoning‑Patterns
| Begriff / Abkürzung | Erklärung |
|---|---|
| Agent | LLM‑gesteuerte Steuerlogik, die iterativ plant, Tools nutzt und Evidenz sammelt. |
| Tool / Tool Call | Externer Funktionsaufruf (Vektorsuche, Web‑API, DB‑Query, Rechner, Kalender etc.). |
| Function Calling | Modell erzeugt strukturierte Tool‑Parameter (z. B. JSON), um Tools zuverlässig aufzurufen. |
| Planner / Executor | Muster: Plan erstellen (Planner) und Schritte ausführen (Executor). |
| ReAct | Reason + Act: Wechsel zwischen Denken (Plan) und Tool‑Aktion, iterativ. |
| Multi‑Agent | Mehrere spezialisierte Agenten (Legal/Ops/Finance), die kooperieren oder sich kontrollieren. |
| Toolformer‑Idee | Modelle/Workflows, die Tool‑Nutzung als Kernkompetenz betrachten. |
| Chain of Thought (CoT) | Schrittweises Denken (intern), oft nützlich für komplexe Aufgaben; wird häufig nicht vollständig ausgegeben. |
| Retry / Backoff | Wiederholversuche bei Tool/API‑Fehlern, mit Wartezeitstrategie. |
| Stopping Criteria | Abbruchregeln für Agent‑Loops (gegen Endlosschleifen, Kostenexplosion). |
H) Graphen, Wissensrepräsentation und strukturierte Abfragen
| Begriff / Abkürzung | Erklärung |
|---|---|
| KG | Knowledge Graph / Wissensgraph: Entitäten (Knoten) + Relationen (Kanten). |
| Entity | Benannte Einheit (Person, System, Produkt, Vertrag, Paragraph). |
| Relation | Verbindung zwischen Entitäten („gehört zu“, „abhängig von“, „verursacht“). |
| Graph Traversal | Systematisches Durchlaufen des Graphen, um Pfade/Mehrhop‑Zusammenhänge zu finden. |
| Multi‑Hop | Frage erfordert mehrere Sprünge: A→B→C, nicht nur einen Treffer. |
| RDF | Standardmodell für Graphdaten (Triples: Subjekt – Prädikat – Objekt). |
| SPARQL | Abfragesprache für RDF‑Graphen. |
| Property Graph | Graphmodell (Knoten/Kanten mit Properties), häufig in Neo4j/Memgraph. |
| Cypher | Abfragesprache für Property Graphs (v. a. Neo4j). |
| Ontology | Formale Begriffs-/Beziehungsdefinition (Semantik, Kategorien, Regeln). |
I) Sicherheit, Compliance und Betrieb
| Begriff / Abkürzung | Erklärung |
|---|---|
| PII | Personally Identifiable Information: personenbezogene Daten (Schutz/Maskierung wichtig). |
| DSGVO / GDPR | Datenschutzgrundverordnung: Vorgaben zu Verarbeitung, Logging, Aufbewahrung, Auskunft, Löschung. |
| RBAC | Role Based Access Control: Zugriff nach Rollen (wer darf was sehen?). |
| ABAC | Attribute Based Access Control: Zugriff nach Attributen (Projekt, Region, Clearance). |
| ACL | Access Control List: konkrete Zugriffsliste pro Ressource. |
| DLP | Data Loss Prevention: Mechanismen gegen Datenabfluss (Filter, Policies, Maskierung). |
| Encryption at Rest / in Transit | Verschlüsselung gespeicherter Daten bzw. beim Transport (TLS). |
| KMS | Key Management Service: Schlüsselverwaltung für Verschlüsselung. |
| Audit Log | Protokoll, wer wann was abgefragt/ausgegeben hat (Compliance/Forensik). |
| Data Residency | Vorgabe, wo Daten gespeichert/verarbeitet werden dürfen (Land/Region). |
| Prompt Injection Defense | Maßnahmen: Kontext‑Isolierung, Zitierpflicht, Parser‑Härtung, Allow‑list‑Tools, Policy‑Prompts, Content‑Sanitizing. |
J) Training, Anpassung und Optimierung
| Begriff / Abkürzung | Erklärung |
|---|---|
| Fine Tuning | Modell wird auf spezifische Daten nachtrainiert (Verhalten/Wissen). |
| SFT | Supervised Fine Tuning: Training auf Input‑Output‑Beispielen. |
| RLHF | Reinforcement Learning from Human Feedback: Optimierung anhand menschlicher Präferenzen. |
| RLAIF | …from AI Feedback: Präferenzsignale durch ein Modell statt Menschen. |
| LoRA | Low Rank Adaptation: effizientes Fine Tuning mit wenigen Zusatzparametern. |
| PEFT | Parameter Efficient Fine Tuning: Sammelbegriff für effiziente FT‑Methoden (z. B. LoRA). |
| Distillation | Wissen/Verhalten von großem Modell in kleineres übertragen (Speed/Cost). |
| Router Training | Training/Heuristiken für Classifier in Adaptive RAG (welcher Pfad wann?). |
| Embedding Fine Tuning | Anpassung des Embedding‑Modells an Domänensprache (kann Retrieval stark verbessern). |