Abkürzungen

Alle wichtigen Begriffe und Abkürzungen rund um RAG – gesammelt auf einer Seite.

A) RAG- und LLM-Grundbegriffe

Begriff / AbkürzungErklärung
RAGRetrieval Augmented Generation: LLM holt vor der Antwort passende externe Inhalte (Dokumente/Chunks) und nutzt sie als Kontext, um Halluzinationen zu senken und Aktualität/Domain‑Wissen einzubinden.
LLMLarge Language Model: großes Sprachmodell für Generierung/Reasoning.
LMLanguage Model: allgemeiner Begriff (klein bis groß).
SLMSmall Language Model: kleinere Modelle (billiger/schneller), oft für Router, Grader oder lokale Setups.
Grounding / GroundednessGrad, in dem eine Antwort auf bereitgestellter Evidenz basiert (statt freier Generierung).
HalluzinationPlausibel klingende, aber unbelegte oder falsche Aussage des Modells.
Knowledge Base (KB)Wissensbasis: Dokumente, Wikis, Handbücher, Datenbanken, Richtlinien.
Standard RAG / Vanilla RAGEinfaches RAG: Chunking → Embeddings → Vektorsuche (Top‑K) → Kontext ins LLM.
Conversational RAGRAG mit Dialog‑Memory; Follow‑ups werden durch Query Rewriting in Stand‑alone Queries umgeschrieben.
CRAGCorrective RAG: zusätzliche Grader‑Schicht prüft Retrieval‑Qualität; bei schlechten Treffern wird nach‑retrieved oder auf andere Quellen ausgewichen.
Adaptive RAGRouting/Classifier entscheidet pro Anfrage: ohne Retrieval / Standard RAG / Agent / Spezialpfad.
Self RAGModell reflektiert während der Antwort (z. B. via Reflection‑Tokens), ob Aussagen belegt sind, und triggert bei Unsicherheit neues Retrieval.
Fusion RAG / RAGFusionMehrere Query‑Varianten, paralleles Retrieval, Zusammenführung via Rank Fusion (z. B. RRF) → höherer Recall.
HyDEHypothetical Document Embeddings: LLM erzeugt hypothetische Antwort; deren Embedding wird zur Suche genutzt.
Agentic RAGAgent plant iterativ, ruft Tools (Vektorsuche, Web, APIs) auf, sammelt Evidenz und beantwortet erst dann.
GraphRAGRAG auf Basis eines Wissensgraphen (Entitäten/Relationen) statt reiner Textähnlichkeit; gut für Mehrhop‑Zusammenhänge.
PipelineKette aus Bausteinen: Ingestion → Chunking → Indexing → Retrieval → Prompting → Generation → Evals/Logging.
OrchestrationSteuerlogik, die Komponenten koordiniert (z. B. Router, Agent Loop, Tool Calls, Retries).
Context WindowMaximale Tokenmenge, die das Modell gleichzeitig verarbeiten kann (Prompt + Kontext + Antwort).
Token BudgetPraktische Begrenzung der Tokens pro Anfrage; beeinflusst Top‑K, Chunk‑Länge, Compression.

B) Retrieval-Methoden und Rankingbegriffe

Begriff / AbkürzungErklärung
IRInformation Retrieval: Fachgebiet rund um Suchen, Ranking, Relevanz.
Top KNimmt die K bestbewerteten Treffer (z. B. K=5/10/20). Zentraler Trade‑off: Recall vs. Rauschen.
kNNk Nearest Neighbors: Suche nach den k ähnlichsten Vektoren.
Dense RetrievalSemantische Suche über Embeddings (dichte Vektoren). Robust gegen Paraphrasen.
Sparse RetrievalKeyword‑Suche (sparse Vektoren), klassisch z. B. BM25. Stark bei exakten Begriffen/IDs.
Hybrid SearchKombination aus Dense + Sparse (Semantik + exakte Treffer).
BM25Klassisches Rankingverfahren der Keyword‑Suche (IR‑Standard).
TF‑IDFKlassischer Keyword‑Score (Term Frequency – Inverse Document Frequency), oft historisch/grundlegend.
RRFReciprocal Rank Fusion: fusioniert mehrere Rankings; bevorzugt Dokumente, die in mehreren Rankings weit oben sind.
MMRMaximal Marginal Relevance: wählt Treffer, die relevant und divers sind (reduziert Redundanz im Kontext).
Recall@KAnteil relevanter Dokumente, die in den Top‑K erscheinen (wichtig für RAG‑Qualität).
Precision@KAnteil der Top‑K‑Treffer, die wirklich relevant sind (Rauschmaß).
MRRMean Reciprocal Rank: bewertet, wie weit oben der erste relevante Treffer steht.
nDCGNormalized Discounted Cumulative Gain: Rankingqualität bei abgestufter Relevanz (sehr üblich im IR).
Re‑ranking / RerankerZweite Stufe: Kandidatenliste wird mit stärkerem Modell neu sortiert (mehr Präzision, mehr Rechenzeit).
Bi‑EncoderEmbedding‑Modell: Query und Dokument getrennt eingebettet → schnelle Vektorsuche.
Cross‑EncoderReranker‑Modell: Query + Dokument gemeinsam bewertet → präziser, aber langsamer.
DPRDense Passage Retrieval: bekanntes Dense‑Retrieval‑Paradigma (Query/Passage‑Encoder).
ColBERTRetrieval‑Ansatz mit tokenweiser Interaktion (gute Qualität, spezieller Index).
SPLADENeuronales Sparse Retrieval (generiert sparse Termgewichte), oft als Alternative/Ergänzung zu BM25.
Query Expansion (QE)Erweitert Query um Synonyme/Varianten, um mehr passende Treffer zu finden.
PRFPseudo Relevance Feedback: Query wird anhand Top‑Treffer automatisch verbessert (klassisches IR‑Prinzip).
Query RewritingUmschreiben einer Nutzerfrage in eine explizite Suchanfrage (besonders bei Dialogen).
Semantic SearchSuche nach Bedeutung statt exakter Wörter (typisch Dense Retrieval).
Lexical SearchSuche nach Begriffen/Wortformen (typisch Sparse Retrieval/BM25).
Filters / Metadata FiltersEinschränkung der Suche über Metadaten (z. B. Region, Version, Datum, Dokumenttyp).

C) Embeddings, Ähnlichkeit und Vektor-Grundlagen

Begriff / AbkürzungErklärung
EmbeddingVektorrepräsentation eines Textes (oder Bildes etc.) im semantischen Raum.
Embedding ModelModell, das Text → Vektor abbildet (Qualität stark domänenabhängig).
DimensionalityVektordimension (z. B. 384/768/1024/3072); beeinflusst Speicher/Speed/Genauigkeit.
NormalizationNormieren von Vektoren (z. B. L2‑Norm), wichtig für konsistente Ähnlichkeitsmaße.
Cosine SimilarityÄhnlichkeitsmaß (Winkel zwischen Vektoren), häufigster Standard.
Dot ProductSkalarprodukt; bei normierten Vektoren eng verwandt mit Cosine.
Euclidean DistanceAbstand im Raum; je nach Index/DB genutzt.
Vector StoreSpeicher/Index für Vektoren + Metadaten + Payload (Text, IDs).
Vector DBVektordatenbank mit ANN‑Indexing, Filtern, Skalierung (z. B. Qdrant/Weaviate/Pinecone/Milvus).
ANNApproximate Nearest Neighbor: Näherungssuche für Geschwindigkeit bei großen Datenmengen.
Exact SearchExakte kNN (langsamer, aber präziser) – meist nur bei kleinen Datenmengen.
HNSWHierarchical Navigable Small World: sehr verbreiteter ANN‑Index (schnell, gute Qualität).
IVFInverted File Index: ANN‑Indexfamilie (z. B. IVF Flat/IVF PQ), oft in FAISS.
PQProduct Quantization: komprimiert Vektoren, spart Speicher, kann Qualität kosten.
OPQOptimized Product Quantization: verbesserte PQ‑Variante (bessere Kompression/Qualität).
FAISSFacebook AI Similarity Search: bekannte Library für Vektorsuche/Indexing.
ShardingVerteilung von Daten/Index auf mehrere Knoten (Skalierung).
ReplicationMehrfachhaltung für Verfügbarkeit/Read‑Skalierung.
Recall–Latency Trade‑offGrundkonflikt: bessere Trefferqualität kostet meist mehr Zeit/Rechenaufwand.

D) Dokumentaufbereitung und Pipeline-Bausteine

Begriff / AbkürzungErklärung
IngestionEinlesen/Überführen von Rohdaten (PDF, HTML, DB‑Records) in eine indexierbare Form.
ETL / ELTDatenpipeline‑Muster: Extract‑Transform‑Load (oder Load‑then‑Transform).
ParsingExtraktion von Text/Struktur aus Dateien (PDF‑Layout, Tabellen, Überschriften).
ChunkingAufteilen von Dokumenten in kleinere Einheiten für Indexing/Retrieval.
Chunk SizeLänge eines Chunks (in Tokens/Wörtern/Zeichen); beeinflusst Kontextqualität.
OverlapÜberlappung zwischen Chunks, damit Sätze/Definitionen nicht „zerschnitten“ werden.
Semantic ChunkingChunking entlang semantischer Grenzen (Absätze/Überschriften/Topics), nicht nur nach Länge.
Parent‑Child ChunkingKleine „Child“‑Chunks indexieren, bei Treffer den größeren „Parent“‑Kontext nachladen.
MetadataZusatzinfos pro Dokument/Chunk (Datum, Version, Autor, Abteilung, URL).
DocstoreAblage der Originaldokumente oder Langtexte neben dem Vektorindex.
DeduplicationEntfernen von Duplikaten/nahezu identischen Chunks (reduziert Rauschen, spart Kosten).
Boilerplate RemovalEntfernt wiederkehrende Seitenelemente (Footer, Menüs) aus Web/PDF‑Texten.
Language DetectionErkennung der Sprache; wichtig für passende Embeddings/Tokenizer.
PII RedactionMaskierung personenbezogener Daten vor Indexing/Logging.
Index BuildErstellen/Aktualisieren des Suchindex (Batch oder inkrementell).
Incremental IndexingNur Änderungen nachziehen (statt alles neu), wichtig bei dynamischen KBs.
TTLTime To Live: Ablaufzeit für Cache‑Einträge oder temporäre Daten.

E) Prompting, Generierung und Steuerparameter

Begriff / AbkürzungErklärung
PromptEingabe an das LLM (Instruktionen + Kontext + Frage).
System PromptHöchstrangige Instruktionsebene (Rolle/Regeln/Policies).
Prompt TemplateWiederverwendbares Prompt‑Gerüst mit Platzhaltern (Kontext, Frage, Format).
Instruction FollowingFähigkeit, Anweisungen zuverlässig umzusetzen (Format, Stil, Regeln).
TemperatureZufälligkeit der Ausgabe (hoch = kreativer, niedrig = deterministischer).
Top‑p (Nucleus Sampling)Sampling‑Parameter: wählt aus wahrscheinlichsten Tokens, bis Summe p erreicht.
Max TokensMaximale Länge der Antwort (oder Gesamt‑Output).
Stop SequencesZeichenfolgen, bei denen die Ausgabe beendet wird (Formatsteuerung).
Structured Output / JSON ModeAusgabe in festem Schema (z. B. JSON), um Weiterverarbeitung zu erleichtern.
Citation / AttributionQuellen-/Evidenzangabe: welche Chunks stützen welche Aussage (wichtig für Vertrauen).
Grounded AnsweringAntwort strikt nur aus Kontext, sonst „nicht genug Evidenz“.
AbstentionGezieltes „Nicht beantworten“, wenn Evidenz fehlt (Qualitätsmerkmal).
Context StuffingZu viel Kontext „reinstopfen“; führt oft zu schlechteren Antworten.
Contextual CompressionVerdichten der Treffer auf relevante Sätze/Passagen, um Rauschen zu senken.
Refusal / GuardrailsRegeln, wann das System Inhalte ablehnt oder einschränkt (Safety/Policy).
Prompt InjectionAngriff: bösartige Inhalte in Dokumenten/Pages versuchen, Systeminstruktionen zu überschreiben.

F) Evaluation, Qualitätsmetriken und Observability

Begriff / AbkürzungErklärung
EvalsSystematische Qualitätsprüfung (Testset, Regressionstests, Metriken).
Golden SetKuratierter Satz typischer Fragen + erwarteter Antworten/Quellen.
Offline EvalBewertung ohne Nutzer‑Traffic (Batch), gut für Regression/Experimente.
Online EvalBewertung im Betrieb (A/B‑Tests, Nutzerfeedback, Live‑Metriken).
A/B TestVergleich zweier Varianten (z. B. Chunking‑Strategie) unter echten Bedingungen.
RAGASFramework/Methodik für RAG‑Metriken (z. B. Faithfulness, Answer Relevance, Context Precision/Recall).
FaithfulnessWie stark die Antwort durch Kontext gedeckt ist (keine freien Erfindungen).
Answer RelevanceWie gut die Antwort die Frage wirklich adressiert.
Context PrecisionWie viel des gelieferten Kontextes tatsächlich relevant ist (wenig Rauschen).
Context RecallOb der Kontext die nötige Evidenz überhaupt enthält (vollständig genug).
Latency (Latenz)Antwortzeit (End‑to‑End), oft als p50/p95/p99 gemessen.
ThroughputAnfragen pro Zeit (Skalierbarkeit).
TracingNachverfolgung einer Anfrage durch alle Schritte (Retriever, Reranker, LLM‑Call).
SpanTeilabschnitt in einem Trace (z. B. „Embedding“, „Vector Search“, „LLM Call“).
Cost TrackingToken‑/API‑Kosten pro Anfrage, pro Komponente.
RegressionQualitätsverschlechterung durch Änderungen; Evals sollen sie früh erkennen.
Human in the LoopMenschliche Bewertung/Korrektur als Qualitätsanker (bes. bei kritischen Domänen).

G) Agenten, Tool Calling und Reasoning‑Patterns

Begriff / AbkürzungErklärung
AgentLLM‑gesteuerte Steuerlogik, die iterativ plant, Tools nutzt und Evidenz sammelt.
Tool / Tool CallExterner Funktionsaufruf (Vektorsuche, Web‑API, DB‑Query, Rechner, Kalender etc.).
Function CallingModell erzeugt strukturierte Tool‑Parameter (z. B. JSON), um Tools zuverlässig aufzurufen.
Planner / ExecutorMuster: Plan erstellen (Planner) und Schritte ausführen (Executor).
ReActReason + Act: Wechsel zwischen Denken (Plan) und Tool‑Aktion, iterativ.
Multi‑AgentMehrere spezialisierte Agenten (Legal/Ops/Finance), die kooperieren oder sich kontrollieren.
Toolformer‑IdeeModelle/Workflows, die Tool‑Nutzung als Kernkompetenz betrachten.
Chain of Thought (CoT)Schrittweises Denken (intern), oft nützlich für komplexe Aufgaben; wird häufig nicht vollständig ausgegeben.
Retry / BackoffWiederholversuche bei Tool/API‑Fehlern, mit Wartezeitstrategie.
Stopping CriteriaAbbruchregeln für Agent‑Loops (gegen Endlosschleifen, Kostenexplosion).

H) Graphen, Wissensrepräsentation und strukturierte Abfragen

Begriff / AbkürzungErklärung
KGKnowledge Graph / Wissensgraph: Entitäten (Knoten) + Relationen (Kanten).
EntityBenannte Einheit (Person, System, Produkt, Vertrag, Paragraph).
RelationVerbindung zwischen Entitäten („gehört zu“, „abhängig von“, „verursacht“).
Graph TraversalSystematisches Durchlaufen des Graphen, um Pfade/Mehrhop‑Zusammenhänge zu finden.
Multi‑HopFrage erfordert mehrere Sprünge: A→B→C, nicht nur einen Treffer.
RDFStandardmodell für Graphdaten (Triples: Subjekt – Prädikat – Objekt).
SPARQLAbfragesprache für RDF‑Graphen.
Property GraphGraphmodell (Knoten/Kanten mit Properties), häufig in Neo4j/Memgraph.
CypherAbfragesprache für Property Graphs (v. a. Neo4j).
OntologyFormale Begriffs-/Beziehungsdefinition (Semantik, Kategorien, Regeln).

I) Sicherheit, Compliance und Betrieb

Begriff / AbkürzungErklärung
PIIPersonally Identifiable Information: personenbezogene Daten (Schutz/Maskierung wichtig).
DSGVO / GDPRDatenschutzgrundverordnung: Vorgaben zu Verarbeitung, Logging, Aufbewahrung, Auskunft, Löschung.
RBACRole Based Access Control: Zugriff nach Rollen (wer darf was sehen?).
ABACAttribute Based Access Control: Zugriff nach Attributen (Projekt, Region, Clearance).
ACLAccess Control List: konkrete Zugriffsliste pro Ressource.
DLPData Loss Prevention: Mechanismen gegen Datenabfluss (Filter, Policies, Maskierung).
Encryption at Rest / in TransitVerschlüsselung gespeicherter Daten bzw. beim Transport (TLS).
KMSKey Management Service: Schlüsselverwaltung für Verschlüsselung.
Audit LogProtokoll, wer wann was abgefragt/ausgegeben hat (Compliance/Forensik).
Data ResidencyVorgabe, wo Daten gespeichert/verarbeitet werden dürfen (Land/Region).
Prompt Injection DefenseMaßnahmen: Kontext‑Isolierung, Zitierpflicht, Parser‑Härtung, Allow‑list‑Tools, Policy‑Prompts, Content‑Sanitizing.

J) Training, Anpassung und Optimierung

Begriff / AbkürzungErklärung
Fine TuningModell wird auf spezifische Daten nachtrainiert (Verhalten/Wissen).
SFTSupervised Fine Tuning: Training auf Input‑Output‑Beispielen.
RLHFReinforcement Learning from Human Feedback: Optimierung anhand menschlicher Präferenzen.
RLAIF…from AI Feedback: Präferenzsignale durch ein Modell statt Menschen.
LoRALow Rank Adaptation: effizientes Fine Tuning mit wenigen Zusatzparametern.
PEFTParameter Efficient Fine Tuning: Sammelbegriff für effiziente FT‑Methoden (z. B. LoRA).
DistillationWissen/Verhalten von großem Modell in kleineres übertragen (Speed/Cost).
Router TrainingTraining/Heuristiken für Classifier in Adaptive RAG (welcher Pfad wann?).
Embedding Fine TuningAnpassung des Embedding‑Modells an Domänensprache (kann Retrieval stark verbessern).