Turbo RAG: AI-basierte Retriever-Auswahl mit Semantic Router
Retrieval Augmented Generation (RAG) verwendet Daten aus Retrieval-Systemen wie Vector-DBs, um die relevanten Informationen zur Beantwortung einer Benutzeranfrage zu finden.
In Real-World-Szenarien geht es häufig um mehrere Quellen (Retriever) mit unterschiedlichen Datenarten. Um den zu einer User-Frage passenden Retriever auszuwählen, können wir eine MultiRoute-Chain nutzen. Hierbei wählt das LLM dynamisch die semantisch am besten passende Datenquelle für die Suche. Allerdings verlängert dieser Ansatz die Antwortzeit unseres AI-Workflows und kostet Tokens - also Geld.
Geht das auch schneller und günstiger? Ja! Ein Semantic Router nutzt für die Quellenauswahl kein LLM, sondern ein Embedding-Modell. Dieser Ansatz liefert eine mit einem LLM vergleichbare Qualität bei der Quellenauswahl und ist dabei deterministisch - jedoch in Millisekunden und zu einem Bruchteil der Kosten.
Mit Live-Coding implementieren wir in einem Sample unter Verwendung des LangChain-Frameworks zuerst eine klassische MultiRoute-Chain und optimieren dann auf eine Variante mit der OpenSource-Library Semantic Router. Letztendlich zeigen beide Ansätze, wie die Leistung von RAG bei der Beantwortung von Benutzeranfragen deutlich verbessert werden kann.
Event
Links & Materialien
Slidedeck
Weitere Artikel zu AI, Generative AI, LangChain, LLM

AI-Funktionen zu Angular-Apps hinzufügen: lokal und offlinefähig
