KI Suche

Reasoning-Benchmarks

Cluster KI Modelle & Architekturen

Aktuelle Links, Zusammenfassungen und Marktinformationen zu Reasoning-Benchmarks innerhalb von Bewertung & Benchmarks auf JetztStarten.de.

Bonsai 27B is a full open reasoning model that fits on an iPhone

Artikel KI Modelle & Architekturen · Bewertung & Benchmarks · Reasoning-Benchmarks 2026-07-15 The Decoder

PrismML hat das AI-Modell Bonsai 27B vorgestellt, das auf einem iPhone betrieben werden kann, ohne Kompromisse bei der Problemlösungsfähigkeit einzugehen. Mit 27 Milliarden Parametern basiert das Modell auf Alibaba's Qwen3. 6-27B und unterstützt mehrstufiges Denken, Bildverständnis sowie agentenbasi

DBR77 Debuts Industrial Reasoning at Automate 2026 with Launch of Consultify™, Powered by Vector™

Artikel KI Modelle & Architekturen · Bewertung & Benchmarks · Reasoning-Benchmarks 2026-06-17 Prnewswire

DBR77 hat auf der Automate 2026 die innovative Entscheidungshilfe Consultify™ vorgestellt, die auf der fortschrittlichen Technologie DBR77 Vector™ basiert und speziell für industrielle Anwendungen konzipiert wurde. Diese KI-Plattform zielt darauf ab, Herstellern zu helfen, komplexe Betriebsabläufe i

Can Reinforcement Learning Help LLMs Discover New Reasoning Strategies?

Artikel KI Modelle & Architekturen · Bewertung & Benchmarks · Reasoning-Benchmarks 2026-06-09 Towards AI

Der Artikel untersucht, ob Reinforcement Learning (RL) Large Language Models (LLMs) dabei unterstützen kann, neue Denkstrategien zu entwickeln, oder ob es lediglich bestehende Fähigkeiten verbessert. Die Autoren des "RL Grokking Recipe" Papers analysieren, ob RL tatsächlich zu neuen Erkenntnissen fü

Omni Calculator Publishes ORCA V3 Research Report on AI Model Performance in Quantitative Reasoning

Artikel KI Modelle & Architekturen · Bewertung & Benchmarks · Reasoning-Benchmarks 2026-05-22 wallstreet:online

Omni Calculator hat den dritten Bericht der Omni Research on Calculation in AI (ORCA) Benchmark veröffentlicht, der die Leistung großer Sprachmodelle (LLMs) im mathematischen Denken und deren Stabilität analysiert. Der ORCA V3 Bericht bewertet die Genauigkeit, logische Konsistenz und Berechnungsstab

When Reasoning Hurts: 4 Tasks Where Smaller Models Win

Artikel KI Modelle & Architekturen · Bewertung & Benchmarks · Reasoning-Benchmarks 2026-05-11 Towards AI

In der Studie "When Reasoning Hurts: 4 Tasks Where Smaller Models Win" wurde untersucht, dass kleinere Sprachmodelle in bestimmten Produktionsaufgaben, insbesondere beim Befolgen von Anweisungen, besser abschneiden als größere Modelle. Die Forscher testeten vierzehn instruction-tuned Modelle mithilf

What Is Vectorless RAG? The Three-Stage Tree-and-Reasoning Architecture That Threw Out Embeddings

Artikel KI Modelle & Architekturen · Bewertung & Benchmarks · Reasoning-Benchmarks 2026-05-03 Towards AI

Die Methode des Vectorless RAG revolutioniert Retrieval-Systeme, indem sie auf Vektordatenbanken verzichtet und dadurch die Genauigkeit in bestimmten Kontexten erhöht. Im Mittelpunkt dieser Herangehensweise steht die Bestimmung des genauen Standorts einer Antwort innerhalb eines Dokuments, anstatt l

Alibaba's Qwen team built HopChain to fix how AI vision models fall apart during multi-step reasoning

Artikel KI Modelle & Architekturen · Bewertung & Benchmarks · Reasoning-Benchmarks 2026-04-06 The Decoder

Das Qwen-Team von Alibaba hat das Framework HopChain entwickelt, um die Schwächen von KI-Visionsmodellen bei mehrstufigen Denkprozessen zu adressieren. Diese Modelle neigen dazu, Fehler zu machen, die sich durch falsche Zählungen oder Verwechslungen räumlicher Beziehungen kumulieren und zu falschen

OpenAI's new GPT-5.4 model powers ChatGPT for Excel with finance-optimized reasoning

Artikel KI Modelle & Architekturen · Bewertung & Benchmarks · Reasoning-Benchmarks 2026-03-06 The Decoder

OpenAI hat das Beta-Add-In "ChatGPT for Excel" eingeführt, das auf dem neuen GPT-5.4-Modell basiert und speziell für finanzielle Aufgaben optimiert ist. Nutzer können durch natürliche Sprache Tabellenkalkulationen erstellen, bearbeiten und analysieren. Das Modell wurde durch interne Benchmarks getes

heise+ | Nach Deepseek: So geht es mit der chinesischen Open-Source-KI weiter

Artikel KI Modelle & Architekturen · Bewertung & Benchmarks · Reasoning-Benchmarks 2026-02-23 Heise

Im vergangenen Jahr hat die chinesische KI-Szene einen bedeutenden Wandel durchlebt, insbesondere nach der Einführung des R1-Reasoning-Modells von Deepseek. Chinesische Unternehmen haben eine Vielzahl von Large Language Models (LLM) entwickelt, die in ihrer Leistungsfähigkeit mit westlichen Modellen

Why AI still can't find that one concert photo you're looking for

Artikel KI Modelle & Architekturen · Bewertung & Benchmarks · Reasoning-Benchmarks 2026-02-22 The Decoder

In der Studie von Forschern der Renmin-Universität in China und des Oppo Research Institute wird das Benchmark DISBench vorgestellt, das die Bildretrieval-Fähigkeiten von KI-Modellen anhand kontextueller Hinweise bewertet. Die Ergebnisse zeigen, dass selbst das fortschrittlichste Modell, Claude Opus

New Gemini 3.1 Pro crushes previous benchmarks, outperforms GPT 5.2 reasoning

Artikel KI Modelle & Architekturen · Bewertung & Benchmarks · Reasoning-Benchmarks 2026-02-19 Interestingengineering

Google hat mit Gemini 3.1 Pro ein bedeutendes Update seines KI-Modells veröffentlicht, das die Leistung in verschiedenen Tests erheblich steigert und die Codierungsunterstützung verbessert. Diese Version, die für Entwickler, Unternehmen und Verbraucher zugänglich ist, bietet verbesserte Argumentatio

Suchergebnisse