Reasoning-Benchmarks

Aktuelle Links, Zusammenfassungen und Marktinformationen zu Reasoning-Benchmarks innerhalb von Bewertung & Benchmarks auf JetztStarten.de.

Einordnung

Dieses Cluster bündelt aktuelle Links, Zusammenfassungen und Marktinformationen zu einem klar abgegrenzten Thema.

Rubrik: KI Modelle & Architekturen Unterrubrik: Bewertung & Benchmarks Cluster: Reasoning-Benchmarks Einträge: 12

Alibaba's Qwen team built HopChain to fix how AI vision models fall apart during multi-step reasoning

2026-04-06The Decoder

Das Qwen-Team von Alibaba hat das Framework HopChain entwickelt, um die Schwächen von KI-Visionsmodellen bei mehrstufigen Denkprozessen zu adressieren. Diese Modelle neigen dazu, Fehler zu machen, die sich durch falsche Zählungen oder Verwechslungen räumlicher Beziehungen kumulieren und zu falschen Ergebnissen führen. HopChain generiert automatisch mehrstufige Bildfragen, die die Modelle dazu anregen, das Bild erneut zu analysieren und Fehler zu identifizieren. Der Prozess umfasst die Identifizierung von Objekten und die Formulierung komplexer Fragen, die von menschlichen Annotatoren überprüft werden. Die Ergebnisse zeigen, dass HopChain die Leistung in 20 von 24 Benchmarks verbessert hat, was auf eine echte Generalisierung der Fähigkeiten hinweist. Zudem zeigen die Modelle Fortschritte in Video-Benchmarks, was darauf hindeutet, dass die erlernten Fähigkeiten über statische Bilder hinausgehen. Eine Analyse ergab, dass vollständige Frageketten entscheidend für die Genauigkeit sind, während verkürzte Fragen zu signifikanten Leistungseinbußen führen. Trotz dieser Fortschritte bleibt die visuelle Wahrnehmung eine zentrale Schwäche der aktuellen Modelle.

OpenAI's new GPT-5.4 model powers ChatGPT for Excel with finance-optimized reasoning

2026-03-06The Decoder

OpenAI hat das Beta-Add-In "ChatGPT for Excel" eingeführt, das auf dem neuen GPT-5.4-Modell basiert und speziell für finanzielle Aufgaben optimiert ist. Nutzer können durch natürliche Sprache Tabellenkalkulationen erstellen, bearbeiten und analysieren. Das Modell wurde durch interne Benchmarks getestet, die reale Investmentbanking-Aufgaben bewerteten, wie den Aufbau eines dreistufigen Modells mit korrektem Format und Quellen. Zudem werden Datenverbindungen zu renommierten Anbietern wie FactSet, Moody's, S&P Global und LSEG bereitgestellt. Der Dienst ist zunächst in den USA, Kanada und Australien für Business-, Enterprise-, Pro- und Plus-Nutzer verfügbar, während eine Version für Google Sheets in Planung ist. Die Einführung dieses Tools verspricht eine erhebliche Steigerung der Effizienz und Benutzerfreundlichkeit im Umgang mit Finanzdaten.

heise+ | Nach Deepseek: So geht es mit der chinesischen Open-Source-KI weiter

2026-02-23Heise

Im vergangenen Jahr hat die chinesische KI-Szene einen bedeutenden Wandel durchlebt, insbesondere nach der Einführung des R1-Reasoning-Modells von Deepseek. Chinesische Unternehmen haben eine Vielzahl von Large Language Models (LLM) entwickelt, die in ihrer Leistungsfähigkeit mit westlichen Modellen konkurrieren, jedoch zu deutlich geringeren Kosten. Ein Beispiel hierfür ist das Open-Weight-Modell Kimi K2.5 von Moonshot AI, das in Benchmarks fast mit dem teureren Claude Opus von Anthropic mithalten kann. Das Engagement Chinas für Open Source zeigt sich in der wachsenden Beliebtheit seiner Modelle, die mittlerweile mehr Downloads als amerikanische Pendants verzeichnen. Diese Entwicklung ermöglicht Entwicklern und Hobby-Programmierern einen kostengünstigen Zugang zu fortschrittlichen KI-Technologien. Im Gegensatz zu vielen kostenpflichtigen US-Modellen bieten chinesische Modelle die Möglichkeit, ihre Gewichte herunterzuladen und anzupassen, was die Weiterentwicklung der Technologie fördert und die Transparenz erhöht.

Why AI still can't find that one concert photo you're looking for

2026-02-22The Decoder

In der Studie von Forschern der Renmin-Universität in China und des Oppo Research Institute wird das Benchmark DISBench vorgestellt, das die Bildretrieval-Fähigkeiten von KI-Modellen anhand kontextueller Hinweise bewertet. Die Ergebnisse zeigen, dass selbst das fortschrittlichste Modell, Claude Opus 4.5, nur in 29 Prozent der Fälle alle relevanten Bilder korrekt identifiziert. Die Hauptursache für diese Schwächen liegt in der unzureichenden Planungsfähigkeit der Modelle, wobei bis zu 50 Prozent der Fehler auf ein vorzeitiges Abbrechen der Suche oder das Verlieren von Einschränkungen zurückzuführen sind. Um diese Probleme zu adressieren, haben die Forscher eine neue Methode namens DeepImageSearch entwickelt, die es dem KI-Modell ermöglicht, autonom durch die Fotosammlung zu navigieren und Hinweise aus verschiedenen Bildern zu kombinieren. Trotz dieser Innovation bleibt die Leistung der Modelle begrenzt, da sie nur in wenigen Fällen die richtigen Bilder finden. Eine manuelle Fehleranalyse zeigt, dass häufige Fehler auf ein "Reasoning Breakdown" zurückzuführen sind, was darauf hinweist, dass die Modelle nicht nur ihre Sicht verbessern, sondern auch ihre Planungs- und Managementfähigkeiten optimieren müssen, um komplexe Suchanfragen in persönlichen Fotosammlungen erfolgreich zu bewältigen.

New Gemini 3.1 Pro crushes previous benchmarks, outperforms GPT 5.2 reasoning

2026-02-19Interestingengineering

Google hat mit Gemini 3.1 Pro ein bedeutendes Update seines KI-Modells veröffentlicht, das die Leistung in verschiedenen Tests erheblich steigert und die Codierungsunterstützung verbessert. Diese Version, die für Entwickler, Unternehmen und Verbraucher zugänglich ist, bietet verbesserte Argumentationsfähigkeiten und eine optimierte Handhabung langer Dokumente. Besonders auffällig ist der Anstieg der Punktzahl im ARC-AGI-2-Benchmark von 31,1 Prozent auf 77,1 Prozent, was mehr als eine Verdopplung darstellt. Obwohl Gemini 3.1 Pro nicht in allen Kategorien führend ist, zeigt es in realen Anwendungen eine konsistentere und zuverlässigere Leistung. Die erweiterten Langkontextfähigkeiten ermöglichen es Unternehmen, umfangreiche Dokumente hochzuladen und detaillierte Fragen zu stellen, ohne diese aufteilen zu müssen. Google positioniert Gemini 3.1 Pro als ein wertvolles Werkzeug für Kundenservice, Automatisierung und Dokumentenprüfung, was besonders für Unternehmen, die mit sensiblen Daten arbeiten, von Bedeutung ist.

MBZUAI bringt K2 Think V2 auf den Markt: Das vollständig souveräne Reasoning-System der nächsten Generation aus den VAE

2026-01-28Prnewswire

Die Mohamed bin Zayed University of Artificial Intelligence (MBZUAI) hat in Zusammenarbeit mit G42 und Cerebras Systems K2 Think V2 vorgestellt, ein neues, vollständig souveränes Reasoning-System mit 70 Milliarden Parametern. Dieses System ist das erste seiner Art, das von der Datensammlung bis zur Evaluierung vollständig quelloffen ist, was Transparenz und Nachvollziehbarkeit gewährleistet. K2 Think V2 nutzt die Langkontext-Fähigkeiten des K2-V2-Basismodells und ermöglicht logisches Denken in mehreren Schritten, was die Leistung bei komplexen Aufgaben verbessert. Die Entwicklung dieses Systems hebt die technologische Souveränität der VAE hervor und positioniert das Land als Vorreiter in der KI-Entwicklung. Die Offenheit der Datenpipeline stärkt die wissenschaftliche Glaubwürdigkeit und ist entscheidend für die nationale KI-Souveränität. K2 Think V2 hat bereits herausragende Ergebnisse bei verschiedenen Reasoning-Benchmarks erzielt und beweist damit seine Leistungsfähigkeit im Vergleich zu anderen offenen Systemen.

MBZUAI bringt K2 Think V2 auf den Markt: Das vollständig souveräne Reasoning-System der nächsten Generation aus den VAE

2026-01-28wallstreet:online

MBZUAI hat in Zusammenarbeit mit G42 und Cerebras Systems das neue Reasoning-System K2 Think V2 vorgestellt, das auf dem K2-V2-Basismodell basiert und mit 70 Milliarden Parametern ausgestattet ist. Dieses System stellt einen bedeutenden Fortschritt für die technologische Souveränität der VAE dar, da es vollständig quelloffen ist und alle Phasen von der Datenkuratierung bis zur Evaluierung abdeckt. K2 Think V2 zeichnet sich durch verbesserte Transparenz und Leistungsfähigkeit aus und gilt als führendes System im Bereich der offenen Reasoning-Technologien. Mit seinen Langkontext-Fähigkeiten und der vollständigen Ausbildungstransparenz wird es als souveränes System betrachtet, das in der Lage ist, komplexe Probleme effizient zu lösen. Die Ergebnisse belegen, dass K2 Think V2 bei verschiedenen komplexen Reasoning-Benchmarks führend ist und somit seine Überlegenheit gegenüber anderen Open-Source-Systemen unterstreicht.

MBZUAI Launches K2 Think V2: UAE's Fully Sovereign, Next-Generation Reasoning System

2026-01-27Prnewswire

Die Mohamed bin Zayed University of Artificial Intelligence (MBZUAI) hat in Zusammenarbeit mit G42 und Cerebras Systems das K2 Think V2 vorgestellt, ein hochmodernes System für logisches Denken mit 70 Milliarden Parametern. Dieses innovative System ist das erste vollständig offene seiner Art, was bedeutet, dass alle Schritte von der Datensammlung bis zur Evaluierung transparent sind. K2 Think V2 nutzt das K2-V2-Basismodell und erreicht dadurch eine neue Leistungsstufe, die die technologische Souveränität der Vereinigten Arabischen Emirate stärkt. Es ermöglicht komplexe Problemlösungen in Bereichen wie Mathematik und Wissenschaft durch mehrstufiges Denken. Die offene Struktur fördert wissenschaftliche Glaubwürdigkeit und nationale Unabhängigkeit im KI-Sektor. K2 Think V2 erzielt zudem herausragende Ergebnisse bei Benchmark-Tests und hebt sich durch seine umfassende Transparenz und die Unabhängigkeit der Datenpipeline von anderen Systemen ab, was faire und vertrauenswürdige Bewertungen gewährleistet.

DeepSeek-V3.2 Outperforms GPT-5 on Reasoning Tasks

2026-01-06Infoq

DeepSeek hat mit der Veröffentlichung von DeepSeek-V3.2 ein neues KI-Modell vorgestellt, das in verschiedenen Denkbenchmarks besser abschneidet als GPT-5 und vergleichbare Ergebnisse wie Gemini-3.0 erzielt. Die Verbesserungen wurden durch innovative Techniken erreicht, insbesondere durch den neuen DeepSeek Sparse Attention (DSA), der die Rechenkomplexität verringert, sowie durch eine optimierte Verstärkungslernphase. Zudem wurde eine Pipeline zur Synthese agentischer Aufgaben entwickelt, um die Werkzeugnutzung der Modelle zu verbessern. Trotz dieser Fortschritte erkennt das DeepSeek-Team an, dass ihr Modell in Bezug auf Wissen und Effizienz hinter führenden proprietären Modellen zurückbleibt, was den Anreiz für zukünftige Entwicklungen schafft. Die Architektur von DeepSeek-V3.2 basiert auf der Vorgängerversion, DeepSeek-V3.1, und bietet eine erweiterte Kontextlänge sowie eine signifikante Geschwindigkeitssteigerung.

Baidu's latest ERNIE model brings visual reasoning to open-source AI

2025-11-12The Decoder

Baidu hat mit dem neuen KI-Modell ERNIE-4.5-VL-28B-A3B-Thinking ein innovatives System vorgestellt, das visuelle Informationen in seinen Denkprozess integriert. Das Modell behauptet, in mehreren multimodalen Benchmarks besser abzuschneiden als größere kommerzielle Modelle wie Google Gemini 2.5 Pro und OpenAI GPT-5 High, obwohl es nur 3 Milliarden aktive Parameter nutzt. Es läuft auf einer einzelnen 80 GB GPU, wobei die Leistungsfähigkeit bislang nicht unabhängig verifiziert wurde. Eine herausragende Funktion ist "Thinking with Images", die es dem Modell ermöglicht, Bilder dynamisch zuzuschneiden und wichtige Details hervorzuheben. In Demonstrationen konnte das Modell beispielsweise Text auf Schildern identifizieren und Personen in Bildern lokalisieren. Zudem kann es mathematische Probleme lösen und Untertitel aus Videos extrahieren. Diese Entwicklungen sind bemerkenswert, da sie Open-Source-Modelle aus China betreffen, die zuvor nur in proprietären westlichen Modellen zu finden waren.

Most LLM benchmarks are flawed, casting doubt on AI progress metrics, study finds

2025-11-08The Decoder

Eine internationale Studie hat gravierende Mängel in den Bewertungsmethoden für große Sprachmodelle (LLMs) aufgedeckt, indem sie 445 Benchmark-Papiere aus führenden KI-Konferenzen analysierte. Die Forscher kritisieren, dass nahezu alle Benchmarks methodologische Schwächen aufweisen, die die Validität der Testergebnisse in Frage stellen. Unklare Definitionen von Schlüsselbegriffen wie "Reasoning" und "Alignment" sowie die häufige Verwendung von composite skills ohne separate Bewertung der einzelnen Fähigkeiten untergraben die Zuverlässigkeit. Zudem nutzen 39 Prozent der Benchmarks Bequemlichkeitsstichproben, was zu Verzerrungen führen kann, und 80 Prozent verlassen sich auf einfache Übereinstimmungswerte ohne robuste statistische Analysen. Die Studie empfiehlt, klare Definitionen zu etablieren, gezielte Datenauswahl zu fördern und stärkere statistische Methoden anzuwenden, um die Vergleichbarkeit der Modelle zu verbessern. Trotz dieser Mängel bleiben Benchmarks entscheidend für die KI-Forschung, da sie den Fortschritt der Modelle dokumentieren und verschiedene Ansätze vergleichen. Die Forscher warnen jedoch, dass schwache Benchmarks echte Fortschritte von manipulierten Ergebnissen schwer unterscheidbar machen können.

Trillion-parameter AI model from Ant Group targets reasoning benchmarks with dual release strategy

2025-10-16Artificialintelligence News

Ant Group hat das KI-Modell Ling-1T mit einer Billion Parametern vorgestellt, das als bedeutender Fortschritt in der Balance zwischen Rechenleistung und Denkfähigkeiten gilt. Es erreicht eine Genauigkeit von 70,42% auf dem AIME-Benchmark und benötigt im Durchschnitt über 4.000 Ausgabetoken pro Problem. Zusätzlich wurde das dInfer-Framework eingeführt, das eine neue Inferenzmethode für Diffusions-Sprachmodelle darstellt und sich von den gängigen autoregressiven Systemen abhebt. Diese duale Veröffentlichungsstrategie zielt darauf ab, die Innovationskraft in der KI-Branche zu steigern und Ant Group als führenden Akteur in der globalen AI-Entwicklung zu positionieren. Im Gegensatz zu den geschlossenen Ansätzen einiger Wettbewerber setzt Ant Group auf offene und kooperative Entwicklung. Die neuen Technologien könnten auch die Wahrnehmung von Ant Group in der chinesischen AI-Szene stärken, wo das Unternehmen bereits andere Modelle wie Ring-1T und LLaDA-MoE präsentiert hat.

Reasoning-Benchmarks

Einordnung

Verwandte Cluster