KI Suche
Die Suche durchsucht Rubriken, Unterrubriken, Cluster, importierte Artikel, Firmen, Quellen und die wichtigsten Service-Seiten der KI-Linksammlung.
Suchergebnisse
12 Treffer für die aktuelle Abfrage.
Reasoning-Benchmarks
Aktuelle Links, Zusammenfassungen und Marktinformationen zu Reasoning-Benchmarks innerhalb von Bewertung & Benchmarks auf JetztStarten.de.
OpenAI's new GPT-5.4 model powers ChatGPT for Excel with finance-optimized reasoning
OpenAI hat das Beta-Add-In "ChatGPT for Excel" eingeführt, das auf dem neuen GPT-5.4-Modell basiert und speziell für finanzielle Aufgaben optimiert ist. Nutzer können durch natürliche Sprache Tabellenkalkulationen erstellen, bearbeiten und analysieren. Das Modell wurde durch interne Benchmarks getes
heise+ | Nach Deepseek: So geht es mit der chinesischen Open-Source-KI weiter
Im vergangenen Jahr hat die chinesische KI-Szene einen bedeutenden Wandel durchlebt, insbesondere nach der Einführung des R1-Reasoning-Modells von Deepseek. Chinesische Unternehmen haben eine Vielzahl von Large Language Models (LLM) entwickelt, die in ihrer Leistungsfähigkeit mit westlichen Modellen
Why AI still can't find that one concert photo you're looking for
In der Studie von Forschern der Renmin-Universität in China und des Oppo Research Institute wird das Benchmark DISBench vorgestellt, das die Bildretrieval-Fähigkeiten von KI-Modellen anhand kontextueller Hinweise bewertet. Die Ergebnisse zeigen, dass selbst das fortschrittlichste Modell, Claude Opus
New Gemini 3.1 Pro crushes previous benchmarks, outperforms GPT 5.2 reasoning
Google hat mit Gemini 3.1 Pro ein bedeutendes Update seines KI-Modells veröffentlicht, das die Leistung in verschiedenen Tests erheblich steigert und die Codierungsunterstützung verbessert. Diese Version, die für Entwickler, Unternehmen und Verbraucher zugänglich ist, bietet verbesserte Argumentatio
MBZUAI bringt K2 Think V2 auf den Markt: Das vollständig souveräne Reasoning-System der nächsten Generation aus den VAE
Die Mohamed bin Zayed University of Artificial Intelligence (MBZUAI) hat in Zusammenarbeit mit G42 und Cerebras Systems K2 Think V2 vorgestellt, ein neues, vollständig souveränes Reasoning-System mit 70 Milliarden Parametern. Dieses System ist das erste seiner Art, das von der Datensammlung bis zur
MBZUAI bringt K2 Think V2 auf den Markt: Das vollständig souveräne Reasoning-System der nächsten Generation aus den VAE
MBZUAI hat in Zusammenarbeit mit G42 und Cerebras Systems das neue Reasoning-System K2 Think V2 vorgestellt, das auf dem K2-V2-Basismodell basiert und mit 70 Milliarden Parametern ausgestattet ist. Dieses System stellt einen bedeutenden Fortschritt für die technologische Souveränität der VAE dar, da
MBZUAI Launches K2 Think V2: UAE's Fully Sovereign, Next-Generation Reasoning System
Die Mohamed bin Zayed University of Artificial Intelligence (MBZUAI) hat in Zusammenarbeit mit G42 und Cerebras Systems das K2 Think V2 vorgestellt, ein hochmodernes System für logisches Denken mit 70 Milliarden Parametern. Dieses innovative System ist das erste vollständig offene seiner Art, was be
DeepSeek-V3.2 Outperforms GPT-5 on Reasoning Tasks
DeepSeek hat mit der Veröffentlichung von DeepSeek-V3.2 ein neues KI-Modell vorgestellt, das in verschiedenen Denkbenchmarks besser abschneidet als GPT-5 und vergleichbare Ergebnisse wie Gemini-3.0 erzielt. Die Verbesserungen wurden durch innovative Techniken erreicht, insbesondere durch den neuen D
Baidu's latest ERNIE model brings visual reasoning to open-source AI
Baidu hat mit dem neuen KI-Modell ERNIE-4.5-VL-28B-A3B-Thinking ein innovatives System vorgestellt, das visuelle Informationen in seinen Denkprozess integriert. Das Modell behauptet, in mehreren multimodalen Benchmarks besser abzuschneiden als größere kommerzielle Modelle wie Google Gemini 2.5 Pro u
Most LLM benchmarks are flawed, casting doubt on AI progress metrics, study finds
Eine internationale Studie hat gravierende Mängel in den Bewertungsmethoden für große Sprachmodelle (LLMs) aufgedeckt, indem sie 445 Benchmark-Papiere aus führenden KI-Konferenzen analysierte. Die Forscher kritisieren, dass nahezu alle Benchmarks methodologische Schwächen aufweisen, die die Validitä
Trillion-parameter AI model from Ant Group targets reasoning benchmarks with dual release strategy
Ant Group hat das KI-Modell Ling-1T mit einer Billion Parametern vorgestellt, das als bedeutender Fortschritt in der Balance zwischen Rechenleistung und Denkfähigkeiten gilt. Es erreicht eine Genauigkeit von 70,42% auf dem AIME-Benchmark und benötigt im Durchschnitt über 4.000 Ausgabetoken pro Probl