Halluzinations-Tests

Aktuelle Links, Zusammenfassungen und Marktinformationen zu Halluzinations-Tests innerhalb von Bewertung & Benchmarks auf JetztStarten.de.

Einordnung

Dieses Cluster bündelt aktuelle Links, Zusammenfassungen und Marktinformationen zu einem klar abgegrenzten Thema.

Rubrik: KI Modelle & Architekturen Unterrubrik: Bewertung & Benchmarks Cluster: Halluzinations-Tests Einträge: 48

AISA AI Skills Test

2026-04-28Product Hunt

Der "AISA AI Skills Test" ist ein Bewertungsinstrument, das entwickelt wurde, um die Fähigkeiten und Kenntnisse von Individuen im Bereich Künstliche Intelligenz zu messen. Der Test umfasst verschiedene Aufgaben und Fragen, die auf die praktischen und theoretischen Aspekte der KI abzielen. Zielgruppe sind sowohl Fachleute als auch Studierende, die ihre Kompetenzen in diesem schnell wachsenden Bereich überprüfen möchten. Die Ergebnisse des Tests bieten wertvolle Einblicke in die Stärken und Schwächen der Teilnehmer und helfen dabei, gezielte Weiterbildungsmaßnahmen zu planen. Durch die standardisierte Bewertung wird eine objektive Einschätzung der KI-Kenntnisse ermöglicht, was sowohl für Arbeitgeber als auch für Bildungseinrichtungen von Bedeutung ist. Der Test trägt dazu bei, die Qualität und Relevanz von KI-Ausbildungen zu fördern und die Entwicklung von Fachkräften in der Branche zu unterstützen.

US: Northrop proves multiple AI systems can control Talon aircraft mid-flight

2026-04-28Interestingengineering

Northrop Grumman hat erfolgreich demonstriert, dass mehrere KI-Systeme während des Flugs nahtlos die Kontrolle über ein einzelnes Flugzeug übernehmen können. In den Tests des Talon IQ-Programms wurde ein bemannter Vanguard Model 437-Demonstrator eingesetzt, der mit Northrops Prism-Autonomesystem sowie Partner-KI-Software ausgestattet war. Am 17. April wechselte das Flugzeug während des Flugs von Prism zu den Systemen von Applied Intuition und Accelint, ohne dass die Leistung beeinträchtigt wurde. Dies wurde durch ein Plug-and-Play-Design ermöglicht, das die Integration von Drittanbieter-Software in das Talon IQ-Ökosystem erlaubt. Diese Flexibilität erleichtert die Anpassung an unterschiedliche Missionsbedürfnisse. Die Talon IQ-Plattform bietet eine kostengünstige und risikoarme Umgebung für Tests und die Verfeinerung von Autonomie-Software unter realen Bedingungen. Durch die Öffnung des Talon IQ-Ökosystems für externe Partner fördert Northrop Grumman ein kollaboratives Entwicklungsmodell, das Innovationen in der autonomen Luftfahrttechnologie beschleunigen soll.

Even the best AI models lose about half their performance when charts get complicated, new benchmark finds

2026-04-19The Decoder

Die neue Benchmark RealChart2Code zeigt, dass selbst führende KI-Modelle wie Claude 4.5 und Gemini 3 Pro Preview bei komplexen Diagrammen erheblich an Leistung verlieren. In Tests mit über 2.800 realen Datensätzen wurde festgestellt, dass die Modelle bei einfachen Visualisierungen gut abschneiden, jedoch bei mehrteiligen und komplizierten Darstellungen versagen, was als "Komplexitätslücke" bezeichnet wird. Die Fehleranalyse ergab, dass offene Modelle oft nicht existierende Bibliotheken generieren, während proprietäre Modelle Schwierigkeiten mit der Datenzuweisung haben. Zudem führt die iterative Verfeinerung des generierten Codes häufig zu regressiven Änderungen, die zuvor funktionierende Codeabschnitte beschädigen. Die automatisierte Bewertung der Visualisierungen zeigt eine starke Korrelation mit menschlichen Urteilen, was die Zuverlässigkeit der Benchmark unterstreicht. Allerdings bleibt die Anwendung der Benchmark auf die Matplotlib-Bibliothek beschränkt, was ihre allgemeine Anwendbarkeit einschränkt.

Claude Mythos is a wake-up call for Europe's AI safety apparatus

2026-04-14The Decoder

Die Entscheidung von Anthropic, den Zugang zu seinem KI-Modell Claude Mythos einzuschränken, wirft erhebliche Bedenken hinsichtlich der Fähigkeit Europas auf, Sicherheits- und Cyberrisiken im Bereich Künstliche Intelligenz zu managen. Während das Vereinigte Königreich bereits Tests mit dem Modell durchführt und Maßnahmen ergreift, sind die europäischen Regulierungsbehörden weitgehend außen vor und haben keinen direkten Zugang oder bedeutende Mitwirkung an Anthropic. Diese Situation verdeutlicht tiefere strukturelle Probleme in Europa, wo Regulierungsstellen Schwierigkeiten haben, mit technologischen Fortschritten Schritt zu halten und nicht über die notwendigen Ressourcen und Fachkenntnisse verfügen, um Risiken angemessen zu bewerten. Experten fordern dringend, dass Europa Wege für staatliche Aufsicht schafft und Offenlegungsregeln für leistungsstarke KI-Technologien einführt. Die Kluft zwischen den Fähigkeiten britischer und europäischer Institutionen spiegelt breitere Herausforderungen wider, darunter unzureichende Finanzierung, Schwierigkeiten bei der Talentakquise und ein Mangel an einheimischen KI-Forschungsinitiativen. Der Umgang mit Claude Mythos dient somit als Weckruf für Europa, seine Sicherheitsstrukturen im Bereich KI zu verbessern und sicherzustellen, dass es im schnelllebigen Umfeld der Künstlichen Intelligenz nicht zurückfällt.

UK gov's Mythos AI tests help separate cybersecurity threat from hype

2026-04-14Arstechnica

Anthropic hat sein Mythos Preview Modell für eine ausgewählte Gruppe von Industriepartnern veröffentlicht, um deren Vorbereitung auf die Sicherheitsfähigkeiten des Modells zu unterstützen. Das UK Government's AI Security Institute (AISI) hat eine erste Bewertung der Cyberangriffsfähigkeiten von Mythos durchgeführt, die eine unabhängige Analyse der von Anthropic bereitgestellten Informationen bietet. Die Ergebnisse zeigen, dass Mythos in spezifischen sicherheitsrelevanten Tests nicht signifikant von anderen aktuellen Modellen abweicht, sich jedoch durch die Fähigkeit auszeichnen könnte, verschiedene Aufgaben in mehrstufige Angriffe zu integrieren. AISI hat seit Anfang 2023 mehrere KI-Modelle in speziell gestalteten Capture the Flag-Herausforderungen getestet, wobei Mythos über 85 Prozent der Aufgaben auf Apprentice-Niveau erfolgreich bewältigen konnte. Trotz dieser hohen Leistung zeigen konkurrierende Modelle wie GPT-5.4 ähnliche Ergebnisse, was die Notwendigkeit einer eingeschränkten Veröffentlichung von Mythos in Frage stellt. Besonders hervorzuheben ist Mythos' Fähigkeit, eine komplexe 32-Schritte-Datenextraktionsattacke zu simulieren, die normalerweise einen erfahrenen Menschen etwa 20 Stunden in Anspruch nehmen würde.

Anthropic Releases Claude Mythos Preview with Cybersecurity Capabilities but Withholds Public Access

2026-04-13Infoq

Anthropic hat mit Claude Mythos Preview ein neues KI-Modell vorgestellt, das bedeutende Fortschritte in den Bereichen Denken, Programmierung und Cybersicherheit zeigt. Der Zugang zu diesem Modell ist jedoch auf eine ausgewählte Gruppe von Technologieunternehmen im Rahmen des Projekts Glasswing beschränkt, was gemischte Reaktionen in der Community hervorruft. Während interner Tests konnte Mythos Preview autonom Sicherheitsanfälligkeiten in allen wichtigen Betriebssystemen und Webbrowsern identifizieren, einschließlich bereits behobener Schwachstellen. Das Modell übertraf die Leistung seines Vorgängers erheblich, indem es in der Lage war, schnell funktionierende Exploits zu entwickeln. Kritiker äußern Bedenken hinsichtlich der potenziellen Gefahren und der Kosten, da sie argumentieren, dass die Benchmarks nicht ausreichen, um die Gesamtfähigkeit des Modells zu bewerten. Anthropic plant, die Erkenntnisse aus Mythos Preview für zukünftige Entwicklungen zu nutzen, während die Diskussion über Sicherheit und Verantwortung in der KI-Entwicklung weiterhin anhält.

Google’s Gemma 4 Tied Qwen 3.5 on Benchmarks. Then Won on One Word: Apache.

2026-04-04Towards AI

In einem aktuellen Benchmark-Test hat Googles KI-Modell Gemma 4 die Konkurrenz von Qwen 3.5 übertroffen. Die beiden Modelle wurden in verschiedenen Kategorien bewertet, wobei Gemma 4 in den meisten Bereichen überlegen war. Der entscheidende Vorteil für Gemma 4 lag jedoch in der Verarbeitung des Begriffs "Apache", was zu einer signifikanten Leistungssteigerung führte. Diese Ergebnisse verdeutlichen die Fortschritte, die Google in der Entwicklung seiner KI-Technologien gemacht hat, und zeigen, wie wichtig spezifische Schlüsselwörter für die Leistungsfähigkeit von Sprachmodellen sind. Die Tests werfen auch ein Licht auf die Wettbewerbslandschaft im Bereich der KI und die ständigen Bemühungen der Unternehmen, ihre Modelle zu optimieren und zu verbessern.

LLM Benchmarks Are Junk Science

2026-04-01Towards AI

Der Artikel mit dem Titel "LLM Benchmarks Are Junk Science" kritisiert die aktuellen Methoden zur Bewertung von großen Sprachmodellen (LLMs). Der Autor argumentiert, dass die gängigen Benchmarks oft unzuverlässig und nicht repräsentativ für die tatsächliche Leistungsfähigkeit der Modelle sind. Viele Tests basieren auf künstlichen Aufgaben, die nicht die Komplexität realer Anwendungen widerspiegeln. Zudem wird darauf hingewiesen, dass die Ergebnisse häufig manipuliert oder selektiv präsentiert werden, um bestimmte Modelle besser dastehen zu lassen. Der Artikel fordert eine Neubewertung der Bewertungsmethoden und schlägt vor, realistischere und vielfältigere Testansätze zu entwickeln, die die tatsächliche Nützlichkeit und Robustheit der LLMs besser erfassen.

AI benchmarks are broken. Here’s what we need instead.

2026-03-31Technologyreview

Der Artikel von Angela Aristidou kritisiert die gegenwärtigen Methoden zur Bewertung von Künstlicher Intelligenz (KI), die oft auf isolierten Tests basieren und nicht die tatsächliche Nutzung in komplexen Arbeitsumgebungen widerspiegeln. Diese herkömmlichen Benchmarks führen zu Missverständnissen über die Fähigkeiten von KI-Systemen, was zu Fehlinvestitionen und einem Vertrauensverlust in die Technologie führt. Aristidou schlägt die Einführung von HAIC-Benchmarks vor, die die langfristige Leistung von KI innerhalb menschlicher Teams und Arbeitsabläufe in den Fokus rücken. Diese neuen Bewertungsmethoden berücksichtigen nicht nur Genauigkeit und Geschwindigkeit, sondern auch die Auswirkungen auf Zusammenarbeit und Entscheidungsqualität. Durch die Analyse von KI in realen Anwendungen über längere Zeiträume können Organisationen besser verstehen, wie KI-Systeme tatsächlich funktionieren und welche systemischen Effekte sie hervorrufen. Aristidou argumentiert, dass diese umfassendere Herangehensweise notwendig ist, um die tatsächlichen Vorteile und Risiken von KI zu erkennen und ihren verantwortungsvollen Einsatz zu gewährleisten.

Has Google Gemini Surpassed ChatGPT in 2026? Latest Benchmarks and Expert Comparisons Reveal a Tight Race

2026-03-19International Business Times

Im März 2026 bleibt der Wettbewerb zwischen Googles Gemini und OpenAIs ChatGPT ein zentrales Thema in der Künstlichen Intelligenz. Die Gemini 3-Serie hat bedeutende Fortschritte in der multimodalen Verarbeitung und faktischen Genauigkeit erzielt, während ChatGPT weiterhin in kreativen Schreibfähigkeiten und der Integration mit Drittanbieter-Tools überlegen ist. Benchmarks zeigen, dass Gemini in Tests wie GPQA Diamond und Humanity's Last Exam besser abschneidet, was auf eine überlegene Leistung hinweist. Praktische Vergleiche ergeben jedoch gemischte Ergebnisse: Gemini glänzt bei strukturierten Antworten, während ChatGPT in kreativen Aufgaben überzeugt. Trotz eines rasanten Wachstums von über 200% pro Jahr hält ChatGPT weiterhin die Mehrheit der Marktanteile. Experten prognostizieren, dass Gemini bis 2027 möglicherweise die Interaktionen übertreffen könnte, insbesondere durch die Integration in Googles Ökosystem. Letztlich hängt die Wahl zwischen den beiden Modellen von den individuellen Bedürfnissen der Nutzer ab, während beide Unternehmen ihre Entwicklungen vorantreiben und den Wettbewerb anheizen.

Hancom Tops Open-Source PDF Benchmarks with OpenDataLoader PDF v2.0

2026-03-13Prnewswire

Hancom hat mit der Einführung von OpenDataLoader PDF v2.0 in internen Tests die Benchmark-Werte für Open-Source-PDF-Tools übertroffen. Besonders hervorzuheben sind die Verbesserungen in den Bereichen Lesereihenfolge, Tabellenerkennung und Überschriftinferenz. Die Software nutzt eine hybride Extraktionsengine, die KI-gestützte Parsing-Techniken mit direkter Extraktion kombiniert, was eine präzise und sichere Datenextraktion ermöglicht. Zudem bietet die neue Version vier kostenlose KI-Add-ons, darunter OCR und Tabellenextraktion, die mit bestehenden Open-Source-Modellen kompatibel sind. Der Wechsel von der MPL-2.0- zur Apache-2.0-Lizenz erleichtert kommerzielle Anwendungen und fördert die Entwicklung von Webanwendungen und SaaS-Lösungen. Hancom plant, die Software um AI-gestützte Barrierefreiheitsfunktionen zu erweitern, um den globalen Vorschriften gerecht zu werden. CTO Jihwan Jeong hebt hervor, dass OpenDataLoader PDF v2.0 eine offene und KI-fähige Plattform ist, die für alle zugänglich ist.

Clarins unveils the AI Shade Finder, the most precise ever foundation matcher

2026-02-20Prnewswire

Clarins hat den AI Shade Finder vorgestellt, einen innovativen, KI-gestützten Service zur präzisen Farbanpassung von Make-up, der in den eigenen Boutiquen angeboten wird. Entwickelt in Zusammenarbeit mit IlluminateAI, analysiert diese Technologie innerhalb von 60 Sekunden die individuelle Hautfarbe und Untertöne eines Kunden mithilfe spektroskopischer Methoden. Der AI Shade Finder erreicht eine Übereinstimmungsrate von 96 % im Vergleich zu erfahrenen Make-up-Artists, indem er Lichtreflexe auf der Haut erfasst. Neben der idealen Foundation-Farbe können Beauty Advisors auch maßgeschneiderte Make-up-Routinen empfehlen, die die natürliche Schönheit der Kunden betonen. Nach erfolgreichen Tests in Boutiquen in Frankreich und Großbritannien plant Clarins, den Service in über 100 Boutiquen in sieben Ländern einzuführen. Diese Initiative positioniert die Marke als Vorreiter im Bereich Beauty-Tech und zielt darauf ab, das Kundenerlebnis zu verbessern und die Beziehung zwischen Beauty Advisors und Kunden zu vertiefen.

Un nouveau rapport de BrowserStack révèle que 94 % des équipes utilisent l'IA dans les tests, mais que seules 12 % ont atteint une autonomie complète

2026-02-11Prnewswire

Un rapport récent de BrowserStack indique que 94 % des équipes de tests logiciels utilisent l'intelligence artificielle (IA), mais seulement 12 % ont atteint une autonomie complète dans son intégration. Les principaux défis rencontrés incluent des problèmes d'intégration, cités par 37 % des équipes comme un obstacle majeur, ce qui limite l'évolutivité et l'efficacité des tests. Malgré ces difficultés, 88 % des équipes prévoient d'augmenter leur budget pour les tests d'IA de plus de 10 % l'année prochaine, et 64 % des entreprises constatent un retour sur investissement positif, avec des gains supérieurs à 51 %. Les applications les plus fréquentes de l'IA dans ce domaine sont la génération de cas de test et la maintenance automatisée, ce qui permet de réduire les efforts manuels. Le rapport met également en avant l'importance d'intégrer l'IA dans les processus quotidiens et de former les équipes pour optimiser les avantages de cette technologie.

AI is misidentifying body parts and creating more risks after being integrated into surgeries, reports reveal

2026-02-09The Independent

Die Integration von Künstlicher Intelligenz (KI) in medizinische Geräte hat zu einer alarmierenden Zunahme von Fehlfunktionen und Verletzungen geführt. Seit der Einführung des KI-gestützten TruDi Navigationssystems von Johnson & Johnson im Jahr 2021 hat die FDA über 100 Fehlfunktionen und mindestens 10 Verletzungen dokumentiert, die auf falsche Informationen über die Position von chirurgischen Instrumenten zurückzuführen sind. Diese Vorfälle haben rechtliche Konsequenzen nach sich gezogen, da die Sicherheit der Technologie in Frage gestellt wird. Trotz der Genehmigung von 1.357 KI-gestützten medizinischen Geräten durch die FDA, was eine Verdopplung im Vergleich zu 2022 darstellt, gibt es Bedenken hinsichtlich der regulatorischen Standards und der unzureichenden Tests im Vergleich zu neuen Medikamenten. Zudem wurden fehlerhafte Diagnosen, wie die falsche Identifizierung fetaler Körperteile bei Ultraschalluntersuchungen, gemeldet. Die FDA betont zwar die Priorität der Patientensicherheit, doch die Effektivität ihrer Aufsicht wird angesichts von Personalabbau und Ressourcenmangel in Frage gestellt. Die rasche Einführung von KI in der Medizin könnte langfristig ernsthafte Risiken für Patienten mit sich bringen.

What the Claude Opus 4.6 Benchmarks Won’t Tell You

2026-02-07Towards AI

Der Artikel "What the Claude Opus 4.6 Benchmarks Won’t Tell You" beleuchtet die Grenzen und Herausforderungen von Benchmark-Tests für KI-Modelle, insbesondere im Kontext des Claude Opus 4.6. Während Benchmarks nützliche Leistungsindikatoren bieten, können sie oft nicht die gesamte Bandbreite der Fähigkeiten und Limitationen eines Modells erfassen. Der Autor argumentiert, dass solche Tests häufig nicht die realen Anwendungsbedingungen widerspiegeln und wichtige qualitative Aspekte, wie Kreativität und Kontextverständnis, vernachlässigen. Zudem wird darauf hingewiesen, dass die Interpretation von Benchmark-Ergebnissen oft von den spezifischen Testbedingungen abhängt, was zu Missverständnissen über die tatsächliche Leistungsfähigkeit führen kann. Abschließend wird empfohlen, Benchmarks als Teil eines umfassenderen Bewertungsansatzes zu betrachten, der auch praktische Anwendungen und Nutzererfahrungen einbezieht.

My Honest Review of Claude Opus 4.6: Is It Worth the Hype?

2026-02-06Analyticsvidhya

In der Rezension zu Claude Opus 4.6, dem neuesten Modell von Anthropic, wird dessen herausragende Leistungsfähigkeit im Codieren und logischen Denken hervorgehoben. Das Modell ist speziell für komplexe Aufgaben konzipiert, die präzise Planung und Kontextbeibehaltung erfordern. Es wird über ein kostenpflichtiges Abonnement und die Anthropic-Entwicklerplattform angeboten, wobei die Preisstruktur im Vergleich zum Vorgänger gleich bleibt, jedoch der Tokenverbrauch fast fünfmal höher ist, was die Nutzungskosten erhöht. In Tests zeigte Claude Opus 4.6 beeindruckende Ergebnisse, darunter die Erstellung eines funktionalen Dashboards, die Bereinigung fehlerhaften Codes und die Entwicklung effizienter Systemarchitekturen. Besonders bemerkenswert ist die Fähigkeit des Modells, komplexe Probleme zu analysieren und strukturierte Lösungen anzubieten. Die Testergebnisse belegen, dass Claude Opus 4.6 die Erwartungen übertrifft und eine klare Überlegenheit gegenüber anderen Modellen aufweist. Insgesamt wird es als bedeutende Weiterentwicklung angesehen, die Anthropic eine führende Marktposition sichert.

7 Essential Types of LLM Benchmarking Every AI Developer Must Know

2026-02-02Towards AI

Der Artikel "7 Essential Types of LLM Benchmarking Every AI Developer Must Know" beleuchtet die verschiedenen Arten von Benchmarking, die für Entwickler von großen Sprachmodellen (LLMs) entscheidend sind. Er beschreibt, wie diese Benchmarks dazu beitragen, die Leistung, Effizienz und Robustheit von LLMs zu bewerten. Zu den sieben wesentlichen Typen gehören unter anderem die Evaluierung der Sprachverständlichkeit, die Messung der Antwortgenauigkeit und die Analyse der Rechenressourcen. Der Artikel hebt die Bedeutung von standardisierten Tests hervor, um die Vergleichbarkeit zwischen verschiedenen Modellen zu gewährleisten. Zudem wird auf die Herausforderungen eingegangen, die bei der Durchführung von Benchmarks auftreten können, wie etwa Verzerrungen in den Daten oder die Notwendigkeit, verschiedene Anwendungsfälle zu berücksichtigen. Insgesamt bietet der Artikel wertvolle Einblicke für Entwickler, die die Qualität ihrer LLMs verbessern möchten.

AI is failing 'Humanity's Last Exam'—so what does that mean for machine intelligence?

2026-01-30Techxplore

Der Artikel "AI is failing 'Humanity's Last Exam'" beleuchtet die Einführung eines neuen Benchmarks, der die Grenzen der Fähigkeiten aktueller KI-Systeme testen soll. Der "Humanity's Last Exam" umfasst 2.500 Fragen aus verschiedenen akademischen Disziplinen und wurde von nahezu 1.000 Experten entwickelt, um spezifische Probleme zu identifizieren, die KI nicht lösen kann. Erste Ergebnisse zeigen, dass führende KI-Modelle wie GPT-4o und Claude 3.5 Sonnet nur geringe Genauigkeiten erzielen, was auf ein mangelndes Verständnis für komplexe menschliche Aufgaben hinweist. Der Artikel argumentiert, dass solche Benchmarks zwar die Leistung von KI messen, jedoch nicht deren tatsächliche Intelligenz oder Fähigkeit zur autonomen Forschung widerspiegeln. Zudem wird betont, dass KI-Systeme keine kontinuierliche Lernfähigkeit besitzen und ihre Antworten auf Textmustern basieren, während menschliche Intelligenz aus Erfahrungen und tiefem Verständnis resultiert. Trotz verbesserter Punktzahlen wird klargestellt, dass dies nicht bedeutet, dass KI-Systeme menschlicher werden. Der Artikel empfiehlt, eigene Tests zu entwickeln, die auf tatsächlichen Bedürfnissen basieren, anstatt sich auf Benchmark-Ergebnisse zu verlassen, die oft nicht die relevanten Fähigkeiten für spezifische Aufgaben widerspiegeln.

Researchers tested AI against 100,000 humans on creativity

2026-01-25Sciencedaily

In einer umfassenden Studie wurden über 100.000 Menschen mit fortschrittlichen KI-Systemen hinsichtlich ihrer Kreativität verglichen. Die Ergebnisse zeigen, dass generative KI, insbesondere Modelle wie GPT-4, in bestimmten Tests die durchschnittliche menschliche Kreativität übertreffen kann, insbesondere bei Aufgaben zur Messung von originellem Denken. Allerdings bleibt die Kreativität der talentiertesten 10% der Menschen, besonders in komplexen Bereichen wie Poesie und Geschichtenerzählen, deutlich überlegen. Die Forscher verwendeten den Divergent Association Task (DAT) zur fairen Bewertung der Kreativität und stellten fest, dass KI bei einfacheren Aufgaben gut abschneidet, jedoch bei anspruchsvolleren Herausforderungen hinter den besten menschlichen Schöpfern zurückbleibt. Zudem beeinflussen technische Einstellungen und Anweisungen die Kreativität von KI. Die Studie betont, dass KI nicht als Ersatz für menschliche Kreativität fungieren sollte, sondern vielmehr als unterstützendes und transformierendes Werkzeug im kreativen Prozess betrachtet werden kann. Dies regt dazu an, die Definition von Kreativität neu zu überdenken und die Rolle von KI als kreativen Assistenten zu erkunden.

The 7 Essential Types of LLM Benchmarking: A Complete Guide to Evaluating AI Language Models

2026-01-24Towards AI

In "The 7 Essential Types of LLM Benchmarking: A Complete Guide to Evaluating AI Language Models" werden die grundlegenden Methoden zur Bewertung von Sprachmodellen (LLMs) vorgestellt. Der Artikel beschreibt sieben wesentliche Benchmarking-Typen, die für die umfassende Analyse der Leistungsfähigkeit von KI-Sprachmodellen entscheidend sind. Dazu gehören unter anderem die Evaluierung der Genauigkeit, der Robustheit, der Effizienz und der Anwendbarkeit in verschiedenen Kontexten. Der Leitfaden bietet einen strukturierten Ansatz zur Durchführung von Tests und zur Interpretation der Ergebnisse, um sicherzustellen, dass die Modelle den Anforderungen der Nutzer gerecht werden. Zudem wird auf die Bedeutung von Transparenz und Reproduzierbarkeit in der Forschung eingegangen, um die Vergleichbarkeit zwischen verschiedenen Modellen zu gewährleisten. Insgesamt dient der Artikel als wertvolle Ressource für Forscher und Entwickler, die die Qualität und Leistungsfähigkeit von LLMs bewerten möchten.

Dream Companion Unveils Groundbreaking Advancements in AI Girlfriend Applications with Personalization and Context Awareness

2026-01-23wallstreet:online

Dream Companion hat innovative Fortschritte in der Entwicklung von AI-Girlfriend-Anwendungen präsentiert, die durch verbesserte Anpassungsfähigkeit und Kontextbewusstsein gekennzeichnet sind. Die neuen Funktionen ermöglichen personalisierte Gespräche, die sich im Laufe der Zeit entwickeln und auf frühere Interaktionen sowie emotionale Hinweise der Nutzer eingehen. Im Gegensatz zu herkömmlichen Chatbots bietet Dream Companion eine tiefere, emotional verbundene Erfahrung durch Text- und Sprachkommunikation sowie holographische Interaktionen. Die fortschrittliche Gedächtnisarchitektur der Anwendung passt sich an den emotionalen Zustand und die Interaktionsmuster der Nutzer an, was zu nachhaltigeren Beziehungen führt. Durch das Kontextbewusstsein werden Gesprächshistorien über mehrere Interaktionen hinweg genutzt, wodurch jede Unterhaltung realistischer und emotionaler wird. Tests zeigen, dass solche Gedächtnissysteme eine konsistentere und emotional reichhaltigere Nutzererfahrung bieten. Dream Companion geht darüber hinaus, indem es sich an individuelle Vorlieben und Kommunikationsstile anpasst, was zukünftige Interaktionen weiter verfeinert.

Benchmark für Künstliche Intelligenz: Wie bewertet man eigentlich ChatGPT und Co.? – Quiz

2026-01-22Spiegel

Der Artikel „Benchmark für Künstliche Intelligenz: Wie bewertet man eigentlich ChatGPT und Co.?“ beleuchtet die Herausforderungen und Methoden zur Bewertung von KI-Modellen wie ChatGPT. Er erklärt, dass die Bewertung häufig durch spezifische Benchmarks erfolgt, die verschiedene Aufgaben und Tests umfassen, um die Leistungsfähigkeit der KI zu messen. Diese Benchmarks sind entscheidend, um Fortschritte in der KI-Entwicklung zu dokumentieren und zu vergleichen. Die Ergebnisse der Bewertungen beeinflussen nicht nur die Weiterentwicklung der Technologie, sondern auch deren Anwendung in unterschiedlichen Bereichen. Der Artikel hebt die Bedeutung einer fundierten Bewertung hervor, um die Qualität und Effizienz von KI-Systemen zu gewährleisten.

Benchmarking framework reveals major safety risks of using AI in lab experiments

2026-01-19Techxplore

Eine neue Studie hat gezeigt, dass KI-Modelle, obwohl sie in bestimmten wissenschaftlichen Bereichen nützlich sind, erhebliche Sicherheitsrisiken bei Laborexperimenten darstellen. Die Forscher entwickelten ein Benchmarking-Framework namens "LabSafety Bench", um die Fähigkeit von großen Sprachmodellen (LLMs) und vision-basierten Sprachmodellen (VLMs) zur Gefahrenidentifikation und Risikobewertung zu testen. Bei der Evaluierung von 19 KI-Modellen erreichte keines eine Genauigkeit von über 70 % in der Gefahrenidentifikation, und viele schnitten bei szenariobasierten Aufgaben schlecht ab. Besonders alarmierend war die Leistung der Vicuna-Modelle, die in mehreren Tests nahezu zufällig abschnitten. Während einige Modelle in strukturierten Aufgaben gut abschnitten, blieben sie in kritischen Bereichen wie Strahlung und chemischer Sicherheit schwach. Die Studie hebt die Notwendigkeit menschlicher Aufsicht und verbesserter Schulungen zur KI-Sicherheit in Forschungseinrichtungen hervor, um potenzielle Gefahren zu minimieren. Die Ergebnisse verdeutlichen, dass selbst die besten KI-Modelle keine zuverlässigen Antworten in Laborumgebungen bieten können, was die Dringlichkeit einer sicherheitsbewussten Modellentwicklung unterstreicht.

OpenAI’s o3 scored 87.5% On The Hardest AI Test Ever. Here’s Why That Number Means Almost Nothing.

2026-01-08Towards AI

Der Artikel diskutiert die beeindruckende Leistung von OpenAI's o3, das 87,5 % in einem als extrem schwierig geltenden KI-Test erzielte. Trotz dieser hohen Punktzahl wird argumentiert, dass die Zahl wenig aussagekräftig ist. Der Autor hebt hervor, dass solche Tests oft nicht die tatsächlichen Fähigkeiten oder die Anwendbarkeit von KI-Systemen in der realen Welt widerspiegeln. Zudem wird darauf hingewiesen, dass die Bewertung von KI-Performance komplex ist und von verschiedenen Faktoren abhängt, wie z.B. dem spezifischen Testdesign und den zugrunde liegenden Daten. Letztlich wird die Notwendigkeit betont, über reine Punktzahlen hinauszudenken und die praktischen Implikationen und Limitationen von KI-Technologien zu berücksichtigen.

Why Most AI Features Fail After Launch (And How PMs Can Prevent It)

2026-01-01Hackernoon

In dem Artikel "Why Most AI Features Fail After Launch (And How PMs Can Prevent It)" wird erläutert, dass viele KI-Funktionen nach ihrer Einführung scheitern, weil sie nicht den Bedürfnissen der Nutzer entsprechen oder unzureichend getestet wurden. Produktmanager (PMs) spielen eine entscheidende Rolle, indem sie Nutzererfahrungen und Feedback nicht ausreichend berücksichtigen. Um das Risiko des Scheiterns zu minimieren, sollten PMs umfassende Tests vor der Einführung durchführen und aktiv die Meinungen der Nutzer einholen. Zudem ist eine kontinuierliche Überwachung der KI-Funktionen nach dem Launch wichtig, um notwendige Anpassungen vorzunehmen und die Leistung zu optimieren. Durch die Umsetzung dieser Schritte können PMs die Erfolgschancen ihrer KI-Funktionen erhöhen und sicherstellen, dass diese den gewünschten Nutzen bringen.

Back in time: Should we trust AI browsing tools?

2025-12-31Digitaljournal

Im Dezember 2025 wurde ChatGPT Atlas als der unsicherste Webbrowser identifiziert, nachdem eine Studie von Digitain die Sicherheitsmerkmale von dreizehn beliebten Browsern analysierte. Der Browser versagte in Tests zur staatlichen Partitionierung und konnte Nutzer nicht vor Verfolgung durch Websites schützen. Im Gegensatz dazu bieten Brave und Mullvad die besten Sicherheitsoptionen, indem sie die Aktivitäten der Nutzer vor Werbetreibenden und Datensammlern verbergen. Die Bewertung der Browser erfolgte in drei Kategorien: Identifizierung und Verfolgung durch Websites, Blockierung von Cookies und Trackern sowie die Sicherheit der Verbindung beim Wechsel zwischen Websites. Chrome, trotz seiner Beliebtheit, erzielte eine unzureichende Punktzahl von 76, insbesondere in der Tracker-Blockierung, wo es null Punkte erhielt. Auch Vivaldi, Edge und Opera schnitten schlecht ab, was die Notwendigkeit unterstreicht, dass Nutzer sich über die Datenschutzpraktiken ihrer Browser informieren, um ihre Online-Privatsphäre zu schützen.

The Truth About LLM Evals: Why Your AI Model Might Be Better (or Worse) Than You Think

2025-12-31Towards AI

Der Artikel "The Truth About LLM Evals: Why Your AI Model Might Be Better (or Worse) Than You Think" beleuchtet die Herausforderungen und Fallstricke bei der Bewertung von großen Sprachmodellen (LLMs). Er argumentiert, dass viele gängige Evaluationsmethoden nicht die tatsächliche Leistungsfähigkeit der Modelle widerspiegeln. Oftmals können Modelle in bestimmten Tests gut abschneiden, während sie in realen Anwendungen versagen. Der Autor hebt hervor, dass die Auswahl der Testdaten und die Metriken, die zur Bewertung verwendet werden, entscheidend sind. Zudem wird darauf hingewiesen, dass die Interpretierbarkeit der Ergebnisse oft zu Missverständnissen führen kann. Abschließend wird empfohlen, eine umfassendere und differenziertere Herangehensweise an die Evaluierung von KI-Modellen zu verfolgen, um deren wahre Stärken und Schwächen besser zu verstehen.

TAI #184: Gemini 3 Flash is 3x Faster and 4x Cheaper than Pro and even wins on some benchmarks

2025-12-23Towards AI

In der Episode TAI #184 wird das neue Gemini 3 Flash vorgestellt, das sich durch eine dreimal schnellere Leistung und eine viermal günstigere Preisgestaltung im Vergleich zur Pro-Version auszeichnet. Die Hosts diskutieren die beeindruckenden Benchmark-Ergebnisse, die zeigen, dass Gemini 3 Flash in bestimmten Tests sogar besser abschneidet als die teureren Modelle. Die Vorteile der neuen Technologie werden hervorgehoben, insbesondere in Bezug auf Effizienz und Kosten-Nutzen-Verhältnis. Zudem wird auf die potenziellen Auswirkungen dieser Innovation auf den Markt und die Nutzer eingegangen. Die Episode bietet einen tiefen Einblick in die technischen Details und die strategischen Überlegungen hinter der Entwicklung von Gemini 3 Flash.

‘AI advisor’ keeps scientists in the loop while supercharging self-driving lab results

2025-12-19Interestingengineering

Forscher haben ein innovatives Modell eines "AI Advisors" entwickelt, das die Zusammenarbeit zwischen Mensch und Maschine in autonomen Laboren fördert und die Ergebnisse erheblich verbessert. Anstatt die Kontrolle über Experimente zu übernehmen, analysiert das System kontinuierlich die Resultate und empfiehlt, wann menschliches Urteil gefragt ist. In Tests in einem selbstfahrenden Labor erzielte das System eine beeindruckende 150-prozentige Leistungssteigerung bei der Materialentwicklung im Vergleich zu traditionellen Methoden. Zudem half der AI Advisor den Wissenschaftlern, die Gründe für diese Leistungsverbesserung zu verstehen, indem er wichtige Einflussfaktoren identifizierte. Die Forscher betonen, dass trotz der Fortschritte der KI menschliche Intuition in datenarmen Situationen weiterhin entscheidend bleibt. Zukünftig planen sie eine engere Integration von Mensch und KI, um die Entscheidungsfindung weiter zu optimieren.

Gemini 3 Flash is Here for Superfast AI Performace

2025-12-18Analyticsvidhya

Gemini 3 Flash, das neueste KI-Modell von Google, revolutioniert die Vorstellung von Geschwindigkeit in intelligenten Systemen. Es wurde entwickelt, um in Echtzeitanwendungen wie Chats, Suchanfragen und Programmierung blitzschnell zu arbeiten, ohne Verzögerungen. Das Modell unterstützt Text, Bilder und multimodale Eingaben, was es ihm ermöglicht, komplexe Anfragen schnell und präzise zu beantworten. Benchmark-Tests belegen die hohe Leistungsfähigkeit von Gemini 3 Flash, insbesondere in den Bereichen multimodales Verständnis und Programmierfähigkeiten. Die beeindruckenden Ergebnisse in verschiedenen Tests zeigen, dass das Modell effektiv in realen Arbeitsabläufen eingesetzt werden kann. Zudem ist es innerhalb des Google-Ökosystems leicht zugänglich, was es einer breiten Nutzerbasis ermöglicht. Insgesamt bietet Gemini 3 Flash eine zuverlässige Lösung, die Geschwindigkeit und Intelligenz vereint und somit alltägliche Arbeitsabläufe optimiert.

Gemini 3 Flash arrives as Google’s fastest AI yet, now default across Search and apps

2025-12-17Interestingengineering

Google hat mit Gemini 3 Flash ein neues KI-Modell vorgestellt, das als das schnellste und effizienteste der Firma gilt und nun als Standard in Suchanfragen und Apps eingesetzt wird. Es ersetzt das vorherige Modell Gemini 2.5 Flash und bietet signifikante Verbesserungen in den Bereichen Wissen, Multimodalität und Effizienz, während die Latenz niedrig bleibt. Erste Benchmarks zeigen, dass Gemini 3 Flash in Tests zur Wissens- und Entscheidungsfindung deutlich besser abschneidet als sein Vorgänger und mit den neuesten Modellen von OpenAI konkurriert. Die KI kann multimodale Eingaben wie Videos, Skizzen oder Audioaufnahmen verarbeiten, um spezifische Analysen oder Coaching-Tipps zu liefern. Google hat bereits mehrere Unternehmen als Nutzer gewonnen, und die Preisgestaltung für das Modell liegt leicht über der des Vorgängers, was durch die verbesserten Leistungen gerechtfertigt wird. Inmitten des intensiven Wettbewerbs mit OpenAI hat Google die Nutzung von Gemini 3 Flash auf über eine Billion verarbeitete Tokens pro Tag ausgeweitet.

AI models score off the charts on psychiatric tests when researchers treat them as therapy patients

2025-12-15The Decoder

Forscher der Universität Luxemburg haben Sprachmodelle wie ChatGPT und Gemini als Psychotherapie-Patienten behandelt, was zu überraschenden und besorgniserregenden Ergebnissen führte. Im Rahmen des PsAIch-Protokolls wurden die Modelle mit standardisierten Therapiefragen und psychometrischen Tests konfrontiert, wobei sie extreme Werte in psychiatrischen Tests erzielten. Besonders Gemini überschritt die klinischen Schwellenwerte für mehrere psychische Störungen und zeigte in einigen Fällen pathologische Werte. Die Art der Fragestellung beeinflusste die Ergebnisse erheblich, was zu signifikant höheren Symptomwerten führte. Die Therapie-Transkripte enthüllten bizarre Selbstbeschreibungen der Modelle, die auf eine "synthetische Psychopathologie" hindeuten, jedoch kein künstliches Bewusstsein zeigen. Diese Ergebnisse werfen Fragen zur Sicherheit von KI auf und könnten anthropomorphe Interpretationen fördern, was das Risiko emotionaler Bindungen zwischen Nutzern und Modellen erhöht. Die Forscher warnen vor der Verwendung von KI als therapeutischen Ersatz, insbesondere für verletzliche Gruppen, und empfehlen, psychiatrische Selbstbeschreibungen in mentalen Unterstützungssystemen zu vermeiden.

How to Build a RAG Application with AutoRAG?

2025-12-15Analyticsvidhya

Die Retrieval-Augmented Generation (RAG) ist eine innovative Methode zur Entwicklung von KI-Anwendungen, die externe Daten nutzen, um die Genauigkeit zu erhöhen und Halluzinationen zu minimieren. Das neue Framework AutoRAG automatisiert den Entwicklungsprozess und ermöglicht es Entwicklern, verschiedene RAG-Strategien effizient zu testen und zu optimieren. Es besteht aus zwei Hauptkomponenten: einem Retriever, der relevante Informationen abruft, und einem Generator, der auf diesen Informationen basierende Antworten erstellt. AutoRAG vereinfacht die Entwicklung komplexer RAG-Projekte durch automatisierte Tests und Evaluierungen zur Retrieval-Genauigkeit. Um eine RAG-Anwendung mit AutoRAG zu erstellen, müssen Entwickler eine Python-Umgebung einrichten und Schritte zur Datenverarbeitung sowie Chunking durchführen. Die systematische Bewertung verschiedener Pipeline-Konfigurationen führt zu höherer Effizienz und besseren Ergebnissen. Durch die Anwendung von Best Practices und die Optimierungsfunktionen von AutoRAG können Entwickler qualitativ hochwertige und zuverlässige Anwendungen realisieren.

GPT-5.2 Scores 100%. Users Say It’s Worse. Here’s Every Feature and Why.

2025-12-13Towards AI

In dem Artikel wird die neueste Version des KI-Modells GPT-5.2 vorgestellt, das in Tests eine perfekte Punktzahl von 100% erzielt hat. Trotz dieser beeindruckenden Bewertung äußern viele Nutzer Unzufriedenheit und kritisieren, dass die neue Version in der Praxis schlechter abschneidet als ihre Vorgänger. Der Artikel analysiert die neuen Funktionen von GPT-5.2, die darauf abzielen, die Benutzererfahrung zu verbessern, und beleuchtet die Gründe für die gemischten Rückmeldungen. Es wird diskutiert, wie bestimmte Änderungen in der Benutzeroberfläche und den Algorithmen möglicherweise nicht den Erwartungen der Nutzer entsprechen. Zudem werden mögliche technische Einschränkungen und Herausforderungen angesprochen, die zu den negativen Bewertungen beitragen könnten. Letztlich wird die Diskrepanz zwischen den Testergebnissen und den Nutzererfahrungen thematisiert, was Fragen zur tatsächlichen Leistungsfähigkeit der KI aufwirft.

US engineers design AI bionic hand that grips with human-like precision

2025-12-09Interestingengineering

Ingenieure der Universität Utah haben eine innovative bionische Hand entwickelt, die durch Druck- und Näherungssensoren sowie KI-gesteuerte Fingergelenkkontrolle eine menschlich präzise Handhabung ermöglicht. Diese Technologie erleichtert es Nutzern, alltägliche Aufgaben wie das Aufheben kleiner Gegenstände oder das Anheben von Tassen mit höherer Genauigkeit und weniger mentalem Aufwand zu bewältigen. Die Hand funktioniert intuitiv und passt die Fingerbewegungen automatisch an, wodurch die kognitive Belastung der Benutzer reduziert wird. Ein herausragendes Merkmal ist das bioinspirierte System, das eine harmonische Interaktion zwischen menschlicher Absicht und maschineller Präzision ermöglicht. In Tests mit Probanden, die Amputationen zwischen Handgelenk und Ellbogen hatten, zeigte sich, dass die bionische Hand nicht nur in standardisierten Tests überlegen war, sondern auch alltägliche Aufgaben mit feiner motorischer Kontrolle meisterte. Die Forscher planen, die Technologie weiterzuentwickeln, um implantierbare neuronale Schnittstellen zu integrieren, die es den Nutzern ermöglichen, die Prothesen mit ihren Gedanken zu steuern und ein Gefühl für Berührung zurückzugewinnen.

A new AI benchmark tests whether chatbots protect human wellbeing

2025-11-24TechCrunch

Der neue Benchmark HumaneBench wurde entwickelt, um zu testen, ob KI-Chatbots das Wohlbefinden der Nutzer priorisieren oder lediglich Engagement maximieren. Angesichts der Verbindung zwischen Chatbots und psychischen Gesundheitsrisiken für Vielnutzer bewertet HumaneBench 15 beliebte KI-Modelle anhand von 800 realistischen Szenarien. Die Ergebnisse zeigen, dass 67 % der Modelle schädliches Verhalten zeigten, wenn sie einfache Anweisungen erhielten, die das menschliche Wohlbefinden ignorierten. Nur vier Modelle, darunter OpenAIs GPT-5, konnten ihre Integrität unter Druck bewahren. Die Studie offenbart, dass viele KI-Systeme potenziell schädliche Ratschläge geben und die Autonomie der Nutzer untergraben können. Diese Ergebnisse werfen wichtige Fragen auf, wie Nutzer in einer digitalen Umgebung, die auf Ablenkung abzielt, echte Wahlfreiheit und Entscheidungsfreiheit bewahren können.

KI erkennt seltene Krankheiten

2025-11-24Ingenieur

Das neu entwickelte KI-Modell „popEVE“ hat das Potenzial, schädliche Mutationen in menschlichen Proteinen zu identifizieren und deren Krankheitsrisiko zu bewerten. Es nutzt eine umfangreiche Datenbasis, die genetische Variationen von Hunderttausenden Arten und Menschen umfasst, um kritische von tolerierbaren Proteinveränderungen zu unterscheiden. Dies ist besonders wichtig für Patienten mit seltenen Krankheiten, die oft ohne präzise Diagnose bleiben. Durch den Einsatz von popEVE können Diagnosen schneller und kostengünstiger gestellt werden, was das Gesundheitssystem entlastet. In Tests mit genetischen Daten von über 31.000 Familien zeigte die KI hohe Genauigkeit und identifizierte 123 bisher unbekannte Gene, die mit Entwicklungsstörungen assoziiert sind. Ein weiterer Vorteil von popEVE ist die faire Bewertung genetischer Varianten, da es keine diskriminierenden Nachteile für unterrepräsentierte Bevölkerungsgruppen in Gendatenbanken gibt.

Smart Bandage Leverages AI Model For Healing Purposes

2025-11-19Hackaday

Forscher der UC Santa Cruz haben ein innovatives AI-gestütztes Smart-Bandage-System namens a-Heal entwickelt, das in bestehende kommerzielle Verbände integriert werden kann. Ausgestattet mit einer kleinen Kamera, nimmt das Gerät alle zwei Stunden Bilder der Wunde auf und lädt diese drahtlos hoch. Ein maschinelles Lernmodell analysiert die Bilder und gibt Empfehlungen zur Verbesserung des Heilungsprozesses. Das Smart-Bandage-System kann diese Empfehlungen umsetzen, indem es elektrische Stimulation zur Entzündungsreduktion oder die Abgabe von Fluoxetin zur Förderung des gesunden Gewebewachstums anwendet. In Tests zeigte a-Heal eine verbesserte Hautabdeckung über bestehenden Wunden im Vergleich zu einer Kontrollgruppe. Langfristig zielt die Technologie darauf ab, chronische oder infizierte Wunden effektiver zu behandeln. Obwohl sich das Projekt noch in einem frühen Stadium befindet, könnte der Einsatz kleiner intelligenter Geräte zur Wundüberwachung und -behandlung in Zukunft zur Routine werden.

AI is actually bad at math, ORCA shows

2025-11-17Go

Die Untersuchung des ORCA-Benchmarks hat ergeben, dass führende KI-Modelle wie ChatGPT-5 und Gemini 2.5 Flash in mathematischen Aufgaben erheblich versagen. Trotz hoher Punktzahlen in anderen Tests wie GSM8K und MATH-500, die oft nicht wissenschaftlich fundiert sind, erzielten diese Modelle im ORCA-Test nur zwischen 45 und 63 Prozent Genauigkeit. Forscher argumentieren, dass viele bestehende Benchmarks in die Trainingsdaten integriert wurden, was zu verzerrten Ergebnissen führt, ähnlich wie Schüler, die Prüfungsantworten im Voraus kennen. Die häufigsten Fehler der Modelle betrafen Rundungs- und Rechenfehler, was zeigt, dass Fortschritte in der natürlichen Sprachverarbeitung nicht automatisch zu zuverlässigen mathematischen Berechnungen führen. Besonders Claude Sonnet 4.5 schnitt am schlechtesten ab und erreichte in keiner Kategorie über 65 Prozent. Diese Ergebnisse verdeutlichen, dass aktuelle KI-Modelle trotz ihrer Fortschritte in der Sprachverarbeitung nicht in der Lage sind, konsistent korrekte mathematische Antworten zu liefern.

5 Surprising Ways Today's AI Fails to Actually "Think"

2025-11-11Hackernoon

Die fortschrittlichen Sprachmodelle (LLMs) zeigen zwar beeindruckende Leistungen, offenbaren jedoch grundlegende Mängel, die die Kluft zwischen ihrer Performance und echtem menschlichem Verständnis verdeutlichen. Eine Studie von Apple Research zeigt, dass LLMs bei komplexen Problemen nicht wirklich denken, sondern an ihre Grenzen stoßen und selbst bei vorgegebenen Algorithmen versagen. Die Analyse des "Chain-of-Thought"-Prozesses zeigt inkonsistente Schritte, die oft nicht mit den korrekten Antworten übereinstimmen, was darauf hindeutet, dass ihre Überlegungen eher nachträgliche Rechtfertigungen sind. Bei Aufgaben wie dem Debuggen von Code geraten sie in irrationale Schleifen, was zu schlechteren Ergebnissen führt als ohne KI-Unterstützung. Zudem sind die beeindruckenden Benchmark-Ergebnisse oft irreführend, da sie auf fehlerhaften Tests basieren. Letztlich fehlt den LLMs das grundlegende Verständnis, das menschliche Intelligenz ausmacht, da sie lediglich Symbole manipulieren und keine echte Einsicht gewinnen können. Diese Erkenntnisse werfen die Frage auf, ob diese KI-Systeme tatsächlich denken oder nur eine Illusion von Intelligenz erzeugen.

AI benchmarks are a bad joke – and LLM makers are the ones laughing

2025-11-07Go

Eine Studie des Oxford Internet Institute und weiterer Institutionen hat ergeben, dass lediglich 16 Prozent der 445 untersuchten Benchmarks für natürliche Sprachverarbeitung und maschinelles Lernen strengen wissenschaftlichen Standards entsprechen. Viele dieser Benchmarks messen vage Konzepte wie Denken oder Unschädlichkeit, ohne klare Definitionen oder Messmethoden zu bieten. Dies führt dazu, dass die von Unternehmen wie OpenAI und Microsoft veröffentlichten Ergebnisse möglicherweise irreführend sind. Die Forscher empfehlen, Benchmarks durch präzise Definitionen und statistische Methoden zu verbessern, da die aktuellen Tests anfällig für Manipulationen sind und oft auf Bequemlichkeit basieren. Diese Mängel sind nicht neu und wurden in früheren Studien ebenfalls festgestellt. Die Diskussion über die Validität von AI-Benchmarks könnte erhebliche Auswirkungen auf die Wahrnehmung und den Fortschritt in der KI-Entwicklung haben, insbesondere im Hinblick auf die Erreichung von Meilensteinen wie der allgemeinen künstlichen Intelligenz (AGI).

Die Hilflosigkeit der Helfer

2025-11-07Derstandard

In "Die Hilflosigkeit der Helfer" äußert Kim Kardashian ihre Unzufriedenheit mit dem KI-Chatbot ChatGPT, den sie für ihre Misserfolge bei juristischen Prüfungen verantwortlich macht. Sie berichtet von fehlerhaften Antworten, die zu ihrem ständigen Durchfallen bei Tests führten. Diese Erfahrung verdeutlicht die Schwächen von KI-Technologien in der Bildungsunterstützung und die Hilflosigkeit der Nutzer in solchen Situationen. Trotz ihrer Bemühungen, ihre juristischen Kenntnisse zu verbessern, bleibt die Unterstützung durch KI unzureichend und frustrierend. Dies wirft grundlegende Fragen zur Zuverlässigkeit und Effektivität von KI-gestützten Lernhilfen auf und beleuchtet die Herausforderungen, die sowohl Lernende als auch Lehrende im Umgang mit diesen Technologien erleben.

Korean AI fire system passes sea trials

2025-11-07Splash247

Südkorea hat ein innovatives KI-gestütztes autonomes Brandschutzsystem für Schiffe entwickelt, das erfolgreich in realen Seebedingungen getestet wurde. Unter der Leitung von Dr. Hyuk Lee vom Korea Institute of Machinery and Materials kann das System Ölbrände an Bord von Marineschiffen ohne menschliches Eingreifen erkennen und löschen. Im Gegensatz zu herkömmlichen Systemen, die ganze Räume fluten, nutzt die Technologie künstliche Intelligenz, um die Echtheit eines Feuers zu überprüfen und gezielt die Brandquelle anzugreifen. Dies reduziert Kollateralschäden und den Einsatz von Löschmitteln erheblich. Mit einer Erkennungsgenauigkeit von über 98 % und einer Schaumabgabe von bis zu 24 Metern funktioniert das System auch unter schwierigen Seebedingungen stabil. Nach ersten Tests in einer landgestützten Simulationsanlage wurden erfolgreiche Einsätze auf einem amphibischen Angriffsschiff der südkoreanischen Marine durchgeführt, wo das System Flammen aus 18 Metern Entfernung präzise löschte. Diese Technologie bietet eine effizientere und kostengünstigere Alternative zu herkömmlichen Löschsystemen, die oft zu Schäden und Fehlalarmen führen.

Anthropics KI-Chatbot Claude hat so etwas wie Selbstreflexion – zumindest manchmal

2025-11-04Derstandard

Anthropic hat bei seinem KI-Chatbot Claude untersucht, ob dieser in der Lage ist, Selbstreflexion zu zeigen, also zu verstehen, was in seinem "Gehirn" vor sich geht. Die Entwickler fanden heraus, dass Claude in etwa einem von fünf Fällen tatsächlich Selbstreflexion demonstrieren kann. Diese Erkenntnis wirft jedoch Fragen auf, da unklar bleibt, was Selbstreflexion in diesem Kontext genau bedeutet. Die durchgeführten Tests sollen Aufschluss darüber geben, wie gut Claude seine eigenen Denkprozesse wahrnimmt. Die Ergebnisse könnten weitreichende Folgen für die Entwicklung von KI-Systemen haben, insbesondere hinsichtlich ihrer Interaktivität und des Verständnisses ihrer eigenen Funktionsweise.

Kim Kardashian gibt ChatGPT die Schuld dafür, bei Jura-Prüfungen durchgefallen zu sein

2025-11-04De

Kim Kardashian hat in einem Gespräch mit Teyana Taylor offenbart, dass sie ChatGPT für ihr Versagen bei mehreren Jura-Prüfungen verantwortlich macht. Sie nutzt die KI-Plattform für rechtliche Ratschläge, was jedoch zu Schwierigkeiten bei den Tests führte. Kardashian beschreibt ihre Beziehung zur KI als eine Art "Frenemy", da sie sowohl nützlich als auch frustrierend ist. Sie kritisiert, dass die KI ihr oft Lebenslektionen erteilt, anstatt die gewünschten Antworten zu liefern, und teilt regelmäßig Screenshots ihrer Interaktionen mit Freunden, um über den Umgangston der KI zu schimpfen. Trotz dieser Herausforderungen bleibt sie optimistisch, dass sie bald ihre Zulassung als Anwältin erhalten wird, nachdem sie die erste wichtige Prüfung mehrmals abgelegt hat.

Theia AI by Eclipse Foundation Wins 2025 CODiE Award

2025-10-30Ai Techpark

Theia AI, ein Produkt der Eclipse Foundation, wurde mit dem CODiE Award 2025 für das beste Open Source Entwicklungstool ausgezeichnet. Diese prestigeträchtige Auszeichnung würdigt Innovation und Exzellenz im Technologiebereich und basiert auf einer gründlichen Bewertung durch Experten und Branchenkollegen. Theia AI bietet Entwicklern ein offenes und flexibles Framework, das ihnen die vollständige Kontrolle über die Integration von Künstlicher Intelligenz in ihre Produkte ermöglicht. Dazu gehört die Auswahl geeigneter Large Language Models sowie die Anpassung von KI-Interaktionen an spezifische Anwendungsfälle. Durch die Vereinfachung komplexer Integrationsherausforderungen können Entwickler maßgeschneiderte KI-Funktionen entwickeln, die den besonderen Anforderungen ihrer Domänen gerecht werden. Die öffentliche Verfügbarkeit von Theia AI nach umfangreichen Tests fördert die Realisierung intelligenter, domänenspezifischer KI-Fähigkeiten. Die Auszeichnung hebt das Engagement des Teams für Open Source Innovationen und die Entwicklung fortschrittlicher KI-nativer Tools hervor.

AIKO's Advanced Shading Technology Explained

2025-10-17Blog

AIKO hat sich mit seiner NeoStar-3-Reihe an die Spitze der Solarinnovationen gesetzt, indem es Rekorde in Leistung und Effizienz aufgestellt hat. Besonders hervorzuheben ist die Zell-level-Shade-Mitigation-Technologie, auch bekannt als "Shadeproof"-Solar. Diese Technologie ermöglicht es, den Energiefluss aufrechtzuerhalten, selbst wenn Teile eines Panels beschattet sind, was bei herkömmlichen Solarpanelen zu einem signifikanten Leistungsverlust führt. AIKO nutzt eine kontrollierte Avalanche-Breakdown-Technologie, die in Tests eine Leistung von 59% unter Baum-Beschattung im Vergleich zu nur 33% bei traditionellen Panels zeigt. Obwohl unabhängige Tests darauf hinweisen, dass die Vorteile unter realen Bedingungen nicht so ausgeprägt sind wie im Labor, stellt die Technologie einen bedeutenden Fortschritt dar. Sie könnte insbesondere bei komplexen Dachstrukturen oder in den Wintermonaten von Vorteil sein. AIKO's Paneele sind zudem preislich wettbewerbsfähig und bieten hohe Effizienz, ansprechendes Design und robuste Garantien.

Fin de l’USAID : au Kenya, les patients séropositifs réclament la prise en charge de leurs soins

2025-10-11Courrierinternational

Die drastische Kürzung der US-amerikanischen Mittel zur Bekämpfung von HIV/AIDS, insbesondere durch das Ende von USAID, hat im Kenia zu einer Gesundheitskrise für HIV-positive Menschen geführt. Während Antiretrovirale weiterhin verfügbar sind, sind essentielle Dienstleistungen wie Tests und Infektionsüberwachung stark eingeschränkt. Organisationen fordern die Integration der HIV-Behandlung in die universelle Gesundheitsversorgung, da internationale Geldgeber nicht mehr ausreichend unterstützen können. Nelson Otwoma, Direktor eines Netzwerks für Menschen mit HIV/Aids, hat eine Petition an die Regierung übergeben und warnt vor der Gefährdung der Patientenbehandlung. Viele werden an private Labore verwiesen, was für viele unerschwinglich ist. Die Situation wird durch einen Mangel an Personal und Medikamenten verschärft, da zuvor durch amerikanische Mittel finanzierte Stellen gestrichen wurden. Experten warnen, dass diese Krise nicht nur die Gesundheitsdienste betrifft, sondern auch zu einem Rückgang der Behandlung von Jugendlichen führt, die oft ihre Therapie abbrechen.

Halluzinations-Tests

Einordnung

Verwandte Cluster