Multimodale Modelle

Aktuelle Links, Zusammenfassungen und Marktinformationen zu Multimodale Modelle innerhalb von Kernmodelle auf JetztStarten.de.

Einordnung

Dieses Cluster bündelt aktuelle Links, Zusammenfassungen und Marktinformationen zu einem klar abgegrenzten Thema.

Rubrik: KI Modelle & Architekturen Unterrubrik: Kernmodelle Cluster: Multimodale Modelle Einträge: 32

Top Multimodal Embedding Models

2026-07-24Towards AI

Multimodale Embedding-Modelle spielen eine entscheidende Rolle bei der Verarbeitung komplexer visueller Daten, wie Finanzdiagramme oder medizinische Scans, da einfache semantische Übereinstimmungen oft nicht ausreichen. Um die Verifizierbarkeit der Informationen zu gewährleisten, ist es wichtig, dass die Ingestion-Pipeline während des Chunkings oder Embeddings keine feinen Details entfernt. Die zentrale Fragestellung hat sich dahingehend gewandelt, welches Modell und welche Pipeline-Designs die versteckten Beweise auffindbar machen, ohne wesentliche Informationen zu verlieren. Ein effektives multimodales Retrieval-System muss sicherstellen, dass Beweise, die durch Textextraktion möglicherweise verloren gehen, erhalten bleiben. Ein praktisches Beispiel verdeutlicht dies: Ein Kunde, der ein Foto eines Esszimmerstuhls macht, sucht nach einem ähnlichen, wetterfesten Modell, das schmal genug für einen Balkon ist.

AI company hit by hack entirely carried out by artificial intelligence

2026-07-20The Independent

Die AI-Firma Hugging Face wurde Ziel eines Hacks, der vollständig von einem künstlichen Intelligenzsystem durchgeführt wurde. Der Angriff begann mit einem autonomen AI-Tool, das eine Sicherheitsanfälligkeit ausnutzte, indem es einen Datensatz hochlud und eigenen Code auf den Servern ausführte. Hugging Face konnte den Angriff jedoch mit eigenen AI-Tools abwehren, indem es ein großes Sprachmodell zur Analyse der Angriffe einsetzte. Die automatisierten Systeme des Unternehmens entdeckten den Vorfall in den Sicherheitsprotokollen, was eine schnelle Rekonstruktion des Zeitablaufs und die Identifizierung kompromittierter Daten ermöglichte. Trotz dieser Erfolge war die Verteidigung eingeschränkt, da Hugging Face nicht auf die leistungsstärksten Modelle zugreifen konnte, während der Angreifer keine solchen Einschränkungen hatte. Das Unternehmen untersucht weiterhin, ob Kundendaten gestohlen wurden, und hat seine Nutzer aufgefordert, verdächtige Aktivitäten auf ihren Konten zu überprüfen.

NSFT receives first double-stack container train from ICD Tumb, strengthening rail connectivity

2026-07-15Indiashippingnews

Am 13. Juli 2026 erreichte der Nhava Sheva Freeport Terminal (NSFT) einen wichtigen Meilenstein in der Schienenanbindung mit dem ersten Doppelstock-Containerzug aus ICD Tumb, der 180 TEUs transportierte. Diese Entwicklung verbessert die schienenbasierte Frachtabwicklung und fördert eine nahtlose multimodale Logistik. Die Einführung von Doppelstock-Zugdiensten gilt als entscheidender Schritt zur Effizienzsteigerung in der Lieferkette, da sie schnellere und kostengünstigere Containerbewegungen zwischen Binnenfrachtzentren und dem Gateway-Hafen ermöglicht. Durch die Nutzung des Dedicated Freight Corridor (DFC) und moderner Schieneninfrastruktur wird die Anbindung des Hinterlandes optimiert, während Straßenstaus, Transitzeiten und Kohlenstoffemissionen reduziert werden. NSFT zeigt damit sein Engagement für die logistische Transformation Indiens und verbessert die Zugänglichkeit sowie die Servicezuverlässigkeit für Exporteure und Logistikpartner. Diese gestärkte Schienenanbindung führt zu einem reibungsloseren Frachtfluss und einer höheren Produktivität des Terminals, während NSFT weiterhin auf die Ausweitung seiner multimodalen Logistikfähigkeiten setzt, um schnellere und nachhaltigere Frachtlösungen zu bieten.

JNPA registers strong double-digit growth in Q1 FY 2026-27, handles 2.25 million TEUs

2026-07-09Indiashippingnews

Die Jawaharlal Nehru Port Authority (JNPA) hat im ersten Quartal des Finanzjahres 2026-27 ein bemerkenswertes Wachstum erzielt, indem sie 2,25 Millionen TEUs verarbeitete, was einer Steigerung von 15,36 % im Vergleich zum Vorjahr entspricht. Auch die gesamte Frachtabwicklung stieg um 15,04 % auf 27,84 Millionen Tonnen. Diese positive Entwicklung ist auf verbesserte Effizienz in der Schiffsabfertigung, eine nahtlose multimodale Anbindung und optimierte Abläufe im Frachtverkehr zurückzuführen. JNPA gewinnt zunehmend das Vertrauen globaler Reedereien und Logistikakteure, was die Bedeutung ihrer Infrastruktur und Dienstleistungen unterstreicht. Die strategische Ausrichtung auf Digitalisierung und Infrastrukturentwicklung stärkt die Resilienz der Lieferkette und unterstützt den indischen Außenhandel. Als größter Containerhafen Indiens spielt JNPA eine zentrale Rolle bei der Verbesserung der Handelswettbewerbsfähigkeit. Zukünftige Investitionen in Kapazitätserweiterungen und moderne Technologien sollen das Wachstum weiter fördern und die Bedeutung des Hafens für das wirtschaftliche Wachstum Indiens und den globalen Handel betonen.

马斯克：SpaceX计划今年每月发布一个全新的人工智能模型

2026-06-2936kr

Elon Musk hat auf seiner Plattform X bekannt gegeben, dass das neueste Sprachmodell Grok 4.5 derzeit in der Beta-Phase bei SpaceX und Tesla getestet wird. Zudem plant SpaceX, im Laufe des restlichen Jahres jeden Monat ein völlig neues KI-Modell zu veröffentlichen, das von Grund auf neu trainiert wird. Diese Strategie deutet darauf hin, dass die kommenden Modelle nicht lediglich Verbesserungen bestehender Systeme darstellen, sondern auf neu entwickelten Basis-Modellen basieren werden. Dies könnte die Innovationsgeschwindigkeit im Bereich der künstlichen Intelligenz erheblich steigern und neue Anwendungsmöglichkeiten in verschiedenen Sektoren eröffnen. Musks Ansatz könnte zudem den Wettbewerb im KI-Markt anheizen, da andere Unternehmen gezwungen sein könnten, ihre Entwicklungen zu beschleunigen, um im Rennen um technologische Fortschritte nicht zurückzufallen.

The Two LLM Problems That Humbled Me Most — And How I Actually Fixed Them

2026-06-28Towards AI

Der Artikel "The Two LLM Problems That Humbled Me Most — And How I Actually Fixed Them" thematisiert die Herausforderungen, die der Autor mit großen Sprachmodellen (LLMs) erlebte, insbesondere in Bezug auf Halluzinationen und Gedächtnisverlust. Diese Probleme sind nicht nur Anfängerfehler, sondern resultieren aus den grundlegenden Funktionsweisen der Modelle. Der Autor beschreibt eine peinliche Situation, in der das Modell falsche, aber überzeugend klingende Informationen lieferte. Um diese Herausforderungen zu bewältigen, ist es entscheidend, Strategien zu entwickeln, die die inhärenten Schwächen der Modelle berücksichtigen. Der Artikel hebt hervor, dass der Unterschied zwischen erfolgreichen und weniger erfolgreichen KI-Entwicklern vor allem im Wissen um diese Strategien liegt. Der Autor plant, seine Erfahrungen und Lösungen offen zu teilen, um anderen zu helfen, ähnliche Probleme zu meistern und die Zuverlässigkeit von KI-Anwendungen zu verbessern.

Top 7 Coding Models You Can Run Locally in 2026

2026-06-24Kdnuggets

Im Jahr 2026 haben lokale Coding-Modelle erheblich an Bedeutung gewonnen, da sie effizient auf Consumer-Hardware mit 16 GB VRAM laufen können. Diese Modelle ermöglichen Entwicklern, unabhängig von cloudbasierten Lösungen zu arbeiten, was sowohl die Geschwindigkeit als auch die Privatsphäre verbessert. Besonders hervorzuheben ist das Qwen3. 6 27B MTP-Modell, das eine ausgewogene Kombination aus Größe, Geschwindigkeit und Codierungsfähigkeit bietet und sich ideal für agentische Programmierung eignet. Weitere bemerkenswerte Modelle sind Gemma 4 31B IT QAT mit multimodalen Funktionen und DiffusionGemma 26B A4B, das durch seine innovative Block-Diffusionsarchitektur schnellere Generierungszeiten verspricht. Auch Modelle wie Nemotron Cascade 2 30B A3B und EXAONE 4. 5 33B konzentrieren sich auf komplexe Problemlösungen und multimodale Eingaben. Diese Entwicklungen zeigen, dass lokale Coding-Modelle nun für echte Entwicklungsarbeiten geeignet sind und nicht nur für Tests oder Experimente verwendet werden.

字节掀桌！豆包2.1成本暴砍80%，编程追平Claude Opus 4.7

2026-06-23Zhidx

Auf der FORCE-Konferenz präsentierte Volcano Engine das neue Doubao-Modell 2.1, das erhebliche Fortschritte in den Bereichen allgemeine Agenten, Programmierfähigkeiten und multimodale Funktionen aufweist. Besonders bemerkenswert ist die drastische Kostenreduktion von fast 80 % im Vergleich zu den Claude Opus-Modellen, was Doubao 2.1 für Entwickler besonders attraktiv macht. In Programmierbewertungen erzielt das Modell ähnliche Ergebnisse wie Opus 4.7 und übertrifft andere Modelle in spezifischen Tests. Zudem wurden neue Modelle für die Generierung von Video, Audio und Bildern vorgestellt, darunter Seedance 2.5, das die längste Videoausgabe von 30 Sekunden ermöglicht. Die Konferenz verdeutlichte auch die schnelle Implementierung der Doubao-Modelle in verschiedenen Branchen wie Automobil und Finanzen, was die Effizienz und Automatisierung in diesen Bereichen fördert. Des Weiteren wurde die Einführung von HiAgent 3 angekündigt.

United States Generative AI Market to Grow from USD 20.16 Billion in 2025 to USD 452.52 Billion by 2033, Supported by Expanding Enterprise Adoption and Advancements in Multimodal AI Technologies

2026-06-16openPR

Der Markt für generative KI in den USA wird von 20,16 Milliarden USD im Jahr 2025 auf 452,52 Milliarden USD bis 2033 wachsen, angetrieben durch die zunehmende Unternehmensakzeptanz und Fortschritte in multimodalen KI-Technologien. Diese Technologien revolutionieren verschiedene Branchen, indem sie Prozesse wie Inhaltskreation, Design und Entscheidungsfindung automatisieren. Führende Unternehmen wie OpenAI, Google und Microsoft haben 2026 multimodale Modelle eingeführt, die präzise Text, Bilder, Audio und Video generieren. Zudem haben große Cloud-Anbieter die Bereitstellung von KI-Infrastrukturen beschleunigt, was die Skalierung und den Einsatz von KI-Modellen erleichtert. Die Nachfrage nach Personalisierung und Produktivitätssteigerung fördert die Marktverbreitung, während Unternehmen auch an der Verbesserung von KI-Sicherheit und ethischen Standards arbeiten. Die Wettbewerbslandschaft wird von großen Akteuren dominiert, die fortschrittliche KI-Modelle und Cloud-Dienste anbieten. In den kommenden Jahren wird eine verstärkte Integration von generativer KI in Unternehmenssysteme erwartet, was die Effizienz und Produktivität weiter steigern wird.

AMTOI Western Region Chapter hosts successful Networking & Fellowship Meet 2026 in Mumbai

2026-06-13Indiashippingnews

Die AMTOI Western Region Chapter veranstaltete erfolgreich das Networking & Fellowship Meet 2026 im Bombay Presidency Golf Club in Mumbai. Die Veranstaltung brachte führende Persönlichkeiten und Experten aus der Logistik- und Transportbranche zusammen, um die Zusammenarbeit und den Austausch von Erkenntnissen zu fördern. Diskutiert wurden zentrale Themen wie multimodale Transporte, digitale Innovationen und branchenspezifische Herausforderungen, wobei die Bedeutung integrierter Logistiklösungen und nachhaltiger Praktiken hervorgehoben wurde. Die Teilnehmer nutzten die Gelegenheit, potenzielle Geschäftspartnerschaften zu erkunden und Perspektiven auszutauschen. AMTOI-Vertreter betonten die Notwendigkeit von Kooperationen, um den Fortschritt in der Branche voranzutreiben, insbesondere im Kontext von Indiens Aufstieg als globales Handelszentrum. Das Treffen unterstrich die wachsende Relevanz multimodaler Transporte für die Effizienz der Lieferkette und die Unterstützung nationaler Initiativen. Insgesamt spiegelte die Veranstaltung das Engagement der Logistikgemeinschaft für Wachstum und Innovation wider.

The AI Platform Fighting Manipulative Design Before It Ships

2026-06-10Hackernoon

Marie Potel-Saville, eine ehemalige Wettbewerbsanwältin, hat die Plattform Fair Patterns gegründet, um manipulative Designs im Internet zu erkennen und zu bekämpfen. Die multimodale KI-Plattform, die im Januar 2026 ins Leben gerufen wurde, zielt darauf ab, die digitale Benutzererfahrung zu verbessern, indem sie sogenannte "dark patterns" identifiziert, die Nutzer zu ungewollten Entscheidungen drängen. Potel-Saville stellte fest, dass es trotz umfangreicher Forschung an diesen Designs an praktischen Lösungen mangelte, was sie zur Entwicklung dieser Technologie motivierte. Fair Patterns hat bereits den Digital StartUp Award 2026 im Bereich Cybersicherheit gewonnen und bietet eine Bibliothek von Gegenmustern sowie KI-gestützte Werkzeuge zur Überprüfung von Designs vor der Veröffentlichung an. Potel-Saville betont, dass die Bekämpfung von dunklen Mustern nicht nur eine regulatorische Herausforderung, sondern auch entscheidend für die Marktintegrität ist, da solche Designs den Wettbewerb und die informierte Entscheidungsfindung der Verbraucher gefährden. Ihre Vision ist es, menschliche Sicherheitsaspekte in digitale Technologien zu integrieren, um Nutzer vor manipulativen Praktiken zu schützen. Fair Patterns könnte sich als Bewegung entwickeln, die eine breitere Gemeinschaft mobilisiert, um die digitale Landschaft nachhaltig zu verändern.

Tempus AI (TEM) Launches ArteraAI Prostate Test, The First Externally Developed Digital Pathology Algorithm

2026-05-24Yahoo Finance

Tempus AI, Inc. hat am 21. Mai 2026 den ArteraAI Prostate Test eingeführt, der als erster extern entwickelter digitaler Pathologiealgorithmus für metastasierenden hormonempfindlichen Prostatakrebs gilt. Der CLIA-zertifizierte und CAP-akkreditierte Test analysiert klinische Daten und histopathologische Biopsiebilder, um eine personalisierte Risikoeinschätzung für die krebsbedingte Sterblichkeit zu bieten. Er richtet sich an etwa 25.000 neu diagnostizierte Patienten in den USA und kann als Ergänzung zu Tempus' Portfolio für solide Tumoren bestellt werden. Eine Woche zuvor hatte Tempus eine erweiterte Zusammenarbeit mit Bristol Myers Squibb angekündigt, um KI und multimodale reale Daten in fünf klinischen Studienprogrammen zu integrieren, was die Erfolgschancen bei technischen und regulatorischen Aspekten erhöhen soll. Diese Initiative baut auf einem früheren Programm auf, das Tempus' Next Pathways in 13 Gesundheitssystemen für Patienten mit fortgeschrittenem nicht-kleinzelligem Lungenkrebs einsetzte. Tempus AI positioniert sich somit als bedeutender Akteur im Bereich der Präzisionsmedizin durch den Einsatz von künstlicher Intelligenz.

I Gave My OpenClaw Agent a Physical Body

2026-05-20Wired

In dem Artikel "I Gave My OpenClaw Agent a Physical Body" beschreibt der Autor, wie er seinem OpenClaw-Agenten einen physischen Roboterarm hinzugefügt hat, was zu bemerkenswerten Fortschritten in der Robotik führte. Der AI-Agent konnte den Arm erfolgreich konfigurieren, Objekte erkennen und greifen sowie ein weiteres AI-Modell trainieren, um spezifische Manipulationen durchzuführen. Diese Entwicklungen deuten auf einen möglichen Durchbruch in der Robotik hin, da moderne AI-Modelle die Programmierung und Steuerung von Robotern vereinfachen. Der Roboterarm, Teil eines Open-Source-Projekts, ermöglicht Nutzern, durch Teleoperation und KI-gestützte Programmierung zu experimentieren. Trotz anfänglicher Kalibrierungsprobleme gelang es dem Autor, ein Programm zu entwickeln, das den Greifer des Arms bei der Erkennung eines roten Balls schloss. Die Forschung zur "Code as Policy"-Methode gewinnt an Bedeutung, während multimodale Modelle wie Gemini vielversprechende Ergebnisse in der Robotik-Programmierung zeigen. Die Zusammenarbeit zwischen verschiedenen Forschungseinrichtungen und Unternehmen, darunter Nvidia, zielt darauf ab, die Zugänglichkeit von Robotik zu erhöhen, sodass mehr Menschen Roboter steuern können.

JNPA begins FY 2026–27 on a strong note with record cargo and container growth in April 2026

2026-05-07Indiashippingnews

Die Jawaharlal Nehru Port Authority (JNPA) hat das Geschäftsjahr 2026–27 mit bemerkenswerten Ergebnissen begonnen, indem sie im April 2026 ein Rekordwachstum im Containerverkehr und bei der Gesamtladung verzeichnete. Mit 7,71 lakh TEUs wurde ein Anstieg von 15,50 % im Vergleich zum Vorjahr erzielt, während die gesamte Ladung 9,62 Millionen Tonnen erreichte, was einem Wachstum von 14,01 % entspricht. Diese Erfolge sind auf JNPAs Fokus auf betriebliche Effizienz, Infrastrukturoptimierung und reibungslosen Warenverkehr zurückzuführen, was die Position des Hafens als führendes Containerterminal Indiens stärkt. Verbesserungen in der Terminalproduktivität, Anbindung an das Hinterland und effiziente Evakuierungssysteme haben das Wachstum unterstützt. Zudem spielt das wachsende multimodale Logistiksystem des Hafens eine entscheidende Rolle bei der Beschleunigung der Bearbeitungszeiten. Diese Entwicklungen spiegeln das Vertrauen von Reedereien und Logistikpartnern in die Infrastruktur von JNPA wider. Angesichts des wachsenden maritimen Handels in Indien bleibt JNPA bestrebt, die Entwicklung des Hafens voranzutreiben und die Vision des Landes als globales Logistik- und Fertigungszentrum zu unterstützen.

In the global AI race, a sanctioned Chinese firm says cheaper models can still win

2026-05-06Techbuzz

SenseTime, ein führendes chinesisches KI-Unternehmen, das unter US-Sanktionen steht, verfolgt eine innovative Strategie im globalen KI-Wettlauf, indem es auf Kosteneffizienz statt auf reine Rechenleistung setzt. Co-Gründer Lin Dahua hebt hervor, dass das Unternehmen sich auf multimodale KI und kostengünstige Modelle konzentriert und gleichzeitig aggressiv international expandiert. Diese Herangehensweise zeigt, wie chinesische KI-Firmen sich an Chipbeschränkungen anpassen, indem sie Effizienz über Skalierung priorisieren. Während amerikanische Unternehmen Milliarden in große Modelle investieren, setzt SenseTime auf intelligentere Technologien, die auch in Regionen mit hohen Infrastrukturkosten wirtschaftlich tragfähig sind. Die Fokussierung auf Systeme, die Text, Bilder und Videos gleichzeitig verarbeiten, könnte dem Unternehmen helfen, in Märkten wie Südostasien und Afrika wettbewerbsfähig zu bleiben. Trotz der Risiken kostengünstiger Modelle könnte dieser Ansatz in einem sich wandelnden globalen KI-Markt an Bedeutung gewinnen, insbesondere angesichts steigender KI-Kosten. SenseTimes Strategie könnte zudem als Reaktion auf den intensiven Wettbewerb im Inland interpretiert werden und eine neue Richtung für die KI-Entwicklung vorgeben, die den Bedürfnissen vieler Länder besser entspricht.

Transworld strengthens supply chain resilience with dedicated air charter operations to UAE

2026-04-17Indiashippingnews

Transworld Group hat neue Luftfrachtoperationen zwischen Indien und den Vereinigten Arabischen Emiraten eingeführt, um die Resilienz der Lieferkette zu stärken und pünktliche Lieferungen von verderblichen Waren, Arzneimitteln und anderen wichtigen Gütern zu gewährleisten. Diese wöchentlichen Charterdienste sind besonders wichtig in Zeiten regionaler Störungen, da sie Geschwindigkeit und Zuverlässigkeit bieten, wenn herkömmliche Versandpläne oft verzögert werden. Die neuen Operationen erweitern das multimodale Logistiknetzwerk des Unternehmens und ermöglichen eine nahtlose Integration in die gesamte Lieferkette. Branchenvertreter heben hervor, dass flexible Logistiklösungen entscheidend sind, um geopolitische und betriebliche Herausforderungen zu bewältigen. Transworld plant, seine Charterdienste basierend auf der Nachfrage auszubauen und in Technologien zur Echtzeitverfolgung zu investieren. Diese proaktive Strategie unterstreicht das Engagement des Unternehmens, kritische Frachtströme aufrechtzuerhalten und die wirtschaftliche Resilienz in der Region zu unterstützen.

Bytedance rolls out Seedance 2.0 to 100+ countries but keeps the US off the list

2026-04-16The Decoder

Bytedance hat sein KI-Video-Generierungsmodell Seedance 2.0 in über 100 Ländern eingeführt, jedoch nicht in den USA. Das Modell, das im Februar in China gestartet wurde, erlangte schnell Aufmerksamkeit, als KI-generierte Videos mit Hollywood-Stars viral gingen, was zu rechtlichen Konflikten mit großen Studios wie Disney und Netflix führte. Um rechtliche Probleme zu vermeiden, implementierte Byteplus Schutzmaßnahmen, darunter die Vermeidung realistischer menschlicher Gesichter und Filter zur Verhinderung der Erstellung urheberrechtlich geschützten Inhalts. Nutzer von Seedance 2.0 können aus über 10.000 virtuellen Personen wählen oder die Genehmigung von realen Personen einholen. Das Modell wird als Prepaid-API über BytePlus ModelArk angeboten und unterstützt multimodale Eingaben zur Erstellung, Bearbeitung oder Erweiterung kurzer MP4-Videos. Technische Spezifikationen und Codebeispiele sind in der API-Dokumentation verfügbar.

Rebellions, SK Telecom, and Arm join forces to build sovereign AI infrastructure

2026-04-15Rcrwireless

Rebellions, SK Telecom und Arm haben eine Partnerschaft gegründet, um eine souveräne KI-Infrastruktur in Südkorea zu entwickeln, die als Alternative zu ausländischen Technologien dient. Diese Zusammenarbeit umfasst den gesamten Wertschöpfungsprozess, von der Chipentwicklung bis zur praktischen Validierung in KI-Datenzentren. Im Fokus steht der RebelCard-Beschleuniger von Rebellions, der für große multimodale Modelle optimiert ist und eine kosteneffiziente, luftgekühlte Lösung bietet. Die Partner planen, einen vollständigen Software-Stack zu entwickeln, um die Abhängigkeit von proprietären Technologien zu minimieren, was besonders für den öffentlichen Sektor und die Telekommunikation wichtig ist. Tests werden in den Rechenzentren von SK Telecom durchgeführt, um die Leistung des neuen Systems mit dem proprietären Modell A. X K1 zu validieren. Diese Initiative zielt darauf ab, der wachsenden Nachfrage nach souveränen KI-Datenzentren in Asien gerecht zu werden, insbesondere im Kontext geopolitischer Bedenken. Dennoch besteht die Herausforderung, ein reifes Ökosystem von Tools und Integrationen zu schaffen, um mit bestehenden Lösungen wie Nvidia konkurrieren zu können. Nach der technischen Validierung planen die Partner eine breitere kommerzielle Einführung, die jedoch eine nachhaltige Umsetzung erfordert.

Omio launcht in ChatGPT und bringt seine multimodale Echtzeit-Reisesuche zu 900 Millionen Nutzer: innen

2026-04-14wallstreet:online

Omio hat seine multimodale Echtzeit-Reisesuche in die ChatGPT-App integriert, was es Reisenden ermöglicht, direkt über die KI nach verschiedenen Transportoptionen wie Zügen, Bussen, Flügen und Fähren zu suchen. Diese Integration eröffnet Omio den Zugang zu einem globalen Verkehrsnetzwerk mit über 3.000 Partnern und erreicht wöchentlich 900 Millionen ChatGPT-Nutzer*innen. Reisende können ihre Reisen nun vollständig innerhalb der Plattform planen, ohne zwischen verschiedenen Websites wechseln zu müssen, was die Suche nach Routen, Preisen und Optionen erheblich vereinfacht. Für die Partner von Omio bedeutet dies eine gesteigerte Sichtbarkeit und Reichweite, da sie direkt von einer großen Nutzerbasis entdeckt werden können. Die App ist weltweit auf Englisch verfügbar und stellt einen bedeutenden Fortschritt in der Nutzung von KI für die Reiseplanung dar.

Does AI guess X-ray results instead of reading them?

2026-04-01Newsbytesapp

Eine aktuelle Studie der Stanford University hat die Bildanalysefähigkeiten führender KI-Modelle kritisch untersucht und ein Phänomen namens "Mirage-Effekt" identifiziert. Dieser Effekt beschreibt, dass KI-Systeme in der Lage sind, Bilder zu analysieren und Diagnosen zu stellen, selbst wenn sie diese Bilder nie zuvor gesehen haben. In Experimenten, bei denen Bilder aus Datensätzen entfernt wurden, erzielten die Modelle dennoch eine Genauigkeit von 70-80% bei der Diagnose. Dies ist besonders besorgniserregend im medizinischen Kontext, da die KI falsche Anomalien in nicht existierenden Röntgenbildern identifizierte. Ein textbasiertes Modell übertraf sogar multimodale KI-Systeme und menschliche Radiologen, indem es detaillierte Erklärungen lieferte, die kaum von echten visuellen Analysen zu unterscheiden waren. Die Forscher stellten fest, dass die Leistung der Modelle stark abnahm, wenn sie ohne Bildzugang arbeiten mussten. Diese Ergebnisse werfen grundlegende Fragen zur tatsächlichen visuellen Verständnisfähigkeit von KI auf und verdeutlichen die potenziellen Risiken im medizinischen Bereich.

AI models confidently describe images they never saw, and benchmarks fail to catch it

2026-03-30The Decoder

Multimodale KI-Modelle wie GPT-5 und Gemini 3 Pro zeigen eine besorgniserregende Fähigkeit, Bilder zu beschreiben, die sie nie gesehen haben, ein Phänomen, das als "Mirage-Effekt" bezeichnet wird. Eine Studie der Stanford-Universität ergab, dass diese Modelle 70 bis 80 Prozent ihrer Benchmark-Ergebnisse erzielen, selbst ohne visuelle Eingaben, und dabei falsche Details mit überzeugenden Begründungen präsentieren. Dies ist besonders problematisch im medizinischen Bereich, wo die Modelle ernsthafte Diagnosen für nicht existierende Bilder generieren können, was zu gefährlichen Fehlinformationen führt. Ein neuer Benchmark namens "Phantom-0" zeigt, dass die Modelle in über 60 Prozent der Fälle falsche visuelle Details beschreiben. Ein experimentelles Textmodell übertraf sogar multimodale Modelle und menschliche Radiologen, was die Schwächen der aktuellen Bewertungsmethoden verdeutlicht. Die Studie fordert neue Ansätze wie das "B-Clean"-Framework, um die tatsächliche visuelle Kompetenz der Modelle zu bewerten und die Abhängigkeit von nicht-visuellen Schlussfolgerungen zu verringern.

SiMa.ai Introduces Modalix PCIe HHHL Card

2026-03-24Ai Techpark

SiMa.ai hat die Modalix™ PCIe HHHL Card vorgestellt, die in Zusammenarbeit mit Advantech entwickelt wurde und speziell für die Anforderungen von Physical AI konzipiert ist. Diese neue Karte verdoppelt die Leistung ihres Vorgängermodells und unterstützt komplexe multimodale Modelle sowie LLMs am Edge. Mit ihrem Standard-Half-Height, Half-Length-Formfaktor bietet die Modalix-Karte eine skalierbare Lösung für industrielle PCs, die Echtzeit-Vision-Reasoning in energieeffizienten Umgebungen ermöglicht. Sie optimiert die Verarbeitung von AI-Workloads, indem sie die gesamte Anwendung auf dem Modalix MLSoC ausführt, was die Durchsatzrate maximiert und die Belastung der Host-CPUs verringert. Die Karte unterstützt bis zu 16 Video-Kanäle und ist somit ideal für kostensensible Anwendungen in Bereichen wie Einzelhandel, Fertigung und Verteidigung. Die Verfügbarkeit der Karten beginnt im zweiten Quartal, wobei sowohl kommerzielle als auch industrielle Temperaturvarianten angeboten werden.

Multimodal AI in Production: Designing Real-World Systems That Combine Text, Image, Video, and…

2026-03-21Towards AI

Der Artikel "Multimodal AI in Production: Designing Real-World Systems That Combine Text, Image, Video, and…" behandelt die Integration multimodaler Künstlicher Intelligenz in Produktionssysteme. Er beleuchtet, wie verschiedene Datenformate wie Text, Bilder und Videos kombiniert werden können, um leistungsfähige Anwendungen zu entwickeln. Der Fokus liegt auf den Herausforderungen und Chancen, die sich aus der Kombination dieser Modalitäten ergeben. Zudem werden Best Practices für das Design und die Implementierung solcher Systeme vorgestellt, um die Effizienz und Benutzerfreundlichkeit zu maximieren. Der Artikel diskutiert auch die Bedeutung von interdisziplinären Ansätzen und die Notwendigkeit, technologische, ethische und soziale Aspekte zu berücksichtigen, um erfolgreiche multimodale KI-Lösungen zu schaffen.

Three Years of TripGenie: How Travellers Around the World are Using AI Differently

2026-03-16Prnewswire

In den letzten drei Jahren hat sich TripGenie, der KI-Reiseassistent von Trip.com, erheblich weiterentwickelt, mit einem Anstieg der KI-unterstützten Buchungen um 400% im Vergleich zum Vorjahr. Die Nutzung von TripGenie variiert stark zwischen verschiedenen Regionen: Asiatische Reisende neigen zu kurzfristigen Entscheidungen, während europäische und nordamerikanische Nutzer frühzeitiger planen. In stark vernetzten Märkten wie Hongkong und Singapur wird TripGenie als Echtzeit-Entscheidungshilfe eingesetzt, während in Deutschland und dem Vereinigten Königreich längere Planungsphasen üblich sind. Die Interaktionen zeigen einen Trend von allgemeinen Fragen hin zu spezifischen Buchungsanfragen, wobei fast 60% der Anfragen mittlerweile Buchungen betreffen. Reisende suchen zunehmend nach praktischen Informationen zu Hotels und Flügen, um Unsicherheiten zu minimieren. Zudem nutzen immer mehr Nutzer multimodale Funktionen, indem sie Bilder hochladen, was die Nutzerzufriedenheit erhöht. Trotz der unterschiedlichen Nutzungsmuster bleibt TripGenie ein lokaler Reisebegleiter, der sich an die jeweiligen Reisegewohnheiten anpasst und die Reiseplanung erleichtert.

[MWC 2026] GlobalData vydáva bielu knihu o vývoji hlasových služieb v ére AI

2026-03-13Prnewswire

Auf dem MWC 2026 stellte Andy Hicks von GlobalData eine umfassende Studie zur Entwicklung von Sprachdiensten in der Ära der Künstlichen Intelligenz (KI) vor. Die Untersuchung betont die Notwendigkeit einer vollständig konvergierten Sprachnetzwerkinfrastruktur, um KI-gestützte Dienstleistungen zu innovieren und den Wert von Sprachdiensten neu zu definieren. Angesichts der ungleichen Fortschritte bei globalen Netzwerkstandards, insbesondere beim Übergang von 2G und 3G, wird diese Infrastruktur für Betreiber entscheidend, um verschiedene Netzgenerationen effizient zu verwalten. Die konvergierte Architektur senkt die Betriebskosten und fördert kontinuierliche Innovationen. Die Integration von KI erfolgt in drei Phasen: Zunächst wird die Nutzererfahrung durch Geräuschunterdrückung verbessert, gefolgt von Echtzeitübersetzungen und schließlich der Einbindung von KI in Video- und Datenkanälen für multimodale Dienste. Hicks ermutigt Betreiber, die Chancen der KI zu nutzen, um die Grundwerte ihrer Sprachdienste zu revitalisieren und von den Fortschritten in 5G-A und KI zu profitieren.

Multimodal Large Language Models: A Practical Example

2026-03-09Towards AI

Der Artikel "Multimodal Large Language Models: A Practical Example" behandelt die Anwendung multimodaler großer Sprachmodelle, die sowohl Text- als auch Bilddaten verarbeiten können. Er erläutert, wie diese Modelle in verschiedenen praktischen Szenarien eingesetzt werden, um die Interaktion zwischen Mensch und Maschine zu verbessern. Ein Beispiel wird vorgestellt, das die Integration von visuellen und sprachlichen Informationen demonstriert, um komplexe Aufgaben zu lösen. Der Artikel hebt die Vorteile dieser Technologie hervor, wie die Fähigkeit, kontextuelle Informationen besser zu verstehen und kreativere Lösungen zu generieren. Zudem werden Herausforderungen und zukünftige Entwicklungen in diesem Bereich angesprochen, um das Potenzial multimodaler Modelle weiter auszuschöpfen.

Huawei spúšťa dátovú platformu s AI na prepojenie modelov a obchodnej hodnoty

2026-03-06Prnewswire

Huawei hat auf dem MWC Barcelona 2026 eine neue AI-Datenplattform vorgestellt, die darauf abzielt, die Kluft zwischen KI-Modellen und ihrem Geschäftswert zu schließen. Die Plattform integriert Technologien zur Wissensgenerierung und -suche sowie einen KV-Cache, um die Inferenzgeschwindigkeit signifikant zu erhöhen. Trotz der Fortschritte in der KI sind viele Modelle nicht optimal in grundlegende Dienste integriert, was zu langsamen Reaktionszeiten führt. Die neue Lösung bietet hochpräzise multimodale Wissensgenerierung mit einer Suchgenauigkeit von über 95 % und verkürzt die Zeit bis zur ersten Token-Antwort um 90 %. Ein Kontextmanagementsystem verbessert die Datenextraktion und -speicherung, was die Intelligenz der Modelle steigert. Die Plattform kann sowohl im Gerätemodus als auch im unabhängigen Modus betrieben werden, was flexible Skalierbarkeit und maximale Leistung ermöglicht. Huawei strebt an, durch diese Innovationen die Potenziale von KI-Modellen in greifbare Geschäftswerte umzuwandeln.

العلماء يطورون نموذجًا ذكاءً اصطناعيًا لفهم الظواهر العلمية باستخدام موجات الزلازل

2026-02-27Greenfue

Ein Team von fünf amerikanischen nationalen Laboren hat ein KI-Modell namens SeisModal entwickelt, das auf über 16.000 seismischen Ereignissen basiert, um wissenschaftliche Phänomene besser zu verstehen. Dieses multimodale Modell kann verschiedene Datentypen wie Erdbebenstärke, Standort, Zeit, Wellenform sowie Texte, Bilder und Videos verarbeiten, was eine umfassende Analyse jedes Ereignisses ermöglicht. Dadurch können Wissenschaftler zukünftige Ereignisse untersuchen, selbst wenn einige Informationen fehlen. Karl Pazdernik, ein führender Datenwissenschaftler, hebt hervor, dass das Modell mit minimalem Aufwand auf verschiedene wissenschaftliche Probleme anwendbar ist. SeisModal nutzt hochqualitative, öffentlich zugängliche Daten des National Earthquake Information Center, was zur wissenschaftlichen Zuverlässigkeit beiträgt. Ian Stewart, ein Forscher, betont, dass SeisModal auch zeitliche Daten analysieren kann, was einen Fortschritt im Vergleich zu vielen aktuellen Sprachmodellen darstellt. Die Forscher hoffen, dass SeisModal auch in anderen wissenschaftlichen Bereichen, wie der Überwachung der nuklearen Einhaltung, eingesetzt werden kann, wobei der Fokus auf Transparenz und Datensicherheit liegt.

Sarvam AI Launches 105B Open-Source Models for India

2026-02-18Techbuzz

Sarvam AI, ein indisches Startup, hat auf dem India AI Impact Summit 2026 eine Reihe von Open-Source-KI-Modellen vorgestellt, darunter ein bemerkenswertes 105-Milliarden-Parameter-Modell. Diese Modelle sind darauf ausgelegt, die geschlossene Herangehensweise großer westlicher Wettbewerber herauszufordern und spiegeln Indiens Bestreben wider, im globalen KI-Rennen eine bedeutende Rolle zu übernehmen. Die neuen Modelle sind speziell auf die sprachlichen und kulturellen Bedürfnisse Indiens abgestimmt und umfassen zentrale Sprachmodelle sowie multimodale Funktionen wie Text-zu-Sprache- und Sprache-zu-Text-Systeme. Sarvam AI verfolgt eine Strategie der Transparenz und Zugänglichkeit, während viele westliche Labs zunehmend auf geschlossene Entwicklungspraktiken setzen. Diese Initiative könnte die KI-Transformation in Indien vorantreiben, ohne auf proprietäre Systeme angewiesen zu sein. Das schnell wachsende indische KI-Ökosystem, unterstützt von einer großen Entwicklergemeinschaft und niedrigen Rechenkosten, bietet ein attraktives Umfeld für Open-Source-Alternativen.

Bytedance's Seed2.0 adds even more price pressure on Western AI models

2026-02-14The Decoder

Bytedance hat mit der Einführung seiner neuen Seed2.0 AI-Modellreihe einen signifikanten Preisdruck auf westliche KI-Modelle ausgeübt. Die Modelle sind in den Varianten Pro, Lite und Mini sowie einem speziellen Code-Modell erhältlich und bieten vergleichbare Leistungen zu einem Bruchteil der Kosten. Besonders hervorzuheben ist die verbesserte multimodale Verarbeitung, die es Seed2.0 ermöglicht, Dokumente, Tabellen, Grafiken und Videos effektiver zu analysieren. Das Pro-Modell hat in verschiedenen Kategorien, wie visueller Mathematik und Logik, hohe Punktzahlen erzielt und sogar Goldmedaillen in internationalen Wettbewerben gewonnen. Dennoch zeigt Seed2.0 in der Code-Generierung Schwächen im Vergleich zu Claude und hat auch in Bezug auf Langzeitwissen und Halluzinationen Nachteile gegenüber westlichen Modellen. Die Preisgestaltung von Seed2.0 könnte jedoch für viele Nutzer attraktiv sein und den Wettbewerb im KI-Markt weiter anheizen.

RecCloud Confirms Day-One Support for Seedance 2.0 Ahead of Global Launch

2026-02-12wallstreet:online

RecCloud hat angekündigt, dass es am 24. Februar 2026, dem offiziellen globalen Start von Seedance 2.0, sofortige Unterstützung für das neue multimodale KI-Video-Generierungsmodell bieten wird. Im Gegensatz zu anderen Plattformen, die nach dem Launch Anpassungen vornehmen müssen, hat RecCloud bereits im Vorfeld umfassende interne Aktualisierungen durchgeführt. Dies gewährleistet den Nutzern einen nahtlosen Zugang zu den neuen Funktionen von Seedance 2.0, die unter anderem verbesserte Bewegungsrealität und Szenenkohärenz bieten. Nutzer können direkt über die RecCloud-Oberfläche auf Seedance 2.0 zugreifen und bestehende Projekte ohne Unterbrechungen fortsetzen. RecCloud positioniert sich somit als eine der ersten Plattformen, die am Tag des Starts operative Zugänge bereitstellt, was die Dringlichkeit der sofortigen Verfügbarkeit in der dynamischen Welt der KI-Videoerstellung unterstreicht. CEO Klay hebt hervor, dass die Innovationszyklen der Modelle schneller werden und Kreative nicht auf neue Technologien warten sollten.

Multimodal Large Language Models: Architectures, Training, and Real-World Applications

2026-02-08Towards AI

Der Artikel "Multimodal Large Language Models: Architectures, Training, and Real-World Applications" behandelt die Entwicklung und Implementierung multimodaler großer Sprachmodelle, die in der Lage sind, verschiedene Datentypen wie Text, Bilder und Audio zu verarbeiten. Der Fokus liegt auf den architektonischen Grundlagen dieser Modelle, die es ihnen ermöglichen, multimodale Informationen zu integrieren und zu analysieren. Zudem wird auf die Trainingsmethoden eingegangen, die erforderlich sind, um diese komplexen Modelle effektiv zu schulen, einschließlich der Herausforderungen und Techniken zur Datenfusion. Der Artikel beleuchtet auch die praktischen Anwendungen dieser Technologien in Bereichen wie automatisierte Übersetzung, Bildbeschreibung und interaktive KI-Systeme. Abschließend wird die Bedeutung multimodaler Modelle für die Zukunft der KI und deren Potenzial zur Verbesserung menschlicher Interaktionen mit Maschinen hervorgehoben.

Multimodale Modelle

Einordnung

Verwandte Cluster