KI Suche
Die Suche durchsucht Rubriken, Unterrubriken, Cluster, importierte Artikel, Firmen, Quellen und die wichtigsten Service-Seiten der KI-Linksammlung.
Suchergebnisse
71 Treffer für die aktuelle Abfrage.
Vision Transformers and the Decline of CNNs
Der Artikel "Vision Transformers and the Decline of CNNs" untersucht den Aufstieg von Vision Transformers (ViTs) als dominierende Architektur im Bereich der Bildverarbeitung und analysiert, wie sie die traditionellen Convolutional Neural Networks (CNNs) zunehmend ersetzen. ViTs nutzen Selbstaufmerks
Kerun Launches Integrated Transformer and Substation Solutions to Power AI and High-Density Computing Facilities
Kerun Intelligent Control Co., LTD. hat eine innovative integrierte Lösung für Transformatoren und Umspannwerke vorgestellt, die speziell für AI-Datenzentren und hochdichte Rechenzentren konzipiert ist. Diese Lösung zielt darauf ab, die Zuverlässigkeit, Effizienz und Nachhaltigkeit der Energieversor
Learn Transformers (LLMs) in 5 Minutes
In "Learn Transformers (LLMs) in 5 Minutes" wird in kurzer und prägnanter Form erklärt, was Transformer-Modelle sind und wie sie in der Verarbeitung natürlicher Sprache (NLP) eingesetzt werden. Der Text beschreibt die grundlegenden Konzepte hinter großen Sprachmodellen (LLMs), einschließlich ihrer A
The Softmax Function Every Transformer Uses is the Boltzmann Distribution — Not Inspired by It, Not…
Die Softmax-Funktion, die in Transformermodellen verwendet wird, ist identisch mit der Boltzmann-Verteilung und nicht nur von ihr inspiriert. Diese Erkenntnis hebt hervor, dass die mathematische Grundlage der Softmax-Funktion tief in der statistischen Physik verwurzelt ist. Die Autoren argumentieren
Mamba4 Explained: A Faster Alternative to Transformers for Sequential Modeling
Mamba4 bietet eine innovative Lösung für die Herausforderungen, die bei der Verarbeitung langer Sequenzen mit Transformern auftreten. Durch den Einsatz von State Space Models (SSMs) erreicht Mamba4 eine lineare Verarbeitungsgeschwindigkeit, was die Rechen- und Speicherkosten erheblich senkt. Das Sys
How Transformers Power LLMs: Step-by-Step Guide
Der Artikel "How Transformers Power LLMs: Step-by-Step Guide" erläutert, wie Transformer-Architekturen die Verarbeitung natürlicher Sprache revolutionieren, indem sie traditionelle Ansätze wie RNNs und LSTMs ersetzen. Durch die parallele Verarbeitung aller Wörter steigern sie die Effizienz und Skali
Micron's Singapore expansion could trigger global transformer shortage and delay AI data centers
Micron Technology plant eine bedeutende Expansion in Singapur, um der wachsenden Nachfrage nach Speicherlösungen für Künstliche Intelligenz gerecht zu werden. Diese Expansion erfordert jedoch Hunderte von Transformatoren, was auf potenzielle Lieferengpässe hinweist. Solche Engpässe könnten die Bauze
Nobody Has Traced What Happens Inside a Time Series Transformer. Until Now.
Der Artikel mit dem Titel "Nobody Has Traced What Happens Inside a Time Series Transformer. Until Now." untersucht die inneren Abläufe von Zeitreihen-Transformern, einem wichtigen Modell in der Zeitreihenanalyse. Trotz ihrer weit verbreiteten Anwendung in verschiedenen Bereichen, wie Finanzprognosen
Hand Tracing Transformer Architecture like Good Old days
Die Arbeit "Hand Tracing Transformer Architecture like Good Old Days" untersucht die Rückkehr zu traditionellen Methoden des Modellierens von Transformer-Architekturen, die in der Vergangenheit populär waren. Die Autoren argumentieren, dass das manuelle Nachzeichnen und die detaillierte Analyse von
Hybrid AI model combines graphs and transformers for real-time traffic forecasts
Das Hybrid-AI-Modell kombiniert graphbasierte Ansätze mit Transformern, um präzise Echtzeit-Verkehrsvorhersagen zu ermöglichen. Durch die Integration von graphbasierten Datenstrukturen kann das Modell komplexe Beziehungen und Muster im Verkehrsnetz erfassen. Gleichzeitig nutzen Transformer ihre Fähi
The Long Road to Overnight Success — Neural Nets from McCulloch-Pitts to Transformers
Der Artikel "The Long Road to Overnight Success — Neural Nets from McCulloch-Pitts to Transformers" beschreibt die Entwicklung neuronaler Netze von ihren Anfängen bis zu modernen Architekturen wie den Transformern. Er beginnt mit den grundlegenden Konzepten, die von Warren McCulloch und Walter Pitts
The Transformer Architecture Is Being Replaced: What 47,000 Hours of Training Data Revealed
Die Studie mit dem Titel "The Transformer Architecture Is Being Replaced: What 47,000 Hours of Training Data Revealed" untersucht die Grenzen der Transformer-Architektur, die seit ihrer Einführung in der KI-Forschung dominierend ist. Durch die Analyse von 47.000 Stunden an Trainingsdaten zeigt die F
Why the Transformer Changed AI Forever
Der Artikel "Why the Transformer Changed AI Forever" beleuchtet die revolutionäre Rolle des Transformer-Modells in der Entwicklung der Künstlichen Intelligenz. Ursprünglich 2017 von Vaswani et al. eingeführt, hat der Transformer die Art und Weise, wie Maschinen Sprache verstehen und generieren, grun
Deep Dive into Transformer Encoders by Hand ✍️
Der Artikel "Deep Dive into Transformer Encoders by Hand" bietet eine detaillierte Analyse der Funktionsweise von Transformer-Encodern, die eine zentrale Rolle in modernen NLP-Modellen spielen. Der Autor erklärt die grundlegenden Konzepte hinter der Architektur, einschließlich der Selbstaufmerksamke
The 4 Vision Transformer Architectures: How AI Learned to See Without Convolutions
Der Artikel "The 4 Vision Transformer Architectures: How AI Learned to See Without Convolutions" beschreibt die Entwicklung und Funktionsweise von vier verschiedenen Vision Transformer Architekturen, die in der Bildverarbeitung eingesetzt werden. Im Gegensatz zu traditionellen Convolutional Neural N
How Andrej Karpathy Built a Working Transformer in 243 Lines of Code
Andrej Karpathy hat mit microGPT ein innovatives Bildungswerkzeug geschaffen, das den Zugang zur GPT-Technologie erleichtert. In nur 243 Zeilen Python-Code vermittelt es die grundlegenden mathematischen Prinzipien hinter großen Sprachmodellen. Im Gegensatz zu herkömmlichen Tutorials, die komplexe Fr
The 4 Flash Attention Variants: How to Train Transformers 10× Longer Without Running Out of Memory
In der Studie "The 4 Flash Attention Variants: How to Train Transformers 10× Longer Without Running Out of Memory" werden vier Varianten der Flash Attention-Technologie vorgestellt, die es ermöglichen, Transformer-Modelle effizienter zu trainieren. Die Autoren zeigen, dass diese Varianten die Speich
Inside the Transformer: How Your Dataset Becomes an AI Brain
Der Artikel "Inside the Transformer: How Your Dataset Becomes an AI Brain" beleuchtet den Prozess, wie Daten in leistungsfähige KI-Modelle umgewandelt werden. Er erklärt die Funktionsweise von Transformern, einer Schlüsselarchitektur in der modernen KI, die es ermöglicht, große Datenmengen effizient
The Key to AI Intelligence: Why Transformer Width Matters More Than Depth
In "The Key to AI Intelligence: Why Transformer Width Matters More Than Depth" wird die Bedeutung der Breite von Transformern in der Künstlichen Intelligenz hervorgehoben. Der Autor argumentiert, dass eine breitere Architektur, die mehr Parameter in den Schichten umfasst, entscheidend für die Leistu
“Google’s Secret Weapon: The AI Architecture That Could Make Transformers Obsolete”
In dem Artikel "Google’s Secret Weapon: The AI Architecture That Could Make Transformers Obsolete" wird eine neuartige KI-Architektur vorgestellt, die das Potenzial hat, die bisher dominierenden Transformer-Modelle zu ersetzen. Diese innovative Architektur verspricht eine effizientere Verarbeitung v
Transformers: A Practical Understanding
"Transformers: A Practical Understanding" bietet eine umfassende Einführung in die Transformer-Architektur, die in der natürlichen Sprachverarbeitung und anderen Bereichen der künstlichen Intelligenz weit verbreitet ist. Der Text erklärt die grundlegenden Konzepte, die hinter Transformers stehen, ei
Nvidia's Nemotron 3 swaps pure Transformers for a Mamba hybrid to run AI agents efficiently
Nvidia hat die Nemotron 3-Familie vorgestellt, die eine innovative Kombination aus Mamba- und Transformer-Architekturen nutzt, um die Effizienz von AI-Agenten zu steigern. Diese neuen Modelle sind darauf ausgelegt, komplexe Aufgaben autonom über längere Zeiträume hinweg zu bewältigen und unterstütze
Transformers v5 Introduces a More Modular and Interoperable Core
Hugging Face hat die erste Release-Kandidatin von Transformers v5 veröffentlicht, die einen bedeutenden Fortschritt in der Entwicklung der Transformers-Bibliothek darstellt. Im Vergleich zur Version 4, die vor fünf Jahren erschien, liegt der Fokus auf Interoperabilität, um eine nahtlose Zusammenarbe
Stargate Project initiates AI buildout, Fortune Electric transformer orders exceed NT$120 billion
Das US-Stargate-Projekt hat zu einem signifikanten Anstieg der Nachfrage nach schwerer elektrischer Ausrüstung geführt. Fortune Electric konnte erste Aufträge für Transformatoren im Rahmen dieser Initiative sichern und verzeichnet zudem eine hohe Nachfrage von anderen Kunden, insbesondere im Bereich
The Transformer Architecture
Die Transformer-Architektur ist ein bahnbrechendes Modell im Bereich des maschinellen Lernens, das insbesondere für die Verarbeitung von Sequenzdaten wie Text entwickelt wurde. Sie basiert auf einem Mechanismus namens "Self-Attention", der es dem Modell ermöglicht, die Beziehungen zwischen verschied
Pre-LN vs. Post-LN: The Data Science of Transformer Stability
Der Artikel "Pre-LN vs. Post-LN: The Data Science of Transformer Stability" untersucht die Stabilität von Transformer-Modellen in Bezug auf zwei unterschiedliche Normalisierungsansätze: Pre-Layer Normalization (Pre-LN) und Post-Layer Normalization (Post-LN). Die Autoren analysieren, wie sich diese b
Smart Transformers Market to hit USD 5.97 billion by 2032 at a CAGR of 9.16%;fueled by AI integration and grid modernization demands in the IT and energy sectors.
Der Markt für intelligente Transformatoren wird bis 2032 voraussichtlich 5,97 Milliarden USD erreichen, mit einer jährlichen Wachstumsrate von 9,16%. Diese Entwicklung wird durch die Integration von Künstlicher Intelligenz (KI) und den Bedarf an Modernisierung der Stromnetze in den IT- und Energiese
How Transformer and LLM Assist in Cardiac Risk Detection
Der Artikel "How Transformer and LLM Assist in Cardiac Risk Detection" untersucht den Einsatz von Transformer-Modellen und großen Sprachmodellen (LLMs) zur Verbesserung der Erkennung von kardiovaskulären Risiken. Durch die Analyse umfangreicher medizinischer Daten und Patientenakten ermöglichen dies
Transformers vs Mixture of Experts: What’s the Real Difference?
Der Artikel "Transformers vs Mixture of Experts: What’s the Real Difference?" beleuchtet die Unterschiede zwischen zwei wichtigen Ansätzen in der generativen KI: Transformers und Mixture of Experts (MoE). Transformers sind eine etablierte Architektur, die auf sequenziellen Daten wie Text und Audio b
Fortune Electric invests NT$2.5 billion to expand transformer production amid US AI infrastructure boom
Fortune Electric investiert 2,5 Milliarden NT$ in die Erweiterung seiner Transformatorenproduktion, um der steigenden Nachfrage durch den Bau von KI-Datenzentren in den USA gerecht zu werden. Diese Entscheidung erfolgt vor dem Hintergrund von Verzögerungen bei Drittanbieter-Projekten, die auf verste
Transformer in Action — Optimizing Self-Attention with Attention Approximation
Der Artikel „Transformer in Action — Optimizing Self-Attention with Attention Approximation“ beschäftigt sich mit der Optimierung von Selbstaufmerksamkeitsmechanismen in der Transformer-Architektur, die durch den einflussreichen Aufsatz „Attention Is All You Need“ populär wurde. Selbstaufmerksamkeit
Forget the Math: A Beginner’s Guide to How Attention Powers GPT and Transformers
Der Artikel "Forget the Math: A Beginner’s Guide to How Attention Powers GPT and Transformers" erläutert den entscheidenden Einfluss des Attention-Mechanismus auf die Leistungsfähigkeit von KI-Modellen wie GPT und Transformers. Früher hatten rekurrente neuronale Netze (RNNs) Schwierigkeiten, lange S
Core Scientific, OpenAI named in worker comp lawsuit alleging “transformer explosion”
Joseph Soroka, ein ehemaliger Mitarbeiter von Core Scientific in Denton, Texas, hat das Unternehmen sowie OpenAI und andere Partner wegen schwerer Verbrennungen verklagt, die er durch eine Explosion von Hochspannungstransformatoren erlitten hat. Die Explosion ereignete sich während der Energisierung
Digesting AI Research: Day 3 — Transformer’s
Der Artikel „Digesting AI Research: Day 3 — Transformers“ thematisiert die Entwicklung von Transformern in der Sprachverarbeitung und deren Überlegenheit gegenüber traditionellen Modellen wie RNNs und LSTMs. Während letztere Sprache sequenziell verarbeiten und dadurch Schwierigkeiten haben, langfris
Understanding RNNs: The Model That Paved the Way for Transformers and the AI Revolution
Der Artikel „Understanding RNNs: The Model That Paved the Way for Transformers and the AI Revolution“ beleuchtet die Entwicklung und Bedeutung von rekurrenten neuronalen Netzen (RNNs) in der KI. RNNs wurden entwickelt, um sequenzielle Daten zu verarbeiten und sind besonders effektiv in Anwendungen w
Transformer
Aktuelle Links, Zusammenfassungen und Marktinformationen zu Transformer innerhalb von Modellarchitekturen auf JetztStarten.de.
Why Google May Win the Next Phase of AI
In dem Artikel "Why Google May Win the Next Phase of AI" wird die Entwicklung von Google im Bereich der Künstlichen Intelligenz beleuchtet. Nach der Markteinführung von OpenAI's ChatGPT im November 2022 sah sich Google, das die Transformer-Architektur entwickelt hat, mit erheblichem Druck konfrontie
Every Attention Score You Have Ever Computed Is a Kernel Evaluation.
Der Artikel "Every Attention Score You Have Ever Computed Is a Kernel Evaluation" untersucht die Beziehung zwischen Aufmerksamkeitsmechanismen in neuronalen Netzwerken und Kernelmethoden in der Statistik. Der Autor argumentiert, dass die Berechnung von Aufmerksamkeitswerten in Modellen wie Transform
How ChatGPT Really Works
Der Artikel "How ChatGPT Really Works" bietet einen tiefen Einblick in die Funktionsweise des KI-Modells ChatGPT. Er erklärt, dass ChatGPT auf der Architektur von Transformer-Netzwerken basiert, die es ermöglichen, große Mengen an Textdaten zu verarbeiten und zu verstehen. Der Lernprozess erfolgt du
I Vibe Coded a Tool to That Analyzes Customer Sentiment and Topics From Call Recordings
Der Artikel beschreibt die Entwicklung eines innovativen Tools zur Analyse von Kundenstimmungen und Themen aus Anrufaufzeichnungen, das moderne KI-Technologien nutzt. Es kombiniert Whisper für die Transkription, Hugging Face Transformers für die Sentiment-Analyse und BERTopic zur Themenextraktion, u
Amazon plans smartphone comeback more than a decade after Fire Phone flop
Amazon plant, mehr als ein Jahrzehnt nach dem Misserfolg des Fire Phones, mit einem neuen Projekt namens „Transformer“ in den Smartphone-Markt zurückzukehren. Unter der Leitung der ZeroOne-Gruppe soll das Gerät besonders auf die Integration von Künstlicher Intelligenz, Alexa-Funktionen und mobile Pe
Amazon AI Smartphone Rumor: Experts Warn Launching Now Could Backfire In Shrinking Market
Amazon plant offenbar die Rückkehr in den Smartphone-Markt mit einem neuen Gerät, das den Codenamen "Transformer" trägt und auf eine AI-first-Erfahrung abzielt. Experten warnen jedoch, dass der Zeitpunkt für einen Markteintritt ungünstig ist, da der globale Smartphone-Markt voraussichtlich um 13 % s
Luma AI's Uni-1 could be the first real challenger to Google's Nano Banana image dominance
Luma AI hat mit Uni-1 ein innovatives Bildmodell entwickelt, das Bildverständnis und -generierung in einer einzigen autoregressiven Transformer-Architektur kombiniert. Uni-1 analysiert komplexe Anweisungen und plant strukturiert während der Bildgenerierung, was zu einer höheren Genauigkeit führt. In
QCon London 2026: Running AI at the Edge - Running Real Workloads Directly in the Browser
Auf der QCon London 2026 stellte James Hall, Gründer und technischer Direktor von Parallax, die Vorteile der Ausführung von KI-Anwendungen direkt im Browser vor. Er betonte, dass dies Datenschutzbedenken adressiert und hohe Kosten durch serverseitige Inferenz vermeidet. Lokale Verarbeitung schützt n
Amazon is developing AI smartphone: What to expect
Amazon plant, mehr als ein Jahrzehnt nach dem gescheiterten Fire Phone, mit einem neuen Smartphone unter dem Codenamen "Transformer" in den Markt zurückzukehren. Das Projekt wird von der Geräte- und Dienstleistungsabteilung des Unternehmens geleitet und zielt darauf ab, ein KI-gesteuertes mobiles Ze
From Seq2Seq to Infinite Context: The 10-Year Evolution of Attention
Der Artikel "From Seq2Seq to Infinite Context: The 10-Year Evolution of Attention" beschreibt die Entwicklung der Attention-Mechanismen in der künstlichen Intelligenz über ein Jahrzehnt. Beginnend mit den Seq2Seq-Modellen, die für maschinelles Übersetzen verwendet wurden, wird die Einführung der Att
SK Biopharmaceuticals Launches AI Seizure Detection Research with Emory Univ.
SK Biopharmaceuticals hat am 17. März eine zweijährige Forschungskooperation mit der Emory University School of Medicine gestartet, um ein KI-Modell zur Erkennung und Vorhersage von Anfällen zu entwickeln. Das Joint Venture 'Mentis Care' zielt darauf ab, ein transformerbasiertes EEG-Grundmodell zu s
SeeVideo.dance Redefines AI Cinema: Launching the Premier Professional Web Studio for Seedance 2.0
SeeVideo.dance hat eine innovative webbasierte Plattform für das Seedance 2.0 Modell vorgestellt, die die KI-gesteuerte Videoproduktion revolutioniert. Diese benutzerfreundliche Oberfläche ermöglicht es Kreativen, hochwertige 4K-Videos direkt aus ihrem Browser zu erstellen, ohne teure Hardware zu be
Huawei lance une solution FAN de nouvelle génération
Lors du MWC Barcelona 2026, Huawei a dévoilé sa solution FAN de nouvelle génération, intégrant l'intelligence artificielle (IA) et des technologies tout-optique pour renforcer les capacités des fournisseurs de services Internet (FAI). Cette innovation vise à transformer le secteur des FAI en automat
How AI is Finally Teaching Computers to Read Like People
In dem Artikel "How AI is Finally Teaching Computers to Read Like People" wird untersucht, wie Fortschritte in der Künstlichen Intelligenz (KI) es Computern ermöglichen, Texte auf eine menschenähnliche Weise zu verstehen. Traditionelle Ansätze zur Verarbeitung natürlicher Sprache (NLP) stießen oft a
Presentation: AI Innovation in 2025 and Beyond
In seiner Präsentation "AI Innovation in 2025 and Beyond" beleuchtet Tejas Kumar von IBM die Entwicklung der Künstlichen Intelligenz (KI) und deren zukünftige Perspektiven bis 2025. Er weist darauf hin, dass KI keine neue Erfindung ist, sondern ihre Ursprünge bis ins Jahr 1906 zurückreichen, als sta
Geometry behind how AI agents learn revealed
Eine neue Studie der University at Albany enthüllt, dass künstliche Intelligenz (KI) Informationen auf komplexere Weise organisiert, als bisher angenommen. Anstelle der langjährigen Annahme, dass KI-Modelle auf glatten, niedrigdimensionalen Oberflächen operieren, zeigen die Forscher, dass ein transf
NVIDIA DLSS 4.5 und AMD FSR 4: Der KI-Upscaling-Krieg erreicht die nächste Stufe
Die Einführung von NVIDIA DLSS 4.5 und AMD FSR 4 hat den Wettkampf um die Grafikqualität in PC-Spielen auf ein neues Level gehoben. DLSS 4.5, seit dem 14. Januar 2026 verfügbar, nutzt ein zweites Transformer-Modell für verbessertes Upscaling von 1080p auf 4K, was die Bildqualität erheblich steigert,
The US and China Are Collaborating More Closely on AI Than You Think
Trotz der bestehenden Rivalität zwischen den USA und China im Bereich der künstlichen Intelligenz zeigt eine Analyse von über 5.000 Forschungsarbeiten, dass beide Länder überraschend eng zusammenarbeiten. Rund 3 Prozent dieser Arbeiten, die auf der NeurIPS-Konferenz präsentiert wurden, stammen aus K
Nvidia Rolls Out DLSS 4.5 to All RTX Owners Today
Nvidia hat heute die DLSS 4.5 Super Resolution-Technologie für alle RTX-Besitzer veröffentlicht, die eine bedeutende Verbesserung gegenüber der vorherigen Version darstellt. Der neue AI Transformer-Modell der zweiten Generation verspricht schärfere Bilder und weniger visuelle Störungen beim Spielen.
Lightricks LTX-2: Offene KI für 4K-Videos fordert Tech-Giganten heraus
Lightricks hat mit LTX-2 ein quelloffenes KI-Modell zur Erstellung von 4K-Videos vorgestellt, das eine ernsthafte Konkurrenz zu den geschlossenen Systemen großer Tech-Unternehmen darstellt. Das Modell und der Trainingscode sind auf GitHub verfügbar, was Transparenz fördert und den Zugang zu hochwert
Nvidia stellt DLSS 4.5 und dynamische Frame-Generierung vor
Nvidia hat auf der CES 2026 die neue Version DLSS 4.5 vorgestellt, die ein verbessertes Transformer-Modell der 2. Generation für Upscaling sowie eine dynamische Multi-Frame-Generierung einführt. Diese innovative Technologie erzeugt zusätzliche Frames nur dann, wenn die Bildrate unter einen festgeleg
Introducing Falcon-H1-Arabic: Pushing the Boundaries of Arabic Language AI with Hybrid Architecture
Falcon-H1-Arabic ist eine bedeutende Innovation im Bereich der arabischen Sprachmodelle, die eine hybride Architektur nutzt, um State Space Models und Transformer-Mechanismen zu kombinieren. Diese Struktur verbessert die Verarbeitung langer Texte und die Kohärenz, was besonders für die komplexe Morp
LLM & AI Agent Applications with LangChain and LangGraph — Part 4 — Components of GPT
In dem Artikel "LLM & AI Agent Applications with LangChain and LangGraph — Part 4 — Components of GPT" wird die Funktionsweise und die Struktur von GPT (Generative Pre-trained Transformer) erläutert. Der Fokus liegt auf den verschiedenen Komponenten, die für die Entwicklung und Implementierung von K
NVIDIA launches open model family for agentic AI
NVIDIA hat die Nemotron 3 Modellreihe für agentische KI vorgestellt, bestehend aus den Varianten Nano, Super und Ultra, die herausragende Leistungen für Multi-Agenten-KI-Systeme bieten. Diese Modelle nutzen eine hybride Mamba-Transformer-Mischarchitektur, die eine hohe Inferenzgeschwindigkeit bei de
Cisco decides its homegrown AI model is ready to power its products
Cisco hat beschlossen, sein selbstentwickeltes KI-Modell „Foundation-Sec-1.1-8B-Instruct“ in seinen Produkten zu integrieren, beginnend mit dem Duo Identity Intelligence-Angebot. Dieses Modell, das auf einer optimierten Transformer-Architektur basiert, wurde speziell für Cybersicherheitsanwendungen
Activation Functions in Focus: Understanding ReLU, GELU, and SiLU
In der Diskussion über Aktivierungsfunktionen in neuronalen Netzwerken stehen ReLU (Rectified Linear Unit), GELU (Gaussian Error Linear Unit) und SiLU (Sigmoid Linear Unit) im Mittelpunkt. ReLU ist bekannt für seine Einfachheit und Effizienz, da es negative Werte auf null setzt und somit die Berechn
Google outlines MIRAS and Titans, a possible path toward continuously learning AI
Google hat kürzlich die Architektur seines neuen Transformer-Modells "Titans" sowie das theoretische Framework "MIRAS" vorgestellt, die darauf abzielen, KI-Modelle zu entwickeln, die kontinuierlich lernen und über ein funktionales Langzeitgedächtnis verfügen. Titans kombiniert präzise Kurzzeitgedäch
Attention Is All You Need
"Attention Is All You Need" ist ein wegweisendes Paper, das das Transformer-Modell vorstellt, welches die Verarbeitung von Sequenzdaten revolutioniert. Anstatt auf rekurrente oder konvolutionale Netzwerke zurückzugreifen, nutzt der Transformer ein selbstaufmerksames Mechanismus, um die Beziehungen z
The Generative AI Scientist Roadmap 2026
Die "Generative AI Scientist Roadmap 2026" bietet eine umfassende Anleitung für angehende KI-Entwickler, die ihre Fähigkeiten von grundlegenden Python-Kenntnissen bis hin zu komplexen Architekturen von KI-Agenten erweitern möchten. Der Artikel identifiziert sieben Schlüsselbereiche für die Beherrsch
OpenAI’s new LLM exposes the secrets of how AI really works
OpenAI hat ein neues experimentelles großes Sprachmodell (LLM) entwickelt, das die Funktionsweise von KI transparenter macht. Im Gegensatz zu herkömmlichen "Black Box"-Modellen ist dieses gewichtssparende Transformer-Modell einfacher zu verstehen, obwohl es weniger leistungsfähig ist als führende Mo
Generative AI Models Families
Generative KI-Modelle sind fortschrittliche statistische Systeme, die auf umfangreichen Datensätzen trainiert werden, um Muster zu erkennen und neue Inhalte zu erzeugen, indem sie das nächste Element in einer Sequenz vorhersagen. Diese Modelle sind vielseitig und decken verschiedene Unterkategorien
Self-Attention: The Simple Mechanism That Made ChatGPT Possible
Im Jahr 2017 stellte das Google-Team die Transformer-Architektur vor, die mit dem Konzept der Selbstaufmerksamkeit (Self-Attention) die Künstliche Intelligenz revolutionierte. Diese Technik ermöglicht es KI-Modellen wie GPT und BERT, den Kontext und die Beziehungen zwischen Wörtern besser zu versteh
Keep CALM: New model design could fix high enterprise AI costs
Ein neues Architekturdesign, das von Tencent AI und der Tsinghua-Universität entwickelt wurde, könnte Unternehmen helfen, die hohen Kosten für den Einsatz von KI-Modellen zu senken. Aktuelle generative KI-Modelle sind aufgrund ihrer hohen Rechenanforderungen teuer und umweltschädlich. Die vorgeschla
DeepMind introduces AI agent that learns to complete various tasks in a scalable world model
DeepMind hat mit Dreamer 4 einen innovativen KI-Agenten entwickelt, der komplexe Aufgaben in einem skalierbaren Weltmodell erlernt, ohne in realen Spielumgebungen trainiert zu werden. Der Agent, der beispielsweise in Minecraft Diamanten sammeln kann, wird lediglich mit einer begrenzten Anzahl vorab
The HackerNoon Newsletter: From Cloud to Desk: 3 Signs the AI Revolution is Going Local (10/21/2025)
Am 21. Oktober 2025 beleuchtet der HackerNoon Newsletter aktuelle technologische Entwicklungen und historische Ereignisse, darunter die Eröffnung des Guggenheim Museums in New York im Jahr 1959. Ein zentrales Thema ist die Rolle von Künstlicher Intelligenz (KI) bei der Optimierung von Bitcoin-Transa