A NVIDIA lança o NVIDIA Cosmos™ 3, um modelo fundacional aberto de última geração para IA física, construído sobre uma inovadora arquitetura de mistura de transformers (mixture-of-transformers) que combina raciocínio visual, geração de mundo e previsão de ações em um único sistema.
O Cosmos 3 é o primeiro totalmente aberto do mundo capaz de compreender e gerar nativamente texto, imagens, vídeo, som ambiente e ações com precisão física de ponta, reduzindo os ciclos de treinamento e avaliação de IA física de meses para dias.
A NVIDIA também lança a NVIDIA Cosmos Coalition, uma colaboração global entre construtores de modelos de mundo e desenvolvedores de IA — incluindo Agile Robots, Black Forest Labs, Generalist, LTX, Runway e Skild AI — trabalhando em conjunto para impulsionar modelos de mundo de próxima geração.
“O big bang da IA física está logo ali, graças aos avanços em linguagem de raciocínio multimodal, visão e modelos de mundo”, diz Jensen Huang, fundador e CEO da NVIDIA. “A família Cosmos 3 de omnimodels abertos e de fronteira oferece aos desenvolvedores um salto geracional na capacidade de construir robôs, veículos autônomos e IA de visão que percebem, raciocinam, planejam e agem no mundo físico.”
“O grande desafio das empresas hoje é dado e tempo de treinamento. Quando você reduz os ciclos de meses para dias e abre o modelo para a comunidade, muda completamente quem consegue aproveitar da tecnologia e isso amplia o mercado para todo mundo. Com o Cosmos 3 aberto e nas mãos dos desenvolvedores, estamos construindo a base sobre a qual a próxima década de robôs, veículos autônomos e sistemas de visão vai ser desenhada” afirma Marcio Aguiar, diretor da divisão Enterprise da NVIDIA para América Latina.
O Cosmos 3 enfrenta um desafio fundamental da IA física: permitir que robôs, veículos autônomos (AVs) ou agentes de visão generalizem no mundo real com dados de treinamento limitados e pilhas de simulação fragmentadas.
A arquitetura de mistura de transformers (mixture-of-transformers) do modelo combina um transformer de raciocínio com um transformer especialista em geração, permitindo que o Cosmos 3 compreenda interações entre objetos, movimento e relações espaço-temporais antes de gerar vídeo e trajetórias de ação.
Treinado em um dos maiores conjuntos de dados multimodais de IA física — incluindo bilhões de amostras entre texto, imagem, vídeo, som e trajetórias de ação —, o modelo oferece aos desenvolvedores uma poderosa base pré-treinada para construir sistemas de IA física com menos dados e menores custos de treinamento.
A Cosmos Coalition é uma colaboração global entre construtores de modelos de mundo, desenvolvedores de IA e líderes em IA física para impulsionar modelos de mundo abertos em diversos setores, permitindo que os membros contribuam com modelos, pesquisa e técnicas de avaliação enquanto utilizam as tecnologias do Cosmos 3, ferramentas de treinamento e a infraestrutura NVIDIA DGX™ Cloud para treinamento em larga escala.
Os membros fundadores da coalizão incluem Agile Robots, Black Forest Labs, Generalist, LTX, Runway e Skild AI. Ao construir de forma aberta e contribuir em um ecossistema compartilhado, a coalizão busca viabilizar inovação mais rápida, maior interoperabilidade e avanços mais ágeis em IA física.
A plataforma Cosmos potencializa a pilha de IA física da NVIDIA para acelerar fluxos de trabalho de treinamento e avaliação em diversos setores. A plataforma agora inclui novos conjuntos de dados para robótica, física, movimento humano, condução autônoma, segurança em armazéns e raciocínio espacial, além de novas skills de agentes de IA física para reconstrução neural de cenas, geração de imagens de defeitos e ampliação de vídeo.
Desenvolvedores de IA física estão construindo sobre a plataforma Cosmos em diversos setores — Agile Robots, Doosan Robotics, LG Electronics, Samsung Electronics e Skild AI em robótica; Li Auto em AVs; e Centific, Fogsphere, Linker Vision, Milestone Systems e Yuan em agentes de IA de visão para impulsionar aplicações de IA industrial e espaços inteligentes.
O Cosmos 3 Super e o Cosmos 3 Nano já estão disponíveis, com o Cosmos 3 Edge chegando em breve para inferência em tempo real. Os desenvolvedores podem experimentar o Cosmos 3 em build.nvidia.com, baixar modelos abertos no Hugging Face, personalizar modelos e gerar dados sintéticos com o Hugging Face Diffusers e recursos no GitHub, além de implantar os modelos como microsserviços NVIDIA NIM™.
Construtores de modelos e fornecedores de software podem acelerar o acesso, a personalização e a implantação do Cosmos para cargas de trabalho essenciais de raciocínio e geração de dados sintéticos, usando habilidades de agentes de IA física no GitHub por meio de serviços de inferência e parceiros de infraestrutura em nuvem, incluindo Baseten, CoreWeave, Microsoft Azure, Nebius, Deep Infra e Classmethod.
