Teknoloji

NVIDIA görsel yapay zeka alanındaki en son gelişmeleri sunuyor

NVIDIA araştırmacıları bu hafta Seattle’da düzenlenen Computer Vision and Pattern Recognition (CVPR) konferansında yeni görsel üretici yapay zeka modelleri ve teknikleri sundu. Gelişmeler, özel görüntü oluşturma, 3D sahne düzenleme, görsel dil anlama ve otonom araç algılama gibi alanları kapsadı.

NVIDIA Öğrenme ve Algılama Araştırmaları Başkan Yardımcısı Jan Kautz, “Yapay zeka ve özellikle de üretken yapay zeka, çok önemli bir teknolojik ilerlemeyi temsil ediyor. CVPR’de NVIDIA Research, profesyonel içerik oluşturucuları güçlendirebilecek güçlü görüntü oluşturma modellerinden yeni nesil sürücüsüz otomobilleri etkinleştirmeye yardımcı olabilecek otonom sürüş yazılımına kadar mümkün olanın sınırlarını nasıl zorladığımızı paylaşıyor.”

Sunulan 50’den fazla NVIDIA araştırma projesi arasında, biri difüzyon modellerinin eğitim dinamiklerini araştıran ve diğeri sürücüsüz otomobiller için yüksek çözünürlüklü haritalar üzerine olan iki makale CVPR’nin En İyi Makale Ödülleri için finalist olarak seçildi.

Ayrıca NVIDIA, CVPR Autonomous Grand Challenge’ın End-to-End Driving at Scale (Uçtan Uca Sürüş) bölümünü dünya çapında 450’den fazla başvuruyu geride bırakarak kazandı. Bu dönüm noktası, NVIDIA’nın kapsamlı sürücüsüz araç modelleri için üretken yapay zekayı kullanma konusundaki öncü çalışmalarını ortaya koyuyor ve CVPR’den bir İnovasyon Ödülü de kazanıyor.

Başlıca araştırma projelerinden biri olan JeDi, içerik oluşturucuların, özel veri kümeleri üzerinde zaman alan ince ayar süreci yerine, yalnızca birkaç referans görüntü kullanarak belirli nesneleri veya karakterleri tasvir etmek için difüzyon modellerini (metinden görüntüye oluşturma için önde gelen yaklaşım) hızla özelleştirmelerine olanak tanıyan yeni bir tekniktir.

Bir diğer atılım ise, nesne başına eğitim olmadan videolardaki nesnelerin 3D pozunu anında anlayabilen ve takip edebilen yeni bir temel model olan FoundationPose. Yeni bir performans rekoru kırdı ve yeni AR ve robotik uygulamalarının kilidini açabilir.

NVIDIA araştırmacıları ayrıca, değişiklikleri manuel olarak yeniden canlandırmak veya NeRF’yi tamamen yeniden oluşturmak yerine, tek bir 2D anlık görüntü kullanarak Neural Radiance Field (NeRF) tarafından yakalanan 3D sahneyi düzenlemek için bir yöntem olan NeRFDeformer’ı tanıttı. Bu da grafik, robotik ve dijital ikiz uygulamaları için 3D sahne düzenlemeyi kolaylaştırabilir.

Görsel dil alanında NVIDIA, görüntüleri, videoları ve metinleri anlamada en gelişmiş performansı elde eden yeni bir görsel dil modeli ailesi olan VILA’yı geliştirmek için MIT ile işbirliği yaptı. Gelişmiş muhakeme yeteneklerine sahip olan VILA, görsel ve dilsel anlayışı birleştirerek internet memlerini bile anlayabilir.

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

Please enter CoinGecko Free Api Key to get this plugin works.