Araştırma makalesine göre Apple ReALM adı verilen sistem, ekrandaki görsel öğelere yapılan atıfları (“bu” veya “şu” gibi) anlamak da dahil olmak üzere karmaşık referansları saf bir dil modelleme problemine dönüştürmek için büyük dil modellerinden yararlanıyor. Bu da ReALM’in mevcut yöntemlere kıyasla önemli performans kazanımları elde etmesini sağlıyor.
Yine de araştırmacılar, ekranların otomatik ayrıştırılmasına güvenmenin sınırlamaları olduğu konusunda uyarıyor. Birden fazla görüntü arasında ayrım yapmak gibi daha karmaşık görsel referansların ele alınması, muhtemelen bilgisayarla görü ve çok modlu tekniklerin dahil edilmesini gerektirecek.
Çin’de bir Starbucks mağazasına adım atmanın ve bir grande latte için cüzdanınızdan 220 lira çıkarmanın nasıl bir his olduğunu hayal edin. Ne kadar pahalı değil mi?
Aracınızla otoyolda 130/140 km/s hızla giderken bir anda önünüze bir hayvanın veya bir insanın çıktığını düşünelim. Ne yaparsınız? Elbette frene basıp arabayı durdurursunuz. Ancak arabanızın az önce çok fazla enerjisi vardı, peki siz durunca bu enerji nereye gitti?
Sinemada, tiyatroda, bütün ödül verilen alanlarda bitmeyen tartışmadır… Kimlerden oluşmalı bu jüri denen belalı ‘makam’? Alanın profesyonellerinden; yazar, yönetmen, yapımcı, oyuncu, akademisyen, eleştirmen… Böyle sayınca iş kolaymış gibi görünüyor …