Obrazy Getty’ego
W ciągu ostatnich dwóch lat zaobserwowaliśmy niesamowity postęp w systemach sztucznej inteligencji, jeśli chodzi o rozpoznawanie i analizowanie złożonych treści obrazowych. Jednak nowy artykuł podkreśla, jak wiele nowoczesnych „modeli uczenia się wizualnego” nie wykonuje prostych zadań analizy wizualnej niskiego poziomu, łatwych do wykonania przez człowieka.
W prowokacyjnie zatytułowanym pre-printie „Modele języka wizualnego są ślepy„ (Które ma Wersja PDF Obejmuje to emoji ciemnych okularów przeciwsłonecznych W tytule) badacze z Auburn University i University of Alberta stworzyli osiem prostych testów ostrości wzroku z obiektywnie poprawnymi odpowiedziami. Testy te obejmują określenie liczby przecięć dwóch kolorowych linii, identyfikację zakreślonej litery w długim słowie, aż po zliczenie liczby nakładających się kształtów na obrazie (można dostarczyć przykłady i reprezentatywne wyniki). Wyświetlono elektroniczną stronę zespołu badawczego).
-
Jeśli potrafisz rozwiązać tego typu łamigłówki, możesz mieć lepsze rozumowanie wizualne niż wyrafinowana sztuczna inteligencja.
-
Łamigłówki po prawej stronie wyglądają jak z magazynu Highlights.
-
Reprezentatywna próbka pokazuje, że modele sztucznej inteligencji nie radzą sobie z zadaniem, które większość dzieci uznałaby za trywialne.
Najważniejsze jest to, że te testy są Wygenerowane przez niestandardowy kod Nie opiera się na istniejących wcześniej obrazach czy testach, które można znaleźć w publicznym Internecie, tym samym „redukując”.[ing] „Możliwe, że VLM rozwiążą ten problem poprzez konserwację” – uważają naukowcy. Testy wymagają również „niewielkiej wiedzy o świecie” lub nie wymagają jej wcale poza podstawowymi kształtami 2D, co utrudnia wyciągnięcie odpowiedzi na podstawie „samego pytania tekstowego i wyborów” (co wykazano w kilku poprzednich badaniach). Stwierdzono, że jest to problem w przypadku niektórych innych testów porównawczych wizualnej sztucznej inteligencji).
Czy jesteś najmądrzejszą osobą w piątej klasie?
Po przeprowadzeniu wielu testów na czterech różnych modelach optycznych — GPT-4o, Gemini-1.5 Pro, Sonnet-3 i Sonnet-3.5 — badacze odkryli, że wszystkie cztery modele znacznie odbiegały od 100-procentowej dokładności, jakiej można by oczekiwać w przypadku takiej analizy wizualnej proste (z wykonaniem których większość widzących ludzi nie miałaby większych trudności). Jednak stopień pogorszenia wydajności sztucznej inteligencji znacznie się różnił w zależności od konkretnego zadania. Na przykład zapytany o liczbę wierszy i kolumn w pustej siatce, najskuteczniejszy model dawał dokładną odpowiedź tylko w mniej niż 60 procentach przypadków. Z drugiej strony Gemini-1.5 Pro osiągnął blisko 93% dokładności w identyfikowaniu liter okrągłych, co jest zbliżone do wydajności człowieka.
-
Z jakiegoś powodu modele mają tendencję do odgadywania błędnie zakreślonej litery „o” znacznie częściej niż wszystkich pozostałych liter w tym teście.
-
Modelom udało się zliczyć pięć idealnie powiązanych ze sobą okręgów, co może być im znane ze wspólnych zdjęć kół olimpijskich.
-
Czy uważasz, że liczenie kolumn w siatce jest łatwiejsze niż liczenie wierszy? Jeśli tak, prawdopodobnie nie jesteś sztuczną inteligencją.
Nawet niewielkie zmiany w zadaniach mogą również prowadzić do ogromnych zmian w wynikach. Chociaż cztery testowane modele były w stanie poprawnie zidentyfikować pięć nakładających się pustych okręgów, dokładność we wszystkich modelach spadła do mniej niż 50 procent, gdy w grę wchodziło od sześciu do dziewięciu okręgów. Badacze postawili hipotezę, że „sugeruje to, że VLM są przychylnie nastawieni do słynnego logo igrzysk olimpijskich, które zawiera pięć kół”. W innych przypadkach modele czasami odgadywały nielogiczne odpowiedzi, na przykład „9”, „n” lub „©” jako literę w kółku w słowie „Subdermatoglificzny”.
Ogólnie rzecz biorąc, wyniki podkreślają, że modele sztucznej inteligencji, które dobrze radzą sobie z wnioskowaniem wizualnym na wysokim poziomie, mają pewne znaczące „martwe punkty” (przepraszam), jeśli chodzi o abstrakcyjne obrazy niskiego poziomu. Wszystko to przypomina w pewnym stopniu podobne luki w umiejętnościach, które często widzimy we współczesnych dużych modelach językowych, które mogą generować bardzo przekonujące streszczenia długich tekstów, a jednocześnie nie radzą sobie z bardzo podstawową matematyką i… Pisownia Pytania.
Te luki w możliwościach VLM mogą wynikać z niezdolności tych systemów do uogólniania danych wykraczających poza typy treści, do obsługi których zostały specjalnie przeszkolone. Kiedy jednak badacze próbowali udoskonalić model, korzystając z konkretnych zdjęć wykonanych w ramach jednego z zadań (test „Czy dwa koła się stykają?”), model wykazał jedynie niewielką poprawę, z dokładnością z 17% do około 37%. „Wartości strat we wszystkich tych eksperymentach były bardzo bliskie zeru, co wskazuje, że model nadmiernie dopasowuje się do zbioru uczącego, ale nie pozwala na uogólnienie” – napisali naukowcy.
Badacze sugerują, że luka w umiejętnościach VLM może być powiązana z tzw „Późna fuzja” koderów wizyjnych na dużych, wstępnie wytrenowanych modelach językowych. A Podejście szkoleniowe „wczesna integracja”. Naukowcy sugerują, że system integrujący kodowanie wizualne ze szkoleniem językowym mógłby zapewnić lepsze wyniki w przypadku zadań niskiego poziomu (bez zapewniania jakiejkolwiek analizy tego problemu).
. „Nieuleczalny entuzjasta muzyki. Bacon geek. Badacz internetu. Hipsterski miłośnik telewizji”.