Czy w tych podstawowych testach wzroku możesz zrobić coś lepiej niż zaawansowane modele AI?

Zbliżenie / Cokolwiek zrobisz, nie pytaj AI, ile poziomych linii jest na tym obrazku.

Obrazy Getty’ego

W ciągu ostatnich dwóch lat zaobserwowaliśmy niesamowity postęp w systemach sztucznej inteligencji, jeśli chodzi o rozpoznawanie i analizowanie złożonych treści obrazowych. Jednak nowy artykuł podkreśla, jak wiele nowoczesnych „modeli uczenia się wizualnego” nie wykonuje prostych zadań analizy wizualnej niskiego poziomu, łatwych do wykonania przez człowieka.

W prowokacyjnie zatytułowanym pre-printie „Modele języka wizualnego są ślepy (Które ma Wersja PDF Obejmuje to emoji ciemnych okularów przeciwsłonecznych W tytule) badacze z Auburn University i University of Alberta stworzyli osiem prostych testów ostrości wzroku z obiektywnie poprawnymi odpowiedziami. Testy te obejmują określenie liczby przecięć dwóch kolorowych linii, identyfikację zakreślonej litery w długim słowie, aż po zliczenie liczby nakładających się kształtów na obrazie (można dostarczyć przykłady i reprezentatywne wyniki). Wyświetlono elektroniczną stronę zespołu badawczego).

Najważniejsze jest to, że te testy są Wygenerowane przez niestandardowy kod Nie opiera się na istniejących wcześniej obrazach czy testach, które można znaleźć w publicznym Internecie, tym samym „redukując”.[ing] „Możliwe, że VLM rozwiążą ten problem poprzez konserwację” – uważają naukowcy. Testy wymagają również „niewielkiej wiedzy o świecie” lub nie wymagają jej wcale poza podstawowymi kształtami 2D, co utrudnia wyciągnięcie odpowiedzi na podstawie „samego pytania tekstowego i wyborów” (co wykazano w kilku poprzednich badaniach). Stwierdzono, że jest to problem w przypadku niektórych innych testów porównawczych wizualnej sztucznej inteligencji).

READ  „Wygasłe” gry cyfrowe PS Vita i PS3 są teraz niedostępne

Czy jesteś najmądrzejszą osobą w piątej klasie?

Po przeprowadzeniu wielu testów na czterech różnych modelach optycznych — GPT-4o, Gemini-1.5 Pro, Sonnet-3 i Sonnet-3.5 — badacze odkryli, że wszystkie cztery modele znacznie odbiegały od 100-procentowej dokładności, jakiej można by oczekiwać w przypadku takiej analizy wizualnej proste (z wykonaniem których większość widzących ludzi nie miałaby większych trudności). Jednak stopień pogorszenia wydajności sztucznej inteligencji znacznie się różnił w zależności od konkretnego zadania. Na przykład zapytany o liczbę wierszy i kolumn w pustej siatce, najskuteczniejszy model dawał dokładną odpowiedź tylko w mniej niż 60 procentach przypadków. Z drugiej strony Gemini-1.5 Pro osiągnął blisko 93% dokładności w identyfikowaniu liter okrągłych, co jest zbliżone do wydajności człowieka.

Nawet niewielkie zmiany w zadaniach mogą również prowadzić do ogromnych zmian w wynikach. Chociaż cztery testowane modele były w stanie poprawnie zidentyfikować pięć nakładających się pustych okręgów, dokładność we wszystkich modelach spadła do mniej niż 50 procent, gdy w grę wchodziło od sześciu do dziewięciu okręgów. Badacze postawili hipotezę, że „sugeruje to, że VLM są przychylnie nastawieni do słynnego logo igrzysk olimpijskich, które zawiera pięć kół”. W innych przypadkach modele czasami odgadywały nielogiczne odpowiedzi, na przykład „9”, „n” lub „©” jako literę w kółku w słowie „Subdermatoglificzny”.

Ogólnie rzecz biorąc, wyniki podkreślają, że modele sztucznej inteligencji, które dobrze radzą sobie z wnioskowaniem wizualnym na wysokim poziomie, mają pewne znaczące „martwe punkty” (przepraszam), jeśli chodzi o abstrakcyjne obrazy niskiego poziomu. Wszystko to przypomina w pewnym stopniu podobne luki w umiejętnościach, które często widzimy we współczesnych dużych modelach językowych, które mogą generować bardzo przekonujące streszczenia długich tekstów, a jednocześnie nie radzą sobie z bardzo podstawową matematyką i… Pisownia Pytania.

READ  Android Auto otrzymuje przydatną funkcję Map Google, która pozwala uniknąć paniki na parkingu

Te luki w możliwościach VLM mogą wynikać z niezdolności tych systemów do uogólniania danych wykraczających poza typy treści, do obsługi których zostały specjalnie przeszkolone. Kiedy jednak badacze próbowali udoskonalić model, korzystając z konkretnych zdjęć wykonanych w ramach jednego z zadań (test „Czy dwa koła się stykają?”), model wykazał jedynie niewielką poprawę, z dokładnością z 17% do około 37%. „Wartości strat we wszystkich tych eksperymentach były bardzo bliskie zeru, co wskazuje, że model nadmiernie dopasowuje się do zbioru uczącego, ale nie pozwala na uogólnienie” – napisali naukowcy.

Badacze sugerują, że luka w umiejętnościach VLM może być powiązana z tzw „Późna fuzja” koderów wizyjnych na dużych, wstępnie wytrenowanych modelach językowych. A Podejście szkoleniowe „wczesna integracja”. Naukowcy sugerują, że system integrujący kodowanie wizualne ze szkoleniem językowym mógłby zapewnić lepsze wyniki w przypadku zadań niskiego poziomu (bez zapewniania jakiejkolwiek analizy tego problemu).

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *