Co to jest Multimodal Search?

Multimodal search (wyszukiwanie wielomodalne) to wyszukiwanie łączące różne typy danych wejściowych – tekst, obraz, głos, wideo – w jednym zapytaniu. Google Lens, Google Multisearch i AI chatboty z obsługą obrazów to przykłady multimodal search w praktyce.

Przykłady multimodal search:

robisz zdjęcie butów na ulicy i pytasz Google „gdzie kupić takie?”
wgrywasz screenshot błędu do ChatGPT i pytasz „jak to naprawić?”
robisz zdjęcie dania w restauracji i szukasz przepisu
Google Lens – skanowanie QR kodów, rozpoznawanie produktów, tłumaczenie tekstu z obrazu.

Google Multisearch: uruchomiony w 2022, pozwala łączyć obraz + tekst w jednym zapytaniu – np. robisz zdjęcie sukienki i dopisujesz „w kolorze zielonym”.

Wpływ na SEO:

optymalizacja obrazów staje się ważniejsza niż kiedykolwiek – alt text, nazwy plików, kontekst na stronie, schema ImageObject
wideo SEO zyskuje na znaczeniu – Google coraz lepiej rozumie treść wideo
dane strukturalne pomagają Google powiązać różne formaty treści (tekst + obraz + wideo) na jednej stronie.

Trendy 2025-2026: Google Lens przetwarza ponad 20 miliardów wyszukiwań wizualnych miesięcznie; AI chatboty (ChatGPT, Gemini) coraz lepiej rozumieją obrazy i łączą kontekst wizualny z tekstowym. Multimodal search to przyszłość wyszukiwania, która już trwa.

← Powrót do słownika SEO

Szukasz konsultanta SEO dla firm SaaS i B2B? Zobacz, jak mogę pomóc Twojej firmie rosnąć dzięki SEO.

Jasiek Pokrop

Ekspert SEO, który od blisko dekady buduje strategie pozycjonowania dla firm SaaS i nie tylko - takie, które działają mimo ciągłych zmian algorytmów i rosnącej roli AI w wyszukiwaniu.