Co to jest Multimodal Search?

Multimodal search (wyszukiwanie wielomodalne) to wyszukiwanie łączące różne typy danych wejściowych – tekst, obraz, głos, wideo – w jednym zapytaniu. Google Lens, Google Multisearch i AI chatboty z obsługą obrazów to przykłady multimodal search w praktyce.

Przykłady multimodal search:

  • robisz zdjęcie butów na ulicy i pytasz Google „gdzie kupić takie?”
  • wgrywasz screenshot błędu do ChatGPT i pytasz „jak to naprawić?”
  • robisz zdjęcie dania w restauracji i szukasz przepisu
  • Google Lens – skanowanie QR kodów, rozpoznawanie produktów, tłumaczenie tekstu z obrazu.

Google Multisearch: uruchomiony w 2022, pozwala łączyć obraz + tekst w jednym zapytaniu – np. robisz zdjęcie sukienki i dopisujesz „w kolorze zielonym”.

Wpływ na SEO:

  • optymalizacja obrazów staje się ważniejsza niż kiedykolwiek – alt text, nazwy plików, kontekst na stronie, schema ImageObject
  • wideo SEO zyskuje na znaczeniu – Google coraz lepiej rozumie treść wideo
  • dane strukturalne pomagają Google powiązać różne formaty treści (tekst + obraz + wideo) na jednej stronie.

Trendy 2025-2026: Google Lens przetwarza ponad 20 miliardów wyszukiwań wizualnych miesięcznie; AI chatboty (ChatGPT, Gemini) coraz lepiej rozumieją obrazy i łączą kontekst wizualny z tekstowym. Multimodal search to przyszłość wyszukiwania, która już trwa.


← Powrót do słownika SEO


Szukasz konsultanta SEO dla firm SaaS i B2B? Zobacz, jak mogę pomóc Twojej firmie rosnąć dzięki SEO.

Przewijanie do góry