多模態搜尋(Multimodal Search)指搜尋引擎能同時理解並結合多種輸入形式——圖片、文字、語音甚至影片。典型例子是 Google Lens 拍照辨識商品,或 Google 的 multisearch「以圖搜尋再加文字條件」,AI 模型如 Gemini 進一步強化了跨模態理解。
為什麼重要
使用者的搜尋行為正從純文字轉向「拍一張照就問」。若你的圖片、產品與視覺內容無法被機器理解,就會在這類搜尋中缺席。多模態搜尋讓圖片 SEO 與結構化資料的重要性大幅提升,是視覺型與電商品牌的新戰場。
怎麼做
- 高品質標記圖片:清楚 alt text、檔名與周邊文字說明。
- 結構化產品資料:以 Product Schema 描述商品屬性。
- 優化圖片格式:用 WebP/AVIF 兼顧清晰與載入速度。
- 提供情境內容:讓圖片有可被連結的文字上下文。