标签：CLIP 模型

CLIP（Contrastive Language-Image Pre-Training，以下简称 CLIP）模型是 OpenAI 在 2021 年初发布的用于匹配图像和文本的预训练神经网络模型，可以说是近年来在多模态研究领域的经典之作。该模型直接使用大量的互联网数据进行预训练，在很多任务表现上达到了目前最佳表现（SOTA）。

基于文本嵌入和 CLIP 图像嵌入的多模态检索

LlamaIndex 在 2023 年 10 月 27 日星期五发布了关于多模态检索的示例 NOTEBOOK，本文一起来学习尝试一下。

2024-01-10 探索未来查看详细