Выбор индексов для поиска по сходству (Faiss на Python)
Автор: James Briggs
Загружено: 2021-08-09
Просмотров: 27136
Поиск по схожести на основе ИИ Facebook (Faiss) — это прорыв в мире поиска. Он позволяет нам эффективно искать в самых разных медиафайлах, от GIF-файлов до статей, с невероятной точностью в доли секунды, по более чем миллиарду наборов данных.
Успех Faiss обусловлен многими причинами. Одна из них, в частности, его гибкость. Faiss признаёт, что универсального решения для поиска по схожести не существует.
Вместо этого Faiss предлагает широкий набор поисковых индексов, которые мы можем комбинировать и подбирать по своему усмотрению.
Однако эта высокая гибкость порождает вопрос: как узнать, какой размер индекса подходит для нашего случая?
Какой индекс выбрать? Стоит ли использовать несколько индексов или достаточно одного?
В этом видео мы рассмотрим плюсы и минусы некоторых наиболее важных индексов: Flat, LSH, HNSW и IVF. Мы узнаем, как мы выбираем, какой индекс использовать, и как параметры каждого индекса влияют на создание лучших индексов для семантического поиска.
🌲 Статья на Pinecone:
https://www.pinecone.io/learn/vector-...
🎉 Подпишитесь на новые статьи каждую неделю на Medium!
/ membership
Скачать скрипт для набора данных Sift1M:
https://gist.github.com/jamescalam/a0...
Серия «Поиск схожести»:
• Vector Similarity Search and Faiss Course
🤖 Скидка 70% на курс «Обработка естественного языка с помощью трансформеров на Python»:
https://bit.ly/3DFvvY5
👾 Discord
/ discord
Книга «Майнинг больших наборов данных» (Поиск схожести):
📚 https://amzn.to/3CC0zrc (3-е изд.)
📚 https://amzn.to/3AtHSnV (1-е изд., дешевле)
🕹️ Бесплатный рефакторинг кода с помощью ИИ с Sourcery:
https://sourcery.ai/?utm_source=YouTu...
Доступные форматы для скачивания:
Скачать видео mp4
-
Информация по загрузке: