Сегодня у меня в гостях Рауф Алиев — человек, который варится в поиске уже четверть века. Он начинал с самописного inverted index в начале 2000-х, когда всё приходилось изобретать руками, и дошёл до современных гибридных систем — с векторным поиском, трансформерами и рекомендациями поверх всего этого.
Мы обсудили, как вообще устроен полнотекстовый поиск: что такое inverted index на практике, зачем нужен BM25, почему важно учитывать длину документа, что дают proximity и exact match. Отдельно разобрали, почему фасеты — это не совсем «поиск», как работают стемминг и лемматизация, зачем иногда хранить и нормализованный, и оригинальный текст, и почему работа с разными языками — это отдельная инженерная боль.
Потом ушли в гибридные модели: как смешиваются ключевые слова, query expansion, синонимы и векторные представления. Поговорили о том, почему векторный поиск лучше понимает смысл, но хуже объясняет свои решения, и как LLM можно использовать не для болтовни в чате, а как инструмент, который превращает человеческий запрос в понятные системе фильтры.
Ну и, конечно, обсудили качество. Что такое precision, recall, NDCG на практике, как собрать свой ground truth и как сравнивать конфигурации поиска без мучительных A/B-экспериментов на пользователях. И почему почти всегда, улучшая одну метрику, ты неизбежно просаживаешь другую — и с этим просто приходится жить.
Полезные ссылки:
https://testmysearch.com/my-books.html
Подписывайтесь на канал «Организованное программирование» в Telegram: https://ttttt.me/orgprog
– Список подкаст-платформ (Apple Podcast, Google Podcast, Spotify, Яндекс.Музыка и другие): https://podcast.ru/1734325321
🔹 Telegram-канал Организованного Программирования: https://t.me/orgprog
🔹Хекслет Клуб в Telegram https://t.me/HexletClubBot
🔹Курсы по программированию — начни учиться уже сегодня: https://ru.hexlet.io/courses
#программирование #разработка #кириллмокевнин #подкаст #организованноепрограммирование #поисковыесистемы #invertedindex #векторныйпоиск
Как работает Search Engine под капотом: ранжирование и релевантность
(00:00) - Введение. Поиск сложнее, чем вы думаете - 25 лет опыта за 2 часа
(01:07) - От Сфинкса до Elastic: как менялся рынок поисковых систем
(06:00) - Теория или практика? Как правильно входить в сложные системы
(14:42) - Как SEO и маркетплейсы ломают алгоритмы
(19:55) - SEO началось с манипуляций: как PageRank всё изменил
(31:12) - Архив за 100 лет и гибридный поиск на практике
(44:05) - Гибридный поиск — будущее индустрии
(01:01:04) - Транслитерация и языковые ловушки
(01:13:53) - Как искать Go или C и не сломать поиск
(01:21:54) - LLM как ревизор поисковой системы
(01:28:19) - Локальные поисковики против Google
(01:32:21) - Китайский без пробелов и другие языковые боли
(01:36:45) - Заключение. Поиск — это компромисс между математикой и бизнесом
★ Support this podcast ★