



Когда гугл не справляется: личный поисковик за 60 дней
Вилсон Линь, инженер‑программист, решивший построить собственный поисковик уровня Google или «Яндекса» буквально с нуля, делится подробностями в своём блоге.
Идея родилась из недовольства тем, во что превращаются современные поисковые системы. По мнению Линя, качество поиска стремительно падает: растёт объём SEO‑спама, а действительно полезного и содержательного контента всё меньше. Его не отпускал вопрос: почему поисковики не могут стабильно выдавать материалы высшего качества?
Ещё одна больная точка — производительность: большинство поисковых систем спотыкаются на сложных поисковых запросах, выдавая результаты, которые лишь отчасти соответствуют задуманному. Линь же хотел сделать поисковик, который смог бы отвечать даже на самые запутанные вопросы.
И ему это удалось: созданная им система уверенно обрабатывает и длинные, и многоступенчатые запросы, не теряя точности.
Поисковик — это сплав множества областей знаний: информатики, лингвистики, онтологии, обработки естественного языка, машинного обучения, распределённых систем и инженерии производительности. Линь признаётся: «Мне было интересно, сколько знаний я смогу охватить за короткий срок. Да и сама мысль о том, что у меня будет собственный поисковик, казалась забавной».
Ключевые особенности его проекта впечатляют.
Он сгенерировал в общей сложности 3 миллиарда SBERT-эмбеддингов, задействовав кластер из 200 GPU.
В пиковые моменты сотни краулеров «переваривали» до 50 000 страниц в секунду, а поисковый индекс вырос до 280 миллионов записей.
Время отклика от запроса до выдачи — ~500 мс.
RocksDB (система баз данных) и HNSW (метод приближенного поиска на основе графов) распределены по 200 ядрам процессора, 4 ТБ оперативной памяти и 82 ТБ SSD‑накопителей.
И да — попробовать живую
Читать на habr.com