mastodon.world is one of the many independent Mastodon servers you can use to participate in the fediverse.
Generic Mastodon server for anyone to use.

Server stats:

8.9K
active users

#lucene

0 posts0 participants0 posts today

Погружение в недра Apache Lucene: архитектура индекса, выполнение поиска и репликация данных

Это перевод моей статьи в моем блоге про архитектуру Apache Lucene , про одну из самых известных библиотек реализации поискового индекса. Elasticsearch и Solr, широко известные реализации масштабируемых решений для поиска, они используют эту библиотеку под капотом. Я работаю над созданием решений для поиска в сфере электронной коммерции, и постоянно сталкиваюсь с этой библиотекой при повседневной работе. Apache Lucene реализует большую часть необходимого функционала для построения поисковой системы. Начиная с процесса токенизации, который извлекает канонические формы слов в виде токенов, продолжая полной реализацией инвертированного индекса, и завершая репликацией сегментов в режиме близком к реальному времени. Количество практически полезных фичей, реализованных за два десялилетия существования библиотеки, колоссально. Эта библиотека интегрирует знания из лингвистики, математики и компьютерных наук. Инвертированный индекс Apache Lucene реализует архитектуру инвертированного индекса. На уровне реализации логический индекс содержит коллекцию неизменяемых сегментов, хранящихся как файлы в файловой системе. Каждый сегмент сам по себе является инвертированным индексом. Такой индекс — это структура данных словаря с терминами в качестве ключей и данными по размещению (postings) в качестве значений. Постинг — это список идентификаторов документов и количеств вхождений термина в данном документе. Этот словарь использует Finite State Transducers, FST [1] для поиска терминов, что можно представить как нечто похожее на отсортированные списки с пропусками [2]. Такая отсортированная навигационная карта является краеугольным камнем для эффективного поиска по огромным обьемам документов. Lucene также очень эффективен в использовании памяти. Среди прочих алгоритмов, он использует алгоритмы кодирования разницами для сжатия идентификаторов документов в постингах [3]. Упрощенно идея этого сжатия заключается в сортировке списока целых чисел и сохранения дельт между ними. Это также повышает производительность операций ввода-вывода диска.

habr.com/ru/articles/852666/

ХабрПогружение в недра Apache Lucene: архитектура индекса, выполнение поиска и репликация данныхЭто перевод моей статьи в моем блоге про архитектуру Apache Lucene , про одну из самых известных библиотек реализации поискового индекса. Elasticsearch и Solr, широко известные реализации...
Replied in thread

Vous sauriez s'il existe une option dans une Lucene Query de Grafana de passer une variable de majuscule à minuscule ou inversement ?

J'ai une variable Grafana que le user doit renseigner en majuscule mais qui doit être exploitée en minuscule dans des graphiques...

Continued thread

approximate kNN search:
* good estimate
* you can control speed vs precision through the num_candidates setting (basically overfetching on the approximation for getting very close to exact kNN)
* #lucene uses HNSW: think of it as highways, roads & streets 🛣️ 3/9