• Фильтр удаления
рекламы из почтовых сообщений (естественно, само физическое сообщение остается таким же, просто перед индексированием
текст рекламы удаляется, поэтому в индекс он не попадает). Реклама вроде "Do You Yahoo?!", которая вставляется
некоторыми почтовыми серверами в конец письма.
• Средство "Извлечение данных". Позволяет из уже
проиндексированных текстов извлекать e-mail, веб-адреса, смайлики (включая азиатские, у них они, оказывается, другие,
вот, например: *_*, слева и справа глаза, а черточка - это нос, то есть у них они не на боку лежат, а прямо стоят. Вот
где проявляется отличие между Востоком и Западом :), ISBN от книг, телефонов и прочее.
10. Средство
"Контексты употребления слов". Допустим, мы хотим узнать, в каких фразах у нас используется слово
"язык". Для этого вводим запрос:
* язык
и программа показывает фразы из
проиндексированных текстов: русский язык, английский язык и т. п. То есть если при обычном поиске мы заранее знаем,
какие слова ищем, то при поиске контекстов мы узнаем, какие слова у нас встречаются возле заданного слова или фразы.
Можно вводить и более сложные запросы:
*ый *ать *
Например, для LibRu программа по
этому запросу выдала такие варианты:
который двадцать лет
способный превращать в
готовый сделать
все
• В настройках индекса есть секция "Разбиение файлов". Это пригодится прежде всего тем
пользователям, у которых много Фидо-сообщений, сохраненных в одном объемном файле. Задаем строку разбиения, и Архивариус
3000 сначала разделяет большой текст на части, а затем уже индексирует как отдельные сообщения. В результате работа с
такими базами сообщений значительно упрощается.
• Средство "Поиск похожих документов". Позволяет
находить как точные копии (совпадение байт в байт либо совпадение с убранными пробелами), так и похожие документы, в
текст которых были внесены незначительные изменения (добавили новые слова, убрали или заменили букву в слове).
• Наконец, еще одна возможность - "Поиск литературы". Пока распознаёт только 4400 произведений.
Распознаёт именно по содержанию. То есть, если мы внесем небольшие изменения в текст, например уберем название или,
наоборот, добавим рекламу (пусть даже в середину текста - между абзацами), программа все равно определит, что это Артур
Конан Дойль "Пляшущие человечки". Книг, конечно, в мире больше, чем 4400, но потихоньку можно будет и
добавить. :)
Думаю, всем понятно, что Архивариус 3000 из поисковой индексной системы эволюционировал в мощнейший
аналитический инструмент data mining. Признаюсь, о таком феерическом перевоплощении даже не смел и мечтать! Браво,
Евгений!
Мне остается лишь произнести заключительную фразу, которая обретает особый смысл в устах матерого
бакунианца: 395 рублей, заплаченных за Архивариус 3000, без малейшего сомнения, станут самой эффективной IT-инвестицией
вашей жизни! Не говоря уж о том, что столь смехотворная цена за ТАКОЙ колоссальный инструмент - it’s a steal
[Чистое воровство (англ.)]!