Какой вопрос - такой ответ

11.09.2012

Продолжимте взвешивать блоги. Допустим индекс мы построили, настроили и  обновляем.
/Заметка: инженерные вопросы индексирования масивов текста размером с LiRu в разрезе автор.пост/комент обсудим на следующем этапе, буде интерес. Пока отсылаю заинтересованных к источнику /

Как  жеж теперь спросить  (сформулировать запрос) ? Обычные методы запроса к поисковикам не меняются с прошлого века -  вводим строку  на выходе получаем список документов отсортированных  по  "ценности " (релевантности).  Дополнительные возможности могут быть такими:

  • запрос по всем словам в строке, по нескольким , по точному совпадению , за исключением определённых слов;
  • ограничение области поиска (всякие разные, для поиска по блогам отобор по автору, в случае патентов - по заявителю и т.д.);
  • в некоторых системах реализван режим поиска по синонимам (~ для Google);
  • ещё много всяких  фишек.

Среди них есть полезная "мелочь", которой редко пользуются, найти страницы " похожие"  на заданную (related: для Google). Чем-то похожим (по идее) предлагается пользоваться для поиска  авторов  подходящих блогов.  На мой взгляд, самый простой и удобный способ спросить (отобрать) - это запрос типа - выбрать (сколько то) авторов, похожих (не лицом, вестимо а текстом) на этого. Или по другому - выбрать авторов, чей текст похож на следующий фрагмент (прилагается). А уж как выбрали, можем их сортировать (по звёздочкам, числу ПЧ, возрасту и росту).

Звучит (пока) не страшно. Вопрос как сравнить массивы текста? - определённо как-то можно, Google же сравнивает.  Кроме того, есть такая интересная задачка, как определение авторства .  Занимаются ею давно и лингвисты (с математиками)  накопали, наверное,  полезной математики сравнения. Чтобы не быть голословным (а даже если и вдруг..проекты то завиральные) - отсылаю заинтересованных к источнику Лингвоанализатор и всему, что найдется по ссылкам.  К  сожалению, автор методики и программы (доступной в исходниках!) умер  в 04.  И даже если вычисление относительной энтропии текстов вам не понравится - там есть ещё много чего другого.