Гитика это исследовательский проект, связанный с созданием систем, использующих онтологии для извлечения информации, в частности, систем концептуального поиска и разработки соответствующих моделей взаимодействия с клиентом.

Gitika это вариант поисковой системы созданной в рамках проекта.

С поправкой на несопоставимые масштабы системы (количество серверов и, соответственно, число индексируемых сайтов), клиент получает функциональные возможности поиска сравнимые с предоставляемыми традиционными системами (Google, Yandex, Bing), но здесь привычной поиск по ключевым словам сочетается с концептуальным поиском.

В этом смысле, Gitika "не хуже" прочих поисковых систем, и лучше их настолько, насколько пользователю нужен концептуальный поиск.

Отличие концептуального поиска от традиционного можно проиллюстрировать следующими примерами:

  • если мы набираем в поисковом запросе "органы власти субъектов Российской Федерации", традиционная система выдаст документы, содержащие данный набор слов. Система концептуального поиска, покажет документы о российских губернаторах, президентах республик, мэрах, региональных структурах, относящихся к данному понятию.
  • документ, описывающий "столкновение автомобилей в Ливерпуле", с точки зрения концептуального поиска вполне релевантен запросу "ДТП в Великобритании", и не имеет никакого отношения к этому запросу при обычном поиске по ключевым словам.

При наборе поискового запроса система, прежде всего, спрашивает пользователя можно ли интерпретировать известные ей словосочетания как понятия. Если, пользователь согласен, можно смело смотреть выданные результаты поиска. Если нет, делается уточняющий запрос, и выдаются документы соответствующие поиску по ключевым словам.

Так, например, если пользователь набрал "ЖКХ", система выдаст документы, связанные с жилищно-коммунальным хозяйством, в частности, о водоснабжении, водоотводе и пр. Если пользователь не согласен с этой интерпретацией, он может снять соответствующий значок и получить все статьи, содержащие слово из трех букв (ЖКХ).

В текущей версии Gitika различает около 600 тысяч понятий, которые диагностирует, используя более 3-х миллионов слов и словосочетаний. Исходную информацию об актуальных понятиях и их взаимосвязях система получает из множества источников, но наибольший вклад в пополнение базы знаний вносит экстракция данных из Википедии. Хотя данная версия, системы ориентирована только на русскоязычные тексты, применяемый метод позволяет также работать с любыми языками, представленными в Википедии. В этом смысле можно говорить, что пополнением базы знаний системы занимаются несколько миллионов соавторов.

Данная версия ежечасно индексирует около 3000 источников интернета. Индекс включает материалы с начала 1994 года по настоящее время - более 180 млн.документов из более чем 7000 источников.


Copyright © 2007-2018 ООО «РелТим»