Интернет-поиск
Крибрум использует собственные технологии для сбора данных в социальных медиа.

Крибрум использует собственные технологии поиска и сбора данных. Полный контроль над поиском информации позволяет добавлять в мониторинг новые площадки по запросу клиентов. При этом отсутствие зависимости от других систем и поставщиков технологий гарантирует бесперебойную работу системы.

Специалисты Крибрума начали работать в области Интернет-поиска задолго до основания самой компании в 2010 году. Сегодня их уникальный опыт сфокусирован на развитии технологий сбора данных в социальных медиа.

Чем поиск в соцмедиа отличается от поиска по сайтам

Задача мониторинга значительно отличается от задачи поиска по Интернету.

Поисковая система общего назначения планомерно индексирует страницы в Интернете, выдает ссылки на них по по запросу пользователя и стремится к максимальному охвату источников. Однако оперативность индексирования не является ключевым требованием. Гораздо важнее правильно угадать истинный интерес пользователя и выдать ему самый точный ответ на поисковый запрос.

К системе сбора данных в соцмедиа предъявляются другие требования: оперативность, полнота и релевантность запросу. Система должна также выделять атрибуты сообщения, такие как автор, время публикации, география и пр. В отличие от поисковика система мониторинга не выдает всю ветку форума, где в одном из сообщений упомянут объект. Она собирает и категоризирует упоминания в проекте для быстрого анализа данных.

Полный сбор и независимая индексация

Чтобы обеспечить максимальный охват и релевантность, Крибрум собирает все доступные публичные данные с русскоязычных площадок — как крупнейших платформ (ВКонтакте, Одноклассники, Facebook, Twitter и др.), так и отдельных источников.

Крибрум фильтрует до 95% всех нерелевантных высказываний, оставляя только нужные для анализа упоминания. Система самостоятельно индексирует все собранные данные и показывает в соответствующих проектах сообщения, относящиеся к определенным объектам мониторинга.

При сборе данных система определяет эмоциональную окраску высказываний, помечая эмоциональную окраску сообщения: нейтральная, негативная или положительная. Точность идентификации — от 80% до 95%.

Источники данных

Крибрум мониторит все виды соцмедиа и прессы: социальные сети, блоги, форумы, тематические порталы, микроблоги, интернет-СМИ, видеохостинги, радио, телевидение и бегущие строки на ТВ, печатная пресса, информагентства.

Всего в мониторинге сегодня находятся:

  • 850+ тыс. площадок, в т.ч. весь русскоязычный Twitter, ВКонтакте, Instagram, а также значительная часть Facebook, ЖЖ, Одноклассников;
  • 250+ млн отдельных аккаунтов;
  • 20+ тыс. онлайн-СМИ;
  • 300 тыс. роликов;
  • 7 млн блогов.

Мы постоянно добавляем новые источники по запросам клиентов. Как правило это региональные и узкоспециализированные ресурсы, отслеживание которых важно для расширения охвата мониторинга и разработки новых отраслевых решений.

Оперативность сбора

Специально для работы с часто обновляемыми площадками специалисты Крибрума разработали алгоритмы быстрого поиска. С их помощью сообщения, например, из Twitter попадают в систему уже через 15 секунд после публикации.