МЕТОДЫ И СРЕДСТВА СЕГМЕНТАЦИИ ПОЛЬЗОВАТЕЛЕЙ WEB-САЙТОВ часть 1

МЕТОДЫ И СРЕДСТВА СЕГМЕНТАЦИИ ПОЛЬЗОВАТЕЛЕЙ WEB-САЙТОВ

МЕТОДЫ И СРЕДСТВА СЕГМЕНТАЦИИ ПОЛЬЗОВАТЕЛЕЙ WEB-САЙТОВ часть 1
МЕТОДЫ И СРЕДСТВА СЕГМЕНТАЦИИ ПОЛЬЗОВАТЕЛЕЙ WEB-САЙТОВ часть 2

Автор: Дмитрий Ночевнов
Аннотация: В статье проанализирован характер данных о пользователях в сети WWW и метрики
сайтов с точки зрения возможности их использования для сегментации посетителей Web-сайтов, предложена классификация таких метрик, рассмотрены основные пути и средства сбора и визуализации сведений о пользователях. Дан сравнительный анализ основных методов сегментации «с учителем» и «без учителя», а также средств сегментации различной сложности, в том числе Google Analytics, Web Mining for Clementine. Рассмотрены основные показатели качества сегментации и предложен адаптированный вариант процесса Cross-Industry Standard Process for Data Mining для сегментации.
Ключевые слова: Web user segmentation, Web usage mining, Internet marketing.
ACM Classification Keywords: H.2.8 Database Applications — Data mining. J.1 Administrative data processing — Marketing.
Conference: The paper is selected from XVth International Conference “Knowledge-Dialogue-Solution” KDS-2 2009, Kyiv, Ukraine, October, 2009.
Введение
В Интернете представлены Web-сайты различных типов — для электронной коммерции, для выявления потенциальных потребителей, службы работы с покупателями, основанные на рекламе информационные сайты, информационные сайты, основанные на подписке и брендовые сайты. Их пользователи выступают в роли потребителей товаров и услуг, информация о которых размещена на сайте, и поэтому для исследования этих пользователей есть смысл использовать соответствующие маркетинговые методы и модели, наработанные на протяжении многих десятилетий. Однако особенности поведения человека в Интернете, характер собираемых о нём данных и природа самой сети заставляют маркетологов и предпринимателей искать более эффективные пути исследования посетителей Web-сайтов, более точного анализа и прогнозирования их поведения с целью повышения эффективности планирования бизнеса и продвижения товаров и услуг через WWW. Одним из методов таких исследования является сегментация пользователей.

1. Определение и назначение сегментации пользователей Web-сайтов
Сегментация пользователей (другое название Profile Mining) заключается в идентификации и анализе отдельных групп пользователей со схожей активностью, потребностями, желаниями, характеристиками, отличающихся устойчивыми признаками и реакцией на предложения, с целью определения размера и значения маркетинговых сегментов [Токарев, 705].
Сферами применения сегментации пользователей сайтов являются:
1) оптимизация производительности сайта за счёт выявления и исправления возникающих у посетителей из различных частей аудитории сложностей в работе с сайтом, учёта их предпочтений [Burby, 2007];
2) построение рекомендательных систем [Markov, 2007] и персонализация Web-страниц;
3) создание целевых страниц для различных сегментов посетителей с целью улучшения конверсии сайта
[Burby, 2007];
4) в целевом маркетинге [Weinstein, 2004] для выявления и описания различных характеристик групп пользователей, и применения к ним маркетинговых стратегий и стратегий разработки продуктов с целью повышения продаж, лучшего выявления, понимания и покрытия целевых рынков;
5) для более точного вычисления значений ключевых индикаторов продуктивности бизнеса (KPI) благодаря учёту сегментов и, соответственно, выявления реального прогресса организации в достижении собственных бизнес-целей [Burby, 2007].
С учётом двух основных составляющих сегментации [Mason, 2006] — способа сегментации и базы, относительно которой выполняется сегментация — были определены следующие цели данного исследования:
1) выполнить обзор базы сегментации пользователей сайтов и источников статистических данных;
2) дать сравнительный анализ основных методов сегментации;
3) выделить показатели качества сегментации;
4) определить основные этапы сегментации;
5) выполнить обзор существующих средств сегментации.
Определим сначала перечень данных о посетителях, которые могут быть собраны в базе сегментации, а также используемые для этого метрики.

2. База сегментации пользователей Web-сайтов и источники статистических данных
2.1. Характер данных о пользователях Web-сайтов
Во время работы пользователя в WWW вместе с запросом и через счётчики посещений на сайт передаются первичные сведения о пользователе (primary data), такие как системный язык, адрес источника перехода на сайт, адресе компьютера и др. Эти сведения, вместе с информацией о сделанных пользователями действиях, могут быть записаны в специальные слабоструктурированные журналы сервера, и позже проанализированы. Кроме этого в профайлах пользователя в базе данных сайта, а также в журналах работы Web-приложений обычно сохраняются дополнительные данные о пользователе (secondary data) [Burby, 2007]: сведения из регистрационной формы, рейтинги продуктов, статей, последние покупки и т.п., которые позволяют установить явные или скрытые предпочтения пользователя.
В Web Usage Mining принята следующая терминология [Liu, 2008]:
• просмотры страниц (pageview) – обобщённое представление коллекции Web-объектов, отображаемых в Web-браузере пользователя во время выполнения отдельного действия (например, щелчка мышкой на рекламном объявлении, чтения статьи, просмотра товара и добавление его в корзину);
• сессии (sessions) – последовательность просмотров Web-страниц отдельным пользователем на протяжении одного визита. Сессии могут быть в дальнейшем обобщены путём выбора подмножества просмотров интересуемых страниц в пределах сессии;
• эпизоды (episodes) – подмножество последовательностей сессий, обобщающих семантически или функционально связанные просмотры страниц.
Функцию сохранения журналов запросов поддерживает большинство Web-серверов. Счётчики посещений, вместе со средствами просмотра отчётов о собранных данных, предоставляются многими Web-службами, в том числе Google Analytics, Coremetrics, W3Counter, SpyLog, Bigmir)Net и т.п.
2.2. Классификация переменных сегментации пользователей сайтов
В области Web-аналитики и Web Mining при сборе данных о пользователях используются специальные метрики сайтов. Они составляют базу сегментации и могут быть соотнесены с некоторыми маркетинговыми переменными сегментации. Например, такой поведенческой переменной, как частота покупок, может быть поставлена в соответствие метрика «количество сделанных пользователем покупок на сайте», а язык потребителя можно считать совпадающим с системным языком, указанным в его HTTP- запросах.
Рассмотрим подробнее метрики сайтов, используемые в области Web-аналитики, с точки зрения возможности их использования в качестве переменных сегментации пользователей.
В маркетинге при составлении схемы сегментации потребителей обычно используют две группы переменных [Kotler, 2006]:
1) описательные характеристики:
• географические: страна, район, область проживания и т.п.;
• демографические: возраст, пол, семейное положение, доходы, социальный класс и т.п.;
• психографические: тип личности и т.п.;
2) характеристики поведения, например способы использования продукта или торговой марки.
Эти группы переменных можно дополнить ещё тремя группами метрик сайтов:
1) сведения, передаваемые с компьютера пользователя автоматически во время посещения сайта
(«технические признаки пользователя» согласно [Пелещишин, 2007]), включающие в себя:
• данные о компьютере, передаваемые через поля заголовка HTTP-запроса: характеристики программного обеспечения, системный язык, источник перехода на сайт, поисковый запрос пользователя, который привёл на сайт или страницу, географическое расположение провайдера, Cookies и т.п.
• данные о компьютере, которые могут быть прочитаны из Web-браузера с помощью счётчиков посещений (встроенных в Web-страницы JavaScript-программ): характеристики монитора, история просмотров страниц в текущем сеансе работы браузера и др.;
2) дополнительная информация c сайта [Liu, 2008]: ключевые слова просмотренного содержимого и атрибуты интересуемых продуктов или услуг;
3) обобщённая Интернет-статистика:
— глобальная и региональная Интернет-статистика, которую можно найти на сайтах W3Counter, Bigmir)net, SpyLog и др.;
— метрики отраслевой статистики (benchmarking), включающие в себя сведения о посетителях сайтов в зависимости от их отраслевой принадлежности и предоставляемые такими Web-службами, как Google Ad Planner, Google Trends, Google Benchmarking, Coremetrics, ClickZ Stats, Fireclick и др.
Только небольшую часть описательных характеристик пользователей можно хотя бы приблизительно определить автоматически по косвенным показателям, таким как системный язык, место расположения Интернет-провайдера пользователя, предпочитаемые товарам, временя и суммы покупок. Дополнительную информацию могут дать комментарии пользователей и указанные ими рейтинги статей и продуктов. Точное определение описательных характеристик возможно только из открытых источников в Интернете или на самом сайте через форму регистрации пользователя, различные анкеты и голосования.
Большая часть принятых в маркетинге поведенческих характеристик, таких как ожидаемые выгоды от покупки, степень верности продукту, степень готовности купить продукт, отношение к продукту тоже с трудом поддаются автоматическому измерению и могут быть определены только косвенно или же самым пользователем. В тоже время из первичных данных о посещении сайта можно значительно точнее, чем с помощью традиционного маркетингового анкетирования, рассчитать частоту покупок и пользовательский статус (новичок, бывший, потенциальный, или постоянный пользователь). Кроме этого ассоциацией Web Analytics Association [Cutroni, 2008] предложено несколько десятков дополнительных метрик, учитывающих посещаемые пользователем страницы и выполняемые им действия, внутренние и внешние источники перехода на сайт, длительность визитов, среднее количество просмотров страниц за визит, количество посещений целевых страниц и целевых действий (покупок, подписок, кликов на рекламные ссылки и т.п.). В частично обновлённом и дополненном виде эти метрики поддерживаются многими Web-аналитическими порталами, среди которых Google Analytics, Coremetrics и др.
Большинство Web-метрик имеют не Гауссовский закон распределения [Clifton, 2008], а случайный. Из-за этого полученные без сегментации значения могут быть неверными. Причина этого в том, что собранная Интернет-статистика включает в себя одновременно как сведения о новых пользователях, так и о тех, которые вернулись на сайт, кто только ознакамливается с продуктами, о покупателях, сотрудниках и конкурентах фирмы. Каждая из этих групп может, например, посещать сайт в разное время и день недели. В такой ситуации разбиение пользователей на группы и вычисление для каждой из них собственного значения среднего времени посещения будет целесообразнее.
  • +2
  • 3 ноября 2009, 18:00
  • yxom

Комментарии (1)

RSS свернуть / развернуть
+
+2
очень интересно, на сколько используеться в данном случае система гугл аналитикс ??
avatar

sp1r1t

  • 3 ноября 2009, 18:08

Только зарегистрированные и авторизованные пользователи могут оставлять комментарии.