МЕТОДЫ И СРЕДСТВА СЕГМЕНТАЦИИ ПОЛЬЗОВАТЕЛЕЙ WEB-САЙТОВ часть 2

МЕТОДЫ И СРЕДСТВА СЕГМЕНТАЦИИ ПОЛЬЗОВАТЕЛЕЙ WEB-САЙТОВ часть 1
МЕТОДЫ И СРЕДСТВА СЕГМЕНТАЦИИ ПОЛЬЗОВАТЕЛЕЙ WEB-САЙТОВ часть 2

3. Сравнительный анализ основных подходов к сегментации пользователей сайтов
Рассмотрим существующие на сегодняшний день основные подходы к сегментации, принятые в Web Usage Mining [Markov, 2007] для анализа пользователей, и методы сегментации потребителей, используемые в маркетинговых исследованиях [Weinstein, 2004]. В зависимости от способа разбиения на сегменты, их можно разделить на методы сегментации «с учителем», «с подкреплением» и «без учителя».
3.1. Методы сегментации «с учителем»
Для методов сегментации «с учителем» характерна частичная предопределённость целевых метрик и наличие обучающих образцов [Mason, 2006], [Markov, 2007]. Получаемые сегменты основаны на некоторой предопределённой классификации, которая может быть простой (например, пол мужской/женский) или более сложной (например, «Первые пользователи с отменённой покупкой телевизора»). Разбиение выполняется на основе гипотезы об интересности, важности и значительности будущих сегментов.
Большинство существующих на сегодня средств анализа пользователей сайтов, такие как Google Analytics, Coremetrics, предлагают детерминированные подходы к сегментации с использованием статистических методов [Liu, 2008]. При этом данные могут обобщаться в предопределённые блоки вроде дней посещений, отдельных сессий, посетителей или доменов, из которых поступил запрос пользователя.
Как правило, методы обучения «с учителем» выполняются за 3 шага [Markov, 2007]: 1) составляется тренировочный набор данных с предварительно классифицированными значениями целевых переменных в дополнении к независимым переменным; 2) путём обучения с помощью тренировочного набора данных создаётся и проверяется модель классификации; 3) полученная модель применяется для классификации новых пользователей.
К сегментации «с учителем» относят [Weinstein, 2004], [Markov, 2007], [Liu, 2008] следующие методы:
• частично или полностью предопределённые ассоциативные правила;
• деревья решений;
• наивный байесовский классификатор;
• факторный, дискриминантный и регрессионный статистический анализ;
• метод опорных векторов (Support Vector Machines);
• автоматический определитель взаимодействия по критерию хи-квадрат (Chi-Square Automatic
Interaction Detection);
• многомерное шкалирование;
• совместный анализ (Conjoint Analysis);
• моделирование структурными уравнениями (Structural Equation Modeling).
Ассоциативные правила особенно распространены в рекомендательных системах и позволяют найти Web-страницы, которые вместе посещаются, и группы продуктов, которые вместе покупаются [Liu, 2008]. Они представляют только локальный шаблон для некоторых записей и переменных сегментации, и не могут считаться всеобщими и рассматриваться в качестве строгой модели [Markov, 2007]. Пример ассоциативного правила: «если время просмотра страницы Default.html небольшое, то длительность сессии тоже будет небольшой с достоверностью 80,825% и подтверждением в 22,989% записей».
Факторный анализ применяется к большому количеству переменных с целью их сокращения до ключевых факторов, что позволит лучше понимать маркетинговую ситуацию [Weinstein, 2004]. В маркетинге применяется две его основных разновидности: 1) R-факторный анализ, сокращающий массив данных путём поиска подобий в значениях переменных; 2) Q-анализ, ищущий группы подобных потребителей.
Множественный регрессионный анализ полезен для анализа ассоциаций между переменными сегментирования [Малхорта, 2002]. Более точную классификацию даёт метод опорных векторов за счёт выявления нелинейных зависимостей между переменными сегментирования [Markov, 2007]. Его недостатком является вычислительная сложность обучающего алгоритма.
Автоматический определитель взаимодействия по критерию хи-квадрат – наиболее общий классификатор. Он категоризирует все независимые непрерывные и дискретные целые переменные по подобию и определяет результирующие категории для переменных в виде целых групп [Weinstein, 2004].
Дискриминантный анализ используется для исследования разницы между сегментами или предсказания возможности членства в группах, например, сравнения поклонников марки с противниками, опытных пользователей с новичками и т.п. Он выполняется с помощью специальных уравнений, называемых дискриминантными функциями [Weinstein, 2004], и используется для анализа данных в том случае, когда зависимая переменная категориальная, а независимые переменные – интервальные [Малхорта, 2002].
Многомерное шкалирование – это маркетинговый метод графического представления атрибутов продуктов, основанного на восприятии и предпочтениях пользователей. Целью метода является идентификация рыночных сегментов с близкими потребностями и взглядами относительно продуктов [Weinstein, 2004].
Ещё одним используемым в маркетинге методом является совместный анализ (Conjoint Analysis) – основанный на измерений вклада различных атрибутов продукта в принятие решения о покупке. Он моделирует предпочтения или реакции пользователей в терминах набора атрибутов товара. Затем эти предпочтения ранжируются, оцениваются и группируются в однородные сегменты [Weinstein, 2004].
Моделирование структурными уравнениями (Structural Equation Modeling) — это подход к моделированию, раскрывающий связи между множеством наблюдаемых переменных в терминах скрытых переменных [Weinstein, 2004].
Частным случаем сегментации «с учителем» является сегментация «с подкреплением» (reinforcement learning), когда для каждого прецедента имеется пара «ситуация, принятое решение». К этому виду относят, в частности, эволюционное моделирование [Снитюк, 2008].
3.2. Методы сегментации «без учителя»
Для сегментации «без учителя» [Weinstein, 2004], [Markov, 2007], [Mason, 2006], [Liu, 2008] применяют:
— кластерный анализ;
— ассоциативные правила;
— нейронные сети;
— разведовательный анализ данных (Exploratory Data Analysis).
Кластеризация обычно применяется первой во время анализа данных с отсутствующими предопределёнными значениями метрик [Mason, 2006]. При этом переменные не разделяют на зависимые и независимые, и проверяются взаимозависимые связи всего набора переменных [Малхорта,
2002]. Общая цель кластерного анализа: максимизировать подобие членов в пределах каждого кластера и максимизировать разницу между кластерами. Недостатком этого метода является опасность создания статистически правильных, но бессмысленных сегментов в случае неправильных начальных данных.
Нейронные сети — более мощный инструмент анализа, однако его сложнее настраивать и интерпретировать результаты по сравнению с кластерным анализом [Mason, 2006].
Также для предварительной подготовки данных о действиях пользователя на сайте может быть использован разведывательный анализ данных [Markov, 2007]. Этот вид статистического анализа позволяет выполнить пробную оценку набора данных, уменьшить его размерность, проверить взаимосвязи между переменными и выявить интересуемые подмножества записей журнала посещений. Результаты анализа отображаются в виде простых графиков и таблиц для поддержки принятия решения о выполнении более глубокого исследования с использованием специальных методов сегментации.
4. Показатели качества сегментации
Не все схемы сегментации полезны с точки зрения маркетинга. Согласно работам [Токарев, 705], [Weinstein, 2004], [Kotler, 2006] в общем случае сегменты должны быть:
— измеряемыми;
— однородными в пределах сегмента и разнородными между сегментами;
— достаточно большими и прибыльными; для этого они должны полностью охватывать однородную группу пользователей;
— доступными, то есть должна быть возможность доступа и обслуживания пользователей сегментов;
— практичными, то есть пригодными к использованию эффективными маркетинговыми программами привлечения и обслуживания потребителей;
— стабильными, то есть оставаться принципиально различимыми и по разному отвечать на разные комбинации маркетинговых элементов и программ.
5. Этапы сегментации пользователей Web-сайта
В различных областях, использующих сегментацию пользователей — Web usage mining, Web-аналитика и маркетинг — существуют свои методики её выполнения. Так, в маркетинге сегментация потребительских рынков выполняется в три этапа [Токарев, 705]: 1) выбор критериев (переменных) сегментации; 2) выбор метода сегментации; 3) выбор целевых сегментов. Этих шагов недостаточно для сегментации пользователей Web-сайтов. Во-первых, в данном случае при выборе метрик и методов необходимо учитывать область применения результатов сегментации: это может быть повышение эффективности работы сайта, его персонализация, или же уточнение потребительских сегментов. Во-вторых, первичные данные о пользователях, сохраняемые в журналах серверов, непригодны для непосредственного использования и нуждаются в дополнительной обработке. Чтобы их использовать, согласно [Jiawei, 2006], нужно:
1) предварительно их очистить от несущественной информации вроде загрузок изображений или же записей про посещение сайта Web-агентами, сжать и трансформировать в удобный для поиска и анализа важной и полезной информации;
2) из этих данных построить многомерный массив, где в качестве измерений будут использованы URL, время, IP-адреса, информация о содержании посещённых Web-страниц, дополнительные данные о пользователе из журналов Web-приложений, чтобы затем иметь возможность определить характеристики и последовательности действий пользователей, вычислить поведенческие метрики сайта и выполнить сегментацию.
Эти вопросы в значительной степени учтены в методике Cross-Industry Standard Process for Data Mining (CISP DM), которая предложена совместно компаниями SPSS, NCR, DaimlerChrysler и OHRA. В контексте данной методики [Markov, 2007] и с учётом необходимости дополнительной обработки первичных данных о пользователе [Liu, 2008], сегментация пользователей может выполняться как итеративная и адаптивная последовательность фаз:
1. Фаза определения бизнеса или постановки исследования.
2. Фаза сбора, анализа и выборки данных.
3. Предварительная очистка, объединение и интеграция данных.
4. Фаза моделирования и сегментации.
5. Фаза оценки результатов.
6. Фаза применения результатов.
Некоторые фазы сегментации могут зависеть от результатов предыдущих фаз. В свою очередь любая фаза может быть повторно выполнена с новыми условиями, если этого будет нужно для удовлетворительного выполнения последующих фаз. Например, в зависимости от поведения и характеристик модели сегментации может появиться необходимость вернуться к фазе подготовки данных для их дополнительной очистки перед фазой оценки результатов.
6. Средства сегментации
Инструменты сегментации можно разделить на предлагаемые в сети WWW и представленные на рынке программного обеспечения. Первые, как правило, призваны автоматизировать работу Web-аналитиков, и предлагают сегментацию для углублённого анализа аудитории сайта. Сфера их использования ограничена, так как у исследователя нет доступа непосредственно к статистическим данным, метрики уже разбиты на предопределённые категории и для сегментации применяются простые методы обучения «с учителем». К таким службам можно отнести бесплатный сервис Google Analytics, и коммерческие Coremetrics, Nedstat и др. Они имеют много общего: большое количество предопределённых сегментов, которые можно дополнить собственными, объединить и, определив граничные условия, использовать для фильтрации данных, собранных с помощью собственного счётчика посещений. Они так же позволяют создавать отчёт о характеристиках отфильтрованных пользователей за некоторый период, сравнивать их характеристики с другими группами посетителей.
При наличии массивов статистических данных о пользователях, можно выполнить сегментацию с помощью представленных на рынке коммерческих средств профессионального статистического анализа вроде Statistica, библиотеки «Web Mining for Clementine» SPSS, или попробовать самостоятельно выполнить расчёты с помощью библиотеки Machine learning framework в среде Mathematica от Wolfram Research, пакета анализа данных MS Excel. Также есть возможность разработать собственную программу сегментации на языке Java, используя специальную открытую коллекцию алгоритмов машинного обучения WEKA.

Выводы
Вместе с продолжающимся ростом и распространением электронной коммерции и других информационных систем, основанных на WWW, накапливаются и коллекции первичных слабоструктурированных данных об историях посещений и характеристиках пользователей, собираемых Web-сайтами во время ежедневных операций. Анализ подобной информации может помочь определить реальную информацию о клиентах, составить маркетинговые стратегии для продуктов и услуг, оценить эффективность компаний по продвижению товаров, повысить продуктивность Web-приложений, персонализировать содержание. Одним из видов такого анализа является сегментация пользователей Web-сайтов.
В статье проанализирован характер данных о пользователях WWW и метрики сайтов в контексте их использования для сегментации посетителей Web-сайтов, предложена классификация метрик, рассмотрены основные пути и средства сбора и визуализации сведений о пользователях. Дан сравнительный анализ основных методов сегментации «с учителем» и «без учителя», а также средств сегментации различной сложности, в том числе Google Analytics, Web Mining for Clementine. Также рассмотрены основные показатели качества сегментации и предложен адаптированный вариант процесса CISP DM для сегментации.
  • +3
  • 3 ноября 2009, 18:04
  • yxom

Комментарии (0)

RSS свернуть / развернуть

Только зарегистрированные и авторизованные пользователи могут оставлять комментарии.