Сравнение[править]
Не существует лучшего метода оценки качества кластеризации. Однако, в рамках исследования была предпринята попытка сравнить существующие меры на различных данных. Полученные результаты показали, что на искусственных датасетах наилучшим образом себя проявили индексы , и . На реальных датасетах лучше всех показал себя .
В Таблице 1 приведены оценки сложности мер качества кластеризации ( — число объектов в рассматриваемом наборе данных):
Из всех рассмотренных мер, меры , , и наиболее полно соответствуют когнитивному представлению асессоров о качестве кластеризации.
Инструменты кластеризации семантического ядра
Выделяют несколько видов семантических ядер:
- Семантическое ядро, помогающее в разработке контентного плана.
- Семантическое ядро для снятия позиций сайта.
- Семантическое ядро для Директа (или для вообще любой системы контекстной рекламы не только Яндекс.Директ, но и Гугл.ЭдВордс).
Все эти виды ядер немного отличаются друг от друга по своей структуре. Ядро, необходимое для разработки контентного плана, которое, образно говоря, вдохновляет создание контентного плана, подсказывает, какие еще темы в нем раскрыть, довольно большое по объему и наполненное. Ядро, предназначенное для снятия позиций сайта по ключевым запросам, может быть получено из первого семантического ядра в том числе путем кластеризации: объединение названий кластеров первоначального ядра и образуют собой большую часть ядра для позиций. К этой большей части имеет смысл добавить еще несколько содержательно значимых запросов – и ядро для позиций готово. В свою очередь, семантическое ядро для контекстной рекламы должно быть еще более широким, чем ядро для контентного плана, и кластеризация ему не нужна.
Таким образом, из трёх вышеприведенных видов семантических ядер нуждается в кластеризации только одно – ядро для контентного плана. Рассмотрим, какие виды кластеризации существуют для такого ядра:
- Кластеризация по близости поисковых выдач (SERP-ов).
- Кластеризация запросов по принципу «вопрос / не вопрос».
- Кластеризация по «сложности ключевого слова» (keyword difficulty).
- Кластеризация по частотности запросов.
Если коротко, в настоящее время именно кластеризация по близости SERP-ов является наиболее «промышленной», именно она приносит наибольший результат для увеличения широты охвата фраз семантического ядра. Все остальные виды кластеризации лишь дополняют, усиливают этот базовый вид кластеризации.
Наконец рассмотрим, какие же инструменты нам могут помочь провести кластеризацию семантического ядра онлайн:
- Topvisor.ru. Осуществляет кластеризацию по близости поисковых выдач (SERP-ов).
- SerpStat.com. Помогает вычленить из большого набора фраз те, которые являются вопросами, тем самым осуществив кластеризацию по принципу «вопрос / не вопрос». Кроме того, позволяет отфильтровать фразы с топонимами. Напомним, что кроме этого, основным предназначением сервиса является сбор семантических ядер конкурентов.
- Ahrefs.com. Позволяет оценить «сложность завоевания ключевого слова» (keyword difficulty – KD). Целесообразно использовать этот параметр вместе с частотностью фразы: это позволяет отобрать самые простые (легкие для завоевания) и одновременно сочные запросы из имеющихся, таким образом осуществив кластеризацию по принципу «легкие и среднечастотные / все остальные». Такой анализ семантического ядра сайта представляется очень перспективным в долгосрочной перспективе.
Эти сервисы по-разному работают на конечную цель данного вида кластеризации – создание качественного и исчерпывающе широкого контентного плана. Каждый из этих инструментов лучше способствует достижению цели по каким-то одним критериям и хуже по другим. То есть ни один из сервисов не выигрывает у другого «в одну калитку». Таким образом, эти сервисы образуют паретооптимальное множество. Итак, критерии отбора инструментов кластеризации семантического ядра:
- Полнота («равномерность») кластеризации.
- Быстрота создания программы-минимум.
- Акцент на трафик.
- Акцент на конверсию из трафика в покупатели.
Анализ показывает, что для различных классов ситуаций целесообразно применять различные комбинации вышеописанных сервисов и в различном порядке. Рассмотрим это более подробно.
Метод 2: Кластеризация
Основная идея — найти группы клиентов без использования предварительных гипотез о структуре клиентской базы, найти натуральные кластеры среди свойств клиентов исходя из имеющихся данных.
Существует набор методов (K-mean, C-mean, иерархическая кластеризация и т.п.), которые позволяют вам определить близость объектов друг друга на основании их свойств. В общем случае вы описываете вашего клиента как вектор, каждый элемент этого вектора описывает какую-то характеристику клиента (будь то выручка, кол-во месяцев сотрудничества, адрес регистрации, купленные продукты и т.п.). После чего вы преобразуете этот вектор в нужный формат для вашего алгоритма, натравливаете алгоритм на данные (и настраиваете его для кластеризации) и получаете на выходе разделение клиентов на кластеры.
Хотя процесс не выглядит сложным, детали методов и их интерпретация имеет большое значение. Выбранные метрики “расстояния”, способ трансформации данных и кол-во выбранных факторов могут сильно менять картину. Так как в конечном итоге в многомерных данных нет однозначно “правильного” решения задачи кластеризации, вам в конечном итоге придется самостоятельно оценивать качество кластеров, а именно в итоге искать для них “бизнес” интерпретацию, если вы собрались использовать эти кластеры в принятии решений людьми.
По опыту могу сказать, что не стоит использовать сложные и логически не связанные свойства клиентов, а также хитрые трансформации. Несмотря на вероятные, элегантные решения по линии алгоритмов на выходе вы можете получить сложно интерпретируемые кластеры, которые ничего вам не надут в бизнес контексте. Возможно ваш метод и хорош, если кластера будут использоваться для входных параметров другой системы машинного обучения. Но когда вы хотите разделить клиентскую базу и сформулировать маркетинговую стратегию, то такие хитрые кластера вас никуда не приведут.
Сам процесс кластеризации это итеративный процесс:
- Составьте вектор
- Трансформируйте данные
- Настройте параметры алгоритма
- Сделайте кластеризацию
- Оцените кластеры экспертно, можете ли вы их использовать
- Повторите п.1., если кластеры вас не удовлетворили
Преимущество этого подхода, что через множество итераций вы куда лучше будете понимать ваших клиентов и данных о них, т.к. Каждая попытка кластеризации покажет вам разрез поведения и свойств клиентов, на который вы никогда скорее всего не смотрели. Вы так же лучше поймете взаимосвязи и взаимоотношения между разными клиентами. Поэтому я советую проделать это упражнение и вывести свои собственные кластеры.
Прошлый статьи в цикле:
Это 6-ая статья в цикле статей по анализу продукта:
- Top-Down approach. Экономика продукта. Gross Profit
- Экономика продукта. Анализ выручки
- Погружаемся в динамику клиентской базы: когортный анализ и анализ потоков
- Собираем когортный анализ/анализ потоков на примере Excel
- Аналитика воронки продаж
- MPRU, выручка и как это связано с выручкой и динамикой клиентской базы
Внешние меры оценки качества[править]
Данные меры используют дополнительные знания о кластеризуемом множестве: распределение по кластерам, количество кластеров и т.д.
Обозначенияправить
Дано множество из элементов, разделение на классы , и полученное разделение на кластеры , совпадения между и могут быть отражены в таблице сопряженности , где каждое обозначает число объектов, входящих как в , так и в : .
Пусть .
Также рассмотрим пары из элементов кластеризуемого множества . Подсчитаем количество пар, в которых:
- Элементы принадлежат одному кластеру и одному классу —
- Элементы принадлежат одному кластеру, но разным классам —
- Элементы принадлежат разным кластерам, но одному классу —
- Элементы принадлежат разным кластерам и разным классам —
Индекс Randправить
Индекс Rand оценивает, насколько много из тех пар элементов, которые находились в одном классе, и тех пар элементов, которые находились в разных классах, сохранили это состояние после кластеризации алгоритмом.
Имеет область определения от 0 до 1, где 1 — полное совпадение кластеров с заданными классами, а 0 — отсутствие совпадений.
Индекс Adjusted Randправить
где — значения из таблицы сопряженности.
В отличие от обычного , индекс Adjusted Rand может принимать отрицательные значения, если .
Индекс Жаккара (англ. Jaccard Index)править
Индекс Жаккара похож на , только не учитывает пары элементов находящиеся в разные классах и разных кластерах ().
Имеет область определения от 0 до 1, где 1 — полное совпадение кластеров с заданными классами, а 0 — отсутствие совпадений.
Индекс Фоулкса – Мэллова (англ. Fowlkes-Mallows Index)править
Индекс Фоулкса – Мэллова используется для определения сходства между двумя кластерами.
Более высокое значение индекса означает большее сходство между кластерами. Этот индекс также хорошо работает на зашумленных данных.
Hubert Г statisticправить
Данная мера отражает среднее расстояние между объектами разных кластеров:
где , — матрица близости, а
Можно заметить, что два объекта влияют на , только если они находятся в разных кластерах.
Чем больше значение меры — тем лучше.
Entropyправить
Энтропия измеряет “чистоту” меток классов:
Стоит отметить, что если все кластера состоят из объектов одного класса, то энтропия равна 0.
Purityправить
Чистота ставит в соответствие кластеру самый многочисленный в этом кластере класс.
Чистота находится в интервале , причём значение = 1 отвечает оптимальной кластеризации.
Наивный алгоритм
Следующий алгоритм является агломерационным схема , которая стирает строки и столбцы в матрице близости , как старые кластеры объединяются в новые. Близости матрица D содержит все расстояния D ( я , J ). В кластеризациях присвоены порядковые номера 0,1, ……, ( п – 1) и L ( K ) является уровнем -й кластеризации. Кластер с номером последовательности т обозначается ( м ) и близость между кластерами ( г ) и ( с ) обозначается d [( г ), ( с )].
N×N{\ N \ displaystyle раз N}
Алгоритм состоит из следующих этапов:
- Начнем с непересекающихся кластеризации , имеющий уровень L (0) = 0 и последовательность чисел т = 0.
- Найти наиболее похожую пару кластеров в текущей кластеризации, скажем , пара (г), (с), в соответствии с д [( г ), ( с )] = мин д [( я ), ( J )] , где минимум по всем парам кластеров в текущей кластеризации.
- Приращение порядкового номера: м = м + 1. Объединить кластеры ( г ) и ( ы ) в один кластер для формирования следующего кластеризации м . Установите уровень этого кластеризации в L ( м ) = д [( г ), ( с )]
- Обновление матрицы близости, D , путем удаления строк и столбцов , соответствующих кластеров ( г ) и ( с ) и добавления строки и столбца , соответствующий вновь образованной кластера. Близость между новым кластером, обозначенный ( г , х ) и старый кластером ( к ) определяются как г [( K ), ( г , s )] = мин д [( к ), ( г )], г [( к ), ( с )] .
- Если все объекты находятся в одном кластере, остановка. В противном случае, перейдите к шагу 2.
Что делать с кластеризованным семантическим ядром: от ядра к контентному плану.
После того, как ядро кластеризовано, важно понимать следующее. Вообще говоря, каждому кластеру соответствует отдельная веб-страница
Но это не жесткое правило, а лишь рекомендация, точнее аргумент в пользу того, чтобы под отдельный кластер выделить отдельную веб-страницу. Но иногда на этот аргумент есть контраргумент, сводящийся к тому, что некоторые фразы попали в различные кластеры не потому, что они в принципе по природе своей настолько семантически различны, что не могут вообще попасть в один кластер, а потому что имеющиеся на данный момент сайты не раскрывают достаточно полно эти фразы на одной веб-странице. Или малое число сайтов в выдаче раскрывает эти фразы, например, менее трёх, если глубина кластеризации установлена равной трём.
Предположим, что оказалось, что запросы «ринопластика» и «ринопластика для мужчин» оказались в разных кластерах, о чём это нам говорит, что это для нас значит? Может быть одно из двух:
- Специфика пластики носа «по умолчанию» (которая чаще, по-видимому, для женщин применяется) и специфика пластики носа для мужчин настолько различны по свойствам целевой аудитории, по методике осуществления, по логике продажи этой услуги, что эти запросы признаются настолько семантически далекими друг от друга, что для них стоит создавать отдельные веб-страницы.
- Возможно, эти фразы все же не настолько содержательно далеки друг от друга, чтобы их обязательно нужно было размещать на различных страницах, а просто подавляющее большинство страниц по ринопластике очень слабо раскрывают или же не раскрывают вообще тему ринопластики именно для мужчин и, следовательно, по этому запросу не ранжируются. Из-за этого поисковые выдачи по данным запросам оказываются столь отличными друг от друга. В этом случае можно «обыграть» обе фразы на одной веб-странице.
Существует и противоположный контраргумент не в пользу того, что фразы из разных кластеров можно разместить на одной странице, а за того, чтобы фразы из одного кластера разнести по различным веб-страницам. В каком же случае это может быть? Это происходит тогда, когда тема раскрыта настолько глубоко и всесторонне, что объем веб-страницы начинает превышать 3000 – 4000 слов, тогда оказывается целесообразным для некоторых разделов статьи выделить отдельные веб-страницы, даже несмотря на то, что, скажем, заголовок этого раздела и название всей статьи попадают в один кластер.
Таким образом, правильное семантическое ядро помогает при кластеризации определиться, какие фразы помещать на отдельные веб-страницы, а какие – на одну и ту же. То есть кластеризация помогает осуществить распределение фраз семантического ядра по страницам. Что же дальше? Теперь нужно распределить фразы внутри страницы по различным её элементам – тегам и метатегам. Здесь нам поможет использование Карты релевантности. Это инструмент организации в том числе многопользовательской работы над обоснованным распределением семантики по элементам страницы. В Карте релевантности отмечается как именно и где именно на странице будет «обыграна» некоторая фраза – в тайтле ли, в метаописании, в заголовке, в одном из подзаголовков, непосредственно в самом тексте. Использование карты релевантности позволяет перейти непосредственно к созданию ТЗ копирайтеру на написание контента. Стоит отметить, что существуют специальные сервисы, которые позволяют несколько автоматизировать создание такого ТЗ. В итоге получаем, что созданная система статей имеет наиболее эффективное распределение фраз семантического ядра как по статьям (благодаря кластеризации), так и внутри статей (благодаря использованию карты релевантности).
Метод 1: Эвристики и экспертные оценки
В рамках этого подхода вы на основе опыта, логики использования вашего продукта и клиентских историй, придумываете различные портреты потребителей и затем оцениваете, сколько у вас клиентов попадают под эти определения. Или же можете использовать более численные подходы, основанные на анализе показателей клиентов. Несколько популярных численным эвристик подходов это:
ABC-XYZ
Основная идея разделить клиентов по общему вкладу в вашу выручку и по динамике роста показателей. ABC отвечает за вклад в выручку, XYZ отвечает за стабильность выручки. Это формирует 9 сегментов
AX — самые большие и со стабильной выручкой
AZ — Большие, но они редко делают покупки, выручка не стабильна
CX — самые мелкие, но со стабильной выручкой
CZ — мелкие и выручка не стабильна, покупки совершают редко
В сегмент А определяют клиентов, кто формирует 80% выручки, в сегмент B, кто дает еще 15% и в сегмент C, кто дает 5%. В сегмент X — наименьшую вариативность выручки (можно взять 33 перцентиль), Z — наивысшая вариативность (соответственно верхний 33 перцентиль). Под вариативность я подразумеваю величину дисперсии выручки.
Что дает этот анализ: он позволяет разделить ваших клиентов на группы по степени важности для вашего бизнеса. Клиенты из группы AX, AY, AZ самые большие и вы должны уделять им больше всего внимания
Клиенты групп BX, BY требуют дополнительного внимания, их можно развивать
Внимание к группам в других категориях можно снижать. Особенно хорошо, если вам удастся выделить общности между клиентами в разных сегментах, что позволит вам таргетировать усилия по привлечению нужных клиентов
RFM (Recency-Frequency-Money)
Основная идея разделить клиентов по 3-м свойствам: как давно была продажа клиенту (recency), как часто он покупает товары (frequency), какой объем выручки он сгенерировал(money). В целом подход напоминает ABС-XYZ, но несколько под другим углом.
В рамках этого подхода вы разделяете клиентов по группам Recency, например:
- 0-30 дней
- 31-60 дней
- 61-90 дней
- 90+
По кол-ву покупок, например:
- Более 15
- 10-14
- 5-9
- 0-4
По объему выручки:
- 1000+
- 600-1000
- 200-599
- 0-199
Понятно, что для каждого конкретного продукта, приложения или товара вам нужно установить свои границы.
В итоге вы сможете разделить клиентов на множество сегментов, каждый из которых характеризует клиента по степени важности для вас
Матрица BCG
Основная идея разделить клиентов по категориям объема выручки и темпов роста выручки. Такой подход позволяет определить, кто большой и насколько быстро растет. Все клиенты раскладываются на 4 квадранта:
Звезды — крупнейшие клиенты с высоким темпов роста выручки
Это клиенты, кому надо уделять наибольшее внимание. Это сильная точка роста
Дойные коровы — крупные клиенты, с низкими или отрицательными темпами выручки
Эти клиенты будут формировать ядро вашей текущей выручки. Проглядите коров и потеряете бизнес.
Темные лошадки — пока мелкие клиенты, но с большим темпом роста. Это группы клиентов, на кого надо обращать внимание, т.к. они могут вырасти до звезд или дойных коров.
Собаки — мелкие клиенты с низкими или отрицательными темпами роста. Это клиенты, кому можно уделять наименьшее внимание и применять к ним массовые методы обслуживания, для сокращения издержек.
Преимущества всех эвристических методов — относительная простота реализации и возможность разделить своих клиентов на понятные с точки зрения бизнеса группы.
Недостатки в том, что мы используем всего лишь несколько свойств клиентов, для их описания и исключаем из рассмотрения прочие факторы. В добавок, чаще всего клиенты оказываются в сегментах временно, меняют позицию, а установить реальную общность внутри сегмента оказывается сложно.
Список источников
- seotuition.ru