Это полная версия исследования факторов, влияющих на ИКС. Она включает в себя подробное описание методики и полученных результатов со статистической точки зрения. Краткая версия с выводами находится в статье «Всё, что мы знаем о Яндекс ИКС».
Задача: исследовать влияние ссылочной массы, возраста домена и срока продления домена на Яндекс ИКС.
Этапы:
1. Собираем выборку доменов
Домены собираем с первых 100 позиций в Яндексе по высокочастотным запросам. 100 позиций, поскольку при большом числе, получим в выборке трастовые и средние домены. Регион парсинга — Одесса, Украина и Москва, Россия. Используя несколько регионов, получаем широкую выборку, содержающую как представленные в определенных регионах сайты, так и без регионального таргетинга.
Список запросов, по которым собирались домены: «работа, фриланс, права, кино, свадьба, дизайн, туризм, магия, недвижимость, лечение, ремонт, право, юрист, развлечения, подработка, вакансии, бизнес, доход, форум, видео, объявления, хостинг, новости, вопрос ответ, энциклопедия, блог, портал, книги, авто, интернет, учеба, спорт, дом»
После сбора и чистки осталось 3737 доменов — достаточное количество, чтобы вычислить корреляции. Выборка почищена от поддоменов, поскольку для них тИЦ высчитывается отдельно, а ИКС передается от главного домена.
За показатель качества и объема ссылочной массы, учитываемой Яндексом, берем тИЦ.
2. Выссчитываем рост ИКС относительно тИЦ
После чистки от доменов с тИЦ=0 осталось 3218 доменов. Высчитываем рост ИКС относительно тИЦ для каждого и находим среднее арифметическое. В среднем, ИКС доменов в 8,325 раза больше тИЦ.
3. Измеряем корреляцию тИЦ с ИКС
Гипотеза: ИКС зависит от ссылочной массы (тИЦ)
Находим корреляцию по Пирсону между тИЦ и ИКС, получаем:
t = 74.278, df = 3087, p-значение < 2.2e-16
95% доверительный интервал:
0.7877449 0.8130710
Корреляция:
0.8007656
Результат: вероятнее всего. Коэффициент корреляции — 0.8007656
Вероятнее всего, при расчете ИКС учитывается ссылочная масса и она является приоритетным фактором
3. Измеряем корреляцию возраста домена с ИКС
Гипотеза: ИКС зависит от возраста домена
Whois данные получены для 3561 домена из 3737. Для них будем измерять корреляцию по Пирсону между ИКС и возрастом домена. Возраст домена измеряем как разницу между сегодня и датой регистрации. Получаем:
t = 12.151, df = 3559, p-значение < 2.2e-16
95% доверительный интервал:
0.1678317 0.2309107
Корреляция:
0.199578
Результат: наличие корреляции. Коэффициент корреляции — 0.199578
Коэффициент корреляции достаточно высокий, чтобы сказать, что она присутствует. Однако возраст домена также может влиять на другие факторы доверия поисковых систем.
4. Измеряем срока продления домена с ИКС
Гипотеза: ИКС зависит от срока продления домена.
Данные о дате освобождения домена получены для 3385 доменов из 3737. Для них будем измерять корреляцию по Пирсону между ИКС и сроком продления домена. Срок продления домена округляем в большую сторону с точностью 365. Получаем:
t = 0.30051, df = 3383, p-значение = 0.7638
95% доверительный интервал:
-0.02852810 0.03884946
Корреляция:
0.005166545
Результат: опровергнуто. Коэффициент корреляции — 0.005166545.
Вывод:
Из трех проверяемых параметров, ИКС коррелирует с тИЦ с коэффициентом 0.8007656, что позволяет сказать, что между ними существует прямая зависимость; между возрастом домена и ИКС обнаруживается слабая корреляция, которую можно объяснить прочими факторами; срок продления домена не коррелирует с ИКС
Надо посчитать видимость, выборку можно в мегаиндексе сделать
Здравствуйте, Иван.
Да, это может расширить данные о влиянии ИКС на выдачу. Но поскольку видимость напрямую зависит от количества продвигаемых запросов, у сайта может быть мало страниц и трастовый домен, поэтому в этом случае точно не определить причинно-следственные связи.
Спасибо за идею, необходимо будет обдумать, как корректно это сделать.