Rating-News.ru - Агрегатор новостей
  • Круглосуточный контроль информационного поля
  • Мониторинг СМИ в 2 клика
  • Результаты анализа в виде таблиц
  • Доступ с любого ПК через интернет круглосуточно

АВТОРИТЕТНОСТЬ ИЗДАНИЯ.

ОБЩАЯ ИНФОРМАЦИЯ

С ростом объёма информации в сети Интернет в целом и информации, индексируемой поисковыми системами, в частности, перед разработчиками поисковиков встала серьёзная проблема - количество одинаково релевантных запросу документов было велико, и корректно ранжировать их в результатах поиска становилось всё сложнее. К тому же алгоритмы ранжирования, разработанные для контролируемых коллекций документов, оказались беззащитны перед простейшими способами воздействия на них, когда для обеспечения хорошего результата достаточно было просто скопировать структуру расположения ключевых слов из текста, хорошо ранжируемого по этому запросу документа. Появилась необходимость разделять информацию на более и менее достоверную, учитывать «важность» или «авторитетность» ресурсов, предоставляющих её. Как это сделать? Лучше всего на основе данных о популярности страницы у пользователей, например: посещаемости. Но тогда потребовалось бы устанавливать какой-либо счётчик на каждую страницу. Такой вариант для глобального поиска не подходит.

В связи с этим, в качестве критерия авторитетности была выбрана теоретическая посещаемость страницы.

Была разработана модель, имитирующая движение пользователя по документам сети путем перехода по ссылкам с документа на документ, подразумевающая, что пользователь с равной долей вероятности перейдет по любой из ссылок, содержащихся в документе, который он в данный момент просматривает. Следовательно, вероятность пользователя попасть на конкретный документ будет зависеть от количества ссылок на него с других документов и от того, насколько вероятно нахождение страницы (PageRank):

,где

PRa - PageRank рассматриваемой страницы,

d - коэффициент затухания (означает вероятность того, что пользователь, зашедший на страницу, перейдет по одной из ссылок, содержащейся на этой странице, а не прекратит путешествие по сети, обычно устанавливается равным 0,85),

N - общее количество документов,

PRi - PageRank i-й страницы, ссылающейся на страницу А,

Ci - общее число ссылок на i-й странице.

Одним из распространенных заблуждений является то, что можно вычислить PageRank по этой формуле для отдельно взятого документа, используя известные значения PageRank для ссылающихся на него документов. Так делать нельзя. Чтобы вычислить PageRank какого-либо документа, надо составить систему N линейных уравнений данного вида для каждого из документа из поисковой базы, где N - количество документов в поисковой базе. Причем, для выполнения условия, что сумма значений PageRank для всех документов (т.е. вероятность того, что пользователь находится на любой из страниц) равна 1, к свободному члену (1 - d) в каждом уравнении добавляют множитель 1/N. Эта система будет содержать N неизвестных. Решив ее, получим значения PageRank для каждого документа, известного поисковой машине. В поисковой базе крупнейших поисковых машин содержится огромное количество документов. Несмотря на то, что матрица, соответствующая системе уравнений будет сильно разрежена, численное решение этой системы требует огромных вычислительных мощностей. Поэтому поисковая система должна постараться максимально упростить процесс расчета, вводя некоторые допущения.

Эти конкретные особенности реализации классической формулы PageRank, увы, составляют коммерческую тайну поисковых машин.

В итоге, можно сказать, что PageRank (авторитетность) страницы A - это взвешенное количество ссылок на страницу A, причем вес каждой ссылки равен значению PageRank ссылающейся страницы, поделенному на количество исходящих с нее ссылок. Можно сказать, что PageRank страницы - это мера еe голоса, и страница может разделить этот голос поровну между одной, двумя или многими ссылками, но общая голосующая сила будет всегда той же самой.

 

ОСНОВНЫЕ ФАКТОРЫ, ВЛИЯЮЩИЕ НА

ОПРЕДЕЛЕНИЕ АВТОРИТЕТНОСТИ ИЗДАНИЙ.

  1. Факторы, оказывающие влияние на соответствие документа тому или иному запросу, можно разделить на следующие:

Статические (независящие от запроса). Как правило, они носят название ранга или авторитетности документа, и зависят от количества и ранга документов, ссылающихся на данный документ.

Динамические (зависящие от запроса). Их можно разделить на 2 категории:

Внутренние (страничные). Они учитывают степень соответствия запросу содержимого самого документа.

Внешние (ссылочные). Один из факторов учитывает степень соответствия запросу текста ссылок на документ (в среде русскоязычных специалистов по оптимизации такой фактор носит название «ссылочное ранжирование»). При этом может учитываться и ранг документа, который содержит текстовую ссылку. Также одним из факторов может быть динамический (т.е. зависящий от запроса) ранг документа.

Статические факторы измеряют важность или авторитетность страницы, не обращая внимание на ее содержание. В то время как страничные факторы измеряют собственно релевантность текста страницы, то есть показывают насколько содержимое самой страницы, соответствует определенному запросу. Ссылочные факторы измеряют релевантность ссылок на страницу с других страниц, т.е. показывают, насколько соответствующей запросу эта страница считается другими документами.

Совокупность этих факторов запросу текста ссылок на него - и составляет конечную величину соответствия документа тому или иному запросу - взвешенная по значению авторитетности страницы релевантность запросу текста самого документа и релевантность

2) Очевидно, что показатели авторитетности издания также зависят от дополнительных параметров, основными из которых являются:

При этом каждая поисковая система использует свой собственный алгоритм расчёта весомости того или иного ресурса в Интернете.

В частности:

Поисковая система YAHOO! SEARCH

Статическим фактором поисковой системы Yahoo! является значение Web Rank, которое представляет собой взвешенное количество ссылок на документ. Официальной информации о том, каким образом вычисляется значение Yahoo! Web Rank нет.

К страничным факторам относятся частота ключевых слов и точность вхождения поисковой фразы в различных частях документа - теге title, мета-тегах keywords и description, тексте документа. Содержимое атрибута alt тега img, по всей видимости, не учитывается. Подобно Google страничные факторы относительно слабы по сравнению с другими.

Ссылочными факторами является наличие ключевых слов в тексте ссылок на данный документ с других документов и содержимое поля alt тега img у изображений, которые являются ссылками на данный документ с других документов. Вполне вероятно, что при этом учитывается значение Yahoo! Web Rank ссылающегося документа и текст ссылок с документов, у которых этот показатель весьма низок, игнорируется. В последнее время учет текста ссылок происходит непосредственно после ее индексации роботом.

За использование поискового спама Yahoo! Search может исключить сайт из индекса с последующим запретом на индексацию. Yahoo! Search считает спамом следующее:

Массового использования каких-либо понижающих фильтров, существенно влияющих на результаты ранжирования, не замечено.

Поисковая система GOOGLE

Статическим фактором определяющим авторитетность издания является значение PageRank документа, представляющий собой взвешенное количество ссылок, - количественный показатель его авторитетности.

Алгоритм определения значения PageRank для конкретной страницы описан в статье авторов Google "The PageRank Citation Ranking: Bringing Order to the Web".

Page Rank, используемый Google - характеризует важность каждой отдельно взятой  страницы сайта в Интернете. Показатель PR может быть от 0 до 10. При его вычислении Google учитывает не просто количество ссылок на определённый ресурс, а также и качество каждой ссылки, исходя из того, насколько высок свой собственный PR у ссылающегося. Известно, что показатель PR для поисковой системы  Google является одним из важных факторов распределения мест сайтов в своей поисковой выдаче.

Для большей авторитетности издания в поисковой системе Google важны внешние ссылки на сайт вообще, то есть, чем их больше, тем лучше плюс, берётся в расчет авторитетность ссылающегося ресурса.

Поисковая система Яндекс

Поисковая система Яндекс использует другие критерии ранжирования сайтов: ТИЦ и ВИЦ.

Тематический индекс цитирования (ТИЦ) — технология поисковой машины Яндекс, заключающаяся в определении авторитетности интернет-ресурсов с учётом качественной характеристики — ссылок на них с других сайтов. ТИЦ рассчитывается по специально разработанному алгоритму, в котором особое значение придаётся тематической близости ресурса и ссылающихся на него сайтов. Данный показатель в первую очередь используется для определения порядка расположения ресурсов в рубриках каталога Яндекса. Все ссылающиеся сайты обязательно должны быть проиндексированы Яндексом.

Значение ТИЦ определяется суммарным весом ссылающихся сайтов. Обновление этого показателя происходят в среднем два раза в месяц. Значения ТИЦ начинаются с 10, до ТИЦ 200 шаг шкалы равен 10, до ТИЦ 500 - 25, до ТИЦ 1000 - 50, и далее – 100.

Яндекс применяет ещё один показатель важности и раскрученности сайта: ВИЦ - взвешенный индекс цитирования. Этот показатель по своей сути более близок показателю PR от Google. Значения ВИЦ для своего ресурса узнать невозможно, так как эти данные нигде не публикуются и известны только самой компании Яндекс.

Показатели ТИЦ и PR имеют разные формулы расчета, которые держатся в тайне самими разработчиками.

Важно отметить, что аналитическая группа «Рейтинг-Центр» для определения авторитетности издания использует конечное значение Web Rank, вычисленное Yahoo!

АВТОРИТЕТНОСТЬ ИЗДАНИЯ В СИСТЕМЕ «РЕЙТИНГ-ЦЕНТР».

Используя данные авторитетности изданий в основных поисковых системах Аналитическая группа «Рейтинг-Центр» на основе показателей ТИЦ, РR и Web Rank определяет показатель среднестатистической авторитетности интернет издания в системе «Рейтинг-Центр» (ARC).