понедельник, 1 декабря 2008 г.

Как обойтись без парсинга поисковых машин.

Основным методом сбора ресурсов для спама (гостевых книг, блогов, форумов и т. п.) в настоящее время является парсинг выдачи поисковых машин (Google, Yahoo, Live/MSN, Ask, Altavista, Yandex, Rambler и т. п.). К сожалению, в настоящее время поисковые машины защищаются от парсинга, поэтому приходится использовать различные методы обхода защиты и различные сочетания этих методов (использование проксей, динамического IP, системы Tor, парсинг с разных IP, парсинг разных датацентров поисковых машин).

Тем не менее, существует метод, который позволяет обойтись без парсинга поисковиков. Основан этот метод на простом и в то же время очевидном факте: каждое место размещения ссылок (гостевая, блог, форум и т. п.) находится на каком-то домене. Поэтому, чтобы найти место размещения ссылок надо просто просканить список доменов по определенным признакам. В качестве программного обеспечения для такого сканирования можно использовать все тот же пресловутый Xrumer, лучше конечно 5-ую версию, но можно использовать собственный краулер, написание которого должно обойтись дешевле.

Остается вопрос, где взять списки доменов? Самый простой способ – купить у киберсквоттеров или мыльных спамеров, но можно купить ресселерский акк у регистратора доменов и получить доступ к списку доменов (оформляется обычно отдельным договором).

Имея списки доменов по всем зонам (по данным http://news.netcraft.com/archives/2008/10/29/october_2008_web_server_survey.html в октябре 2008 года в Интернете было около 74 млн. действующих доменов) можно проверить их на наличие мест для спама.

Поверхностная проверка 1 млн. доменов Хрумером 5.0 на канале с пропускной способностью 1 Мбит/c занимает примерно 56 часов. Под поверхностной проверкой подразумевается только переход по ссылкам с главной страницы домена на один уровень. Если при таком переходе признаков гостевой, форума или блога не обнаруживается, то дальнейшее сканирование не производится.

Таким образом, проверка всех 74 млн. доменов Интернета займет на канале с пропускной способностью 1 Мбит/c примерно 4144 часов или 173 суток. Поставив Хрумер на дедик с каналом 10 Мбит/c можно просканить весь список доменов за 17 суток, что вполне приемлимо по стоимости.

Если кто-нибудь после этой статьи захочет купить Хрумер – купите его по моей рефссылке. Возвращаю 30 долларов.

9 комментариев:

  1. Hi,his blog is a nice,please view our blog RNDTV2 www.rndtv2.blogspot.com
    Thank You
    Holla Su blog ,mui bueno por favor haga una visita para mirar RNDTV2
    www.rndtv2.blogspot.com

    ОтветитьУдалить
  2. у регистратора доменов есть списки всех доменов (74 млн), и почему они будут делиться со мной этими списками?
    давай конкретно, ты пробовал этот метод? если да - то где брал списки?

    ОтветитьУдалить
  3. "Под поверхностной проверкой подразумевается только переход по ссылкам с главной страницы домена на один уровень"

    Вот это рассмешило особенно. Этож как анализатор будет переходить на один уровень. Бред. Сам то хоть пробовал?

    ОтветитьУдалить
  4. Основа этой статьи наверняка позаимствована с форума 4seo.biz и всчески разжевана и разбавлена буквами

    ОтветитьУдалить
  5. Эта статья была мной размещена на 4seo.biz - можешь там прочитать.

    ОтветитьУдалить
  6. дайте инвайт на 4seo.biz, хочу и там прочитать, в оригинале

    ОтветитьУдалить
  7. хм.. ну к примеру есть куча доменов. прошелся анализатором, нашел где есть форумы, а дальше то что? хрум то с главной страницы сайта не смогет перейти на главную страницу форума для дальнейшей регистрации. или сможет?
    главная страница http://site.com, а с форумом http://site.com/f/ или http://site.com/conf/. Тут еще хрен поймешь какой адрес может быть у самого форума..

    ОтветитьУдалить
  8. Прикольно, но парсинг Гугла как то для меня ближе.

    ОтветитьУдалить
  9. Вот голову из вас никто не хочет включать. :-)
    ну и не нужно. :-) улыбнуло. :-)

    ОтветитьУдалить