понедельник, 1 декабря 2008 г.

Как обойтись без парсинга поисковых машин.

Основным методом сбора ресурсов для спама (гостевых книг, блогов, форумов и т. п.) в настоящее время является парсинг выдачи поисковых машин (Google, Yahoo, Live/MSN, Ask, Altavista, Yandex, Rambler и т. п.). К сожалению, в настоящее время поисковые машины защищаются от парсинга, поэтому приходится использовать различные методы обхода защиты и различные сочетания этих методов (использование проксей, динамического IP, системы Tor, парсинг с разных IP, парсинг разных датацентров поисковых машин).

Тем не менее, существует метод, который позволяет обойтись без парсинга поисковиков. Основан этот метод на простом и в то же время очевидном факте: каждое место размещения ссылок (гостевая, блог, форум и т. п.) находится на каком-то домене. Поэтому, чтобы найти место размещения ссылок надо просто просканить список доменов по определенным признакам. В качестве программного обеспечения для такого сканирования можно использовать все тот же пресловутый Xrumer, лучше конечно 5-ую версию, но можно использовать собственный краулер, написание которого должно обойтись дешевле.

Остается вопрос, где взять списки доменов? Самый простой способ – купить у киберсквоттеров или мыльных спамеров, но можно купить ресселерский акк у регистратора доменов и получить доступ к списку доменов (оформляется обычно отдельным договором).

Имея списки доменов по всем зонам (по данным http://news.netcraft.com/archives/2008/10/29/october_2008_web_server_survey.html в октябре 2008 года в Интернете было около 74 млн. действующих доменов) можно проверить их на наличие мест для спама.

Поверхностная проверка 1 млн. доменов Хрумером 5.0 на канале с пропускной способностью 1 Мбит/c занимает примерно 56 часов. Под поверхностной проверкой подразумевается только переход по ссылкам с главной страницы домена на один уровень. Если при таком переходе признаков гостевой, форума или блога не обнаруживается, то дальнейшее сканирование не производится.

Таким образом, проверка всех 74 млн. доменов Интернета займет на канале с пропускной способностью 1 Мбит/c примерно 4144 часов или 173 суток. Поставив Хрумер на дедик с каналом 10 Мбит/c можно просканить весь список доменов за 17 суток, что вполне приемлимо по стоимости.

Если кто-нибудь после этой статьи захочет купить Хрумер – купите его по моей рефссылке. Возвращаю 30 долларов.