Чистка баз RU-ключевиков от cp-запросов

Зарабатываем!, BLACK SEO

Где-то с недельки полторы-две назад я решил попробовать сгенерить немного доров под рунет (благо .ru домены стоят дешевле 100 рублей уже, что чуть больше 3.5$ по текущему курсу) откопал свои базы ru-ключевиков черт знает какой давности, ну и, собственно, заюзал их. Когда же пошел первый трафик (несколько дней назад), я с удивлением обнаружил, что приличный процент трафа составляют cp-запросы в чистом виде.

В свое время я, конечно же, чистил базы свои от таких запросов, но это было очень давно, а базы, которые использовал в этот раз, это не совсем те, похоже, а только их архивные версии без всяких обработок.

В общем, нужно было почистить текущие базы. Свою старую регулярку (регулярное выражение, оно же, регэксп) на ноуте не нашел и потому решил сам придумывать, придумал, и вот, решил сюда выложить, потому что, во-первых, кому-то еще наверняка пригодится, а во-вторых, чтобы не потерять ее в будущем (как было с прошлой регуляркой).

Посмотреть регулярку можно в этом txt файле (чтобы потом вдруг на этот пост никакого левого трафа не пошло).

Небольшое пояснение, я удалял “плохие” ключевики вместе со строкой их содержащей (в этих древних базах просто 1 ключевик на 1 строку), потому, если у вас базы в каком-то другом формате, то регулярку надо будет немного переделать под конкретно ваш формат. Но суть (список “плохих” словосочетаний) конечно надо оставить, а еще лучше, дополнить :) Кроме того, если этой регуляркой вы будете чистить все имеющиеся у себя базы (а не только по адалтовой теме), то не исключены варианты удаления абсолютно нормальных ключевиков из неадалтовой сферы, будьте осторожны.

UPDATE 23.04.2012: существенно улучшилась регулярка для чистки запросов, кроме того, по ссылке выше теперь не просто голая регулярка, а полноценный php скрипт (сохраните данный .txt файл и переименуйте его в .php), используя который вы легко очистите свои адалт запросы от нелегальщины.

14 комментов

  1. Виктор сказал и подписался на новые комментарии по e-mail:

    А что такое “cp-запросы”?

  2. DimaX сказал:

    Не буду тут писать расшифровку, глянь по урлу master-x.com/forum/topics/2274/
    Да и если регулярку посмотреть то можно догадаться, если не знаешь :)

  3. k2 сказал и подписался на новые комментарии по e-mail:

    А почему решил в ру адалт вернутся, я думал с фармы не вылазят. А тут нате…

  4. DimaX сказал:

    Небольшая поправка “решил попробовать сгенерить немного доров под рунет” не значит, что я решил вернуться в рунет и заниматься только им, также не значит, что я генерил именно адалт. Как раз его то генерить не планировалось. Базы просто нечищенные от адалта оказались :)

    А чтобы сгенерить немного доров вовсе не обязательно откуда-то “вылазить”, доры генерятся быстро и много времени не отнимают :)

  5. Мальдивец сказал:

    А как ты ру доры в индекс загоняешь? Спам или свой “трамплин”?

    Вообще имеет смысл спамить ру доры?

  6. DimaX сказал:

    А хз имеет или нет, я прогнал по гостевухам по старой привычке :)

  7. Мальдивец сказал:

    А сколько гостевух?

  8. DimaX сказал:

    Штук 50к примерно.
    Хорош оффтопить в коментах :)

  9. Merlin сказал и подписался на новые комментарии по e-mail:

    За файлик спасибо, многим он сэкономит время.

  10. ainu сказал и подписался на новые комментарии по e-mail:

    А почему дети|детс|малол|мален|девоч обязательно адалт? И что значит “малол”? По моему, лишнее…

  11. ainu сказал и подписался на новые комментарии по e-mail:

    Упс, сорри, понял. А ведь запрос “малолетки” в яндексе более адалтен (ну или как ещё его назвать по другому?), чем совершенно безобидный “маленькая девочка”.

  12. Egorka сказал и подписался на новые комментарии по e-mail:

    У меня дорген убирает ср

  13. DimaX сказал:

    А почему дети|детс|малол|мален|девоч обязательно адалт?

    Если только это, то не обязательно, а в сочетании с “порн|поре|трах” и т.д. (см. регулярку) очень даже адалт получается.

    чем совершенно безобидный “маленькая девочка”.

    Из того, что у меня было в базах и содержало эти два слова, безобидных не было :)

    У меня дорген убирает ср

    Ну так это прекрасно :) Посмотри какая у него юзается регулярка, может добавить что надо, для более точного искоренения.

  14. Egorka сказал и подписался на новые комментарии по e-mail:

    Да, добавил и заменил, на более предпочтительный :) .

Комментирование доступно только в первые 60 дней после публикации

© 2006-2017 by dimax.biz