Чистка баз RU-ключевиков от cp-запросов
Где-то с недельки полторы-две назад я решил попробовать сгенерить немного доров под рунет (благо .ru домены стоят дешевле 100 рублей уже, что чуть больше 3.5$ по текущему курсу) откопал свои базы ru-ключевиков черт знает какой давности, ну и, собственно, заюзал их. Когда же пошел первый трафик (несколько дней назад), я с удивлением обнаружил, что приличный процент трафа составляют cp-запросы в чистом виде.
В свое время я, конечно же, чистил базы свои от таких запросов, но это было очень давно, а базы, которые использовал в этот раз, это не совсем те, похоже, а только их архивные версии без всяких обработок.
В общем, нужно было почистить текущие базы. Свою старую регулярку (регулярное выражение, оно же, регэксп) на ноуте не нашел и потому решил сам придумывать, придумал, и вот, решил сюда выложить, потому что, во-первых, кому-то еще наверняка пригодится, а во-вторых, чтобы не потерять ее в будущем (как было с прошлой регуляркой).
Посмотреть регулярку можно в этом txt файле (чтобы потом вдруг на этот пост никакого левого трафа не пошло).
Небольшое пояснение, я удалял “плохие” ключевики вместе со строкой их содержащей (в этих древних базах просто 1 ключевик на 1 строку), потому, если у вас базы в каком-то другом формате, то регулярку надо будет немного переделать под конкретно ваш формат. Но суть (список “плохих” словосочетаний) конечно надо оставить, а еще лучше, дополнить Кроме того, если этой регуляркой вы будете чистить все имеющиеся у себя базы (а не только по адалтовой теме), то не исключены варианты удаления абсолютно нормальных ключевиков из неадалтовой сферы, будьте осторожны.
UPDATE 23.04.2012: существенно улучшилась регулярка для чистки запросов, кроме того, по ссылке выше теперь не просто голая регулярка, а полноценный php скрипт (сохраните данный .txt файл и переименуйте его в .php), используя который вы легко очистите свои адалт запросы от нелегальщины.
А что такое “cp-запросы”?
Не буду тут писать расшифровку, глянь по урлу master-x.com/forum/topics/2274/
Да и если регулярку посмотреть то можно догадаться, если не знаешь
А почему решил в ру адалт вернутся, я думал с фармы не вылазят. А тут нате…
Небольшая поправка “решил попробовать сгенерить немного доров под рунет” не значит, что я решил вернуться в рунет и заниматься только им, также не значит, что я генерил именно адалт. Как раз его то генерить не планировалось. Базы просто нечищенные от адалта оказались
А чтобы сгенерить немного доров вовсе не обязательно откуда-то “вылазить”, доры генерятся быстро и много времени не отнимают
А как ты ру доры в индекс загоняешь? Спам или свой “трамплин”?
Вообще имеет смысл спамить ру доры?
А хз имеет или нет, я прогнал по гостевухам по старой привычке
А сколько гостевух?
Штук 50к примерно.
Хорош оффтопить в коментах
За файлик спасибо, многим он сэкономит время.
А почему дети|детс|малол|мален|девоч обязательно адалт? И что значит “малол”? По моему, лишнее…
Упс, сорри, понял. А ведь запрос “малолетки” в яндексе более адалтен (ну или как ещё его назвать по другому?), чем совершенно безобидный “маленькая девочка”.
У меня дорген убирает ср
Если только это, то не обязательно, а в сочетании с “порн|поре|трах” и т.д. (см. регулярку) очень даже адалт получается.
Из того, что у меня было в базах и содержало эти два слова, безобидных не было
Ну так это прекрасно Посмотри какая у него юзается регулярка, может добавить что надо, для более точного искоренения.
Да, добавил и заменил, на более предпочтительный .