çalıntı Içerik | SuAygırı.Com

Örümcekleri yakalamak

Yazan: Sinan Taga

Internet ÖrümcekleriBir blogunuz varsa ve/veya içerik üreten herhangi bir siteye sahipseniz bu siteniz büyük ihtimalle örümcekler (bot) tarafından ziyaret ediliyordur. Özellikle arama motorları sayfalarınız indekslemek için bu yöntemi kullanıyorlar. Örnek olarak Google’ın örümceği Googlebot periyodik olarak sitenizi ziyaret ediyordur. Bu aslında iyi bir şey. Bu örümceklere yardımcı olmak amacı ile de robots.txt adlı bir dosya kullanılır. Bu dosya kısaca hangi örümceklerin sitede nerelere girmeye ve neleri okumaya veya indekslemeye izinleri olduğunu belirtir. Genelde örümcekler bu sınırlamalara saygı gösterirler. Bütün büyük arama motorlarının örümcekleride bunlara dahil. (Sonradan öğrendim ki MSN hariç. Büyük süpriz!)

Fakat bir örümcek yazmanın çok da zor olmadığı bu zamanlarda etrafta bir sürü kötü huylu örümcek de dolaşıyor. Sitenize gelen bu kötü huylu örümceklerin nedeni büyük ihtimalle ya spam yorumlar ya da içeriğinizi çalmaktır. Ve tahmin edersiniz ki bu kötü örümcekler robots.txt dosyanızı pek takmazlar. Bu benim de başıma geldi hem suaygiri.com’da hem de kişisel sitemde yayınladığım içerikler başka yerlerde ortaya çıkıyordu. İlk önce bunun bir kopyala yapıştır sorunu olduğunu düşündüm. Olabilir de. Ama bazı siteler o kadar fazla çalıntı içeriğe sahip ki bunun sadece kopyala - yapıştır ile olması çok zor gibi gözüküyor. Daha sonra Internet’te content scraping (içerik kazımak) ilgili bir yazı ile karşılaştım. O zaman dank etti. :)

Ufak bir betik ile bu örümcekleri yakalayıp IP veya “user-agent” sınırlaması ile uzak tutmak mümkün olabilir. Burada bir örneği mevcut.

Çözümün devamı için tıklayın.




Site Mozilla ve Opera gibi standartları destekleyen tarayıcılar için tasarlanmıştır. Eğer IE kullanıyorsanız şikayet etmeyin. kendi düşen ağlamaz.