Wednesday, 13 May 2015

What is robot.txt?

Robots.txt is a text file which contains few lines of simple code. It is saved on the website or blog’s server which instruct the web crawlers how to index and crawl your blog in the search results. That means you can restrict any web page on your blog from web crawlers so that it can’t get indexed in search engines, like your blog labels page, your demo page or any other pages that are not as important to get indexed. Always remember that search crawlers scan the robots.txt file before crawling any web page.

“robots.txt” ফাইল এমন একটি ফাইল যেটা সার্চ ইন্জিনকে বলে যে,সার্চ ইন্জিন একটা
সাইটের কোন কোন্ পেজ crawl করবে আর কোন কোন পেজ crawl করবেনা।এই robots.txt
ফাইলটি রুট ফোল্ডারে থাকে.
আপনার সাইটের কিছু পেজ সার্চ রেজাল্টে না দেখানো হোক আপনি হয়ত এটা চাইতে
পারেন।কারন হতে পারে সেই পেজগুলির কাজ এখনও শেষ হয়নি বা অন্য যেকোন
কারন।এজন্য আপনি একটি robots.txt ফাইল তৈরী করে সেখানে ঠিক করে দিতে পারেবন
যে কোন্ কোন্ পেজ সার্চ ইন্জিন crawl করবেনা। robots.txt ফাইলটি তৈরীর পর রুট
ফোল্ডারে আপলোড করতে হবে।
robots.txt ফাইল দিয়ে সার্চ ইন্জিনের বট,ক্রাউলার এবং স্পাইডার সাইটের কোন্
কোন্ পেজ দেখবে এবং কোন্ কোন্ পেজ দেখবেনা এসব নিয়ন্ত্রন করা যায়।এই
নিয়ন্ত্রনের পদ্ধতিকে বলা হয় রোবটস এক্সক্লুসন প্রটোকল (Robots Exclusion
Protocol) বা রোবটস এক্সক্লুসন স্টান্ডার্ড (Robots Exclusion Standard) .এই
ফাইল তৈরীর আগে এখানে ব্যবহৃত কিছু চিহ্ন চিনে নেয়া যাক
  User-agent: Mediapartners-Google
  User-agent: *
  Disallow: /search
  Allow: /
Sitemap: http://allhotnewz.blogspot.com/atom.xml?redirect=false&start-index=1&max-results=500 

