Robots.txt
is a text file which contains few lines of simple code. It is saved on the
website or blog’s server which instruct the web crawlers how to index and crawl
your blog in the search results. That means you can restrict any web page on
your blog from web crawlers so that it can’t get indexed in search engines,
like your blog labels page, your demo page or any other pages that are not as
important to get indexed. Always remember that search crawlers scan the
robots.txt file before crawling any web page.
Robots.Txt
“robots.txt” ফাইল
এমন একটি ফাইল যেটা সার্চ ইন্জিনকে বলে যে,সার্চ ইন্জিন একটা
সাইটের কোন কোন্ পেজ crawl
করবে
আর কোন কোন পেজ crawl করবেনা।এই
robots.txt
ফাইলটি রুট ফোল্ডারে থাকে.
আপনার সাইটের কিছু পেজ সার্চ রেজাল্টে না
দেখানো হোক আপনি হয়ত এটা চাইতে
পারেন।কারন হতে পারে সেই পেজগুলির কাজ এখনও
শেষ হয়নি বা অন্য যেকোন
কারন।এজন্য আপনি একটি robots.txt
ফাইল
তৈরী করে সেখানে ঠিক করে দিতে পারেবন
যে কোন্ কোন্ পেজ সার্চ ইন্জিন crawl
করবেনা।
robots.txt
ফাইলটি
তৈরীর পর রুট
ফোল্ডারে আপলোড করতে হবে।
robots.txt ফাইল
দিয়ে সার্চ ইন্জিনের বট,ক্রাউলার এবং স্পাইডার সাইটের কোন্
কোন্ পেজ দেখবে এবং কোন্ কোন্ পেজ দেখবেনা
এসব নিয়ন্ত্রন করা যায়।এই
নিয়ন্ত্রনের পদ্ধতিকে বলা হয় রোবটস
এক্সক্লুসন প্রটোকল (Robots Exclusion
Protocol) বা
রোবটস এক্সক্লুসন স্টান্ডার্ড (Robots
Exclusion Standard) .এই
ফাইল তৈরীর আগে এখানে ব্যবহৃত কিছু চিহ্ন
চিনে নেয়া যাক
User-agent: Mediapartners-Google
Disallow:
User-agent: *
Disallow: /search
Allow: /
Sitemap:
http://allhotnewz.blogspot.com/atom.xml?redirect=false&start-index=1&max-results=500
0 comments:
Post a Comment