robots.txt কি, আপনার ওয়েবসাইটে এটি কিভাবে ভুমিকা রাখে, এটি কিভাবে সেট আপ করতে হয় এবং আপনি আপনার রোবটস ডট টেক্স ফাইল কিভাবে চেক করবেন তা জানবো এই পোস্ট থেকেঃ
পোস্টের বিষয় সূচীঃ
robots.txt কিঃ
সার্চ ইঞ্জিন যেমন গুগল বিং ইয়াহু তাদের সার্চ রেজাল্ট তৈরী করার জন্য এক ধরণের প্রগ্রাম ব্যবহার করে থাকে ইন্টারনেটের ওয়বসাইটগুলি থেকে ইনফরমেশন কালেক্ট করার জন্য। এবং এক ওয়েবসাইট থেকে অন্য ওয়েবসাইটে যেতে থাকে। এই ধরণের প্রগ্রামগুলিকে ওয়েব ক্রলারস, স্পাইডারস, বটস অথবা রোবট বলা হয়ে থাকে।
robots.txt এর উদ্ভবঃ
ইন্টারনেটের শুরুর দিকে যখন কম্পিউটার পাওয়ার অথবা মেমরি ব্যয় বহুল ছিল তখন তখন কিছু ওয়েবসাইটের মালিক এই সকল ওয়েবসাইটের ক্রোলিং এর কারণে বেশ আফসেট ছিল। কারণ এই সময় ওয়েবসাইটগুলি তুলনামূলকভাবে অনেক কম ছিল এবং ক্রোলারস গুলি বার বার ওয়েবসাইট ভিজিট করতো।
যার ফলে রিয়েল টাইম ভিজিটরদের খুজে পাওয়া ছিল খুবই কষ্টকর। এবং এই বার বার ক্রোলিং করার কারণে এই সকল ওয়েবসাইটের রিসোর্চও শেষ হয়ে যেতো। এই সকল সমস্যা থেকে পরিত্রাণ পাওয়ার জন্য উদ্ভব হয় রোবটস ডট টেক্স আইডিয়া।
রোবটস টেক্স সার্চ ইঞ্জিনের ক্রোলাসগুলিকে ক্রোলিং করার জন্য প্রয়োজনীয় নির্দেশনা দিয়ে থাকে। ওয়েবসাইটের মালিকগণ তাদের ওয়েবসাইটের কোন অংশ ভিজিট করার পারমিশন দিবে, কোন অংশ ভিজিট করার পারমিশন দিবে না সেটা ডিপেন্ড করে এই রোবটস ডট টেক্সের উপর।
রোবটস ডট টেক্স সবদা টেক্স ফাইলেই হয় এবং এটি ওয়েবসাইটের ফাইলের রুট ফোল্ডারে থাকে।
robots.txt সেটআপ পদ্ধতি:
ধরে নিন কোন একটি সাইট যেমন smgrgroup.com এ যখন একটি ক্রোলিং প্রোগ্রাম কোন ওয়েবসাইটে ভিজিট করবে তখন এটি সর্বদা ” www.smgrgroup.com/robots.txt ” ফাইলেই দেখাবে।
এবং এই ফাইলটি যদি না পায় তবে ক্রোলিং প্রোগ্রামটি পুরো সাইটটিকে তাদের মত করে ভিজিট করবে এবং যেকোন একটি পেজকে তাদের মত করে ইনডেক্সিং করবে।
অর্থাৎ যদি কোন একটি ওয়েবসাইটের মধ্যে রোবটস ডট টেক্স ফাইল থাকে তবে সেই নির্দেশনা অনুযায়ী সে ওয়েবসাইটের কোন তথ্য সংরক্ষণ করবে আর যদি না পায় তবে সে তার নিজস্ব সিস্টেম অনুযায়ী ওয়েবসাইটে তথ্য সংরক্ষণ করবে।
রোবটস ডট টেক্স এর বিষয়ে আরো কিছু বিষয়ে ক্লিয়ার হয়ে নিই।
- এটি সর্বদা টেক্স text ফাইলে হবে।
- Txt ফাইলটি সর্বদাই Root ফোল্ডারেই হবে।
- এটি সর্বদাই “txt” ফাইলেই হবে।
আপনি যদি সকল ক্রোলিং প্রোগ্রামকে আপনার ওয়েবসাইটের সকল তথ্য ভিজিট করতে দিতে চান তাহলে আপনার ওয়েবসাইটের রোবটস ডট টেক্স ফাইলের তথ্য “User-agent:*disallow: “ এতটুকু হলেই চলবে।
এখানে টেক্সের প্রথম লাইন হলোঃ “User-agent:* এর অর্থ হলোঃ ইউজার এজেন্ট অর্থাৎ সার্চ ইঞ্জিন গুলিকে নির্দেশ দেওয়া হয়েছে।
এখানে এই স্টার (*) চিহ্ন মানে হলো সকল ধরণের সার্চ ইঞ্জিনকে এই পোর্টের জন্য নির্দেশনা দেওয়া আছে। নরমালি ওয়েব টেকনোলজিতে এই স্টার (*) এর মানে হলো হলোঃ “Wild Card “ ।
এই টেক্সের দ্বিতীয় লাইনে আছে Disallow: (ডিসএলাউ কোলন) অর্থাৎ সকল সার্চ ইঞ্জিনের জন্য রোবটের কোন ওয়েবসাইটের অংশ Disallow নেই।
কিন্তু এই Disallow এর সামনে যদি একটা স্লাস (/) ফাইল অর্থাৎ “ Disallow:/ “ এইভাবে লিখা হয় তার অর্থ হলো হলো এই ওয়েবসাইটের রুট ফোল্ডারের সকল ফাইল ডিস এলাউ।এটার মানে হলো আপনার ওয়েবসাইটের সকল তথ্য সার্চ ইঞ্জিনের জন্য “ডিস এলাউ” করে ফেলেছেন।
কিন্তু আপনি যদি কোন স্পেসিক সার্চ ইঞ্জিনকে আপনার ওয়েবসাইটের জন্য ব্লক করতে চান তাহলে লিখতে হবে “user-agent:Googlebot disallow:/ ”
এখানে ইউজার হাইপেন এজেন্ট কোলন যে সার্চ ইঞ্জিনের জন্য ব্লক করতে চাচ্ছেন তার বট নাম লিখতে হবে এবং পরের লাইনে ডিস এলাউ কোলন স্লাস দিতে হবে।
সকল সার্চ ইঞ্জিনের বট নাম আলাদা আলাদা হয়ে থাকে। নিচের ছবিটি লক্ষ্য করুন।
Robots.txt কিভাবে এসইও কে প্রভাবিত করেঃ
অথবা এসইও তে এর উপকার কি আসতে পারে?
সার্চ ইঞ্জিন যেমন গুগল কোন একটি ওয়েবসাইটের ক্রোল বাজেট এলার্ট করে থাকে যা একটি নির্দিষ্ট সময় পর পর কোন একটি বিশেষ ওয়েবসাইটকে ভিজিট করতে থাকবে।
এই ক্রোলিং বাজেট দু’টি বিষয়ের উপর নির্ভর করে থাকেঃ
- সার্ভার ক্রোলিং করার সময় স্লো হচ্ছে না’তো?
অর্থাৎ ক্রোলিং প্রোগ্রাম যখন আপনার সাইটে ভিজিট করছে তখন অন্য ভিজিটরদের কাছে আপনার সাইট স্লো হয়ে যাচ্ছে কি’না। - আপনার ওয়েবসাইট কত বেশি জনপ্রিয়ঃ
অর্থাৎ আপনার ওয়েবসাইট যতবেশি জনপ্রিয়, তত বেশি কন্টেন্ট এবং গুগল এই সকল ওয়েবসাইটকে তত বেশি ভিজিট করতে চায় আপডেড রাখার জন্য।
রোবটস ডট টেক্সের মাধ্যমে আপনি আপনার ওয়েবসাইটের আন্ডার মেইন্টেনেন্স হওয়া পেজের কিছু সময়ের জন্য এই ক্রোলিং হওয়া থামাতে পারেন।
আপনার ওয়েবসাইটের যদি কোন সিক্রেট ইনফরমেশন থেকে থাকে বা ধরুন আপনার কোম্পানির ইমপ্লোয়িদের নাম, ইমেল, ফোন নাম্বার ইত্যাদি পার্সোনাল ডেটা যদি থেকে থাকে যা আপনি পাবলিশ করতে চাচ্ছেন না তার জন্য আপনি রোবটস ডট টেক্স ফাইল ব্লক করতে পারেন।
এর জন্য মনে করুন আপনার সাইটের কোন একটি ফোল্ডার আছে এবং এর মধ্যে একট পেজ হলো Sample.html
আপনি যদি এই স্যাম্পল ফোল্ডারের সকল ইনফরমেশন সার্চ ইঞ্জিনের থেকে লুকিয়ে রাখতে চান তাহলে লিখতে হবে লিখতে হবে “ User-Agent:* Disallow:/sample ”
এবং Sample.html ফাইলটি লুকানোর জন্য “ ”
এটা ছাড়াও রোবটস টেক্স ফাইলকে বা সার্চ রোবটকে বা আপনার ওয়েবসাইটের সাইট ম্যাপের লিঙ্কও প্রভাইড করতে পারেন। সেখানে আপনাকে শুধু এই লাইনটি এড করলেই হবে।
Sitemap:www.yourwebsite.com/sitemap.xml
স্পেশাল টিপসঃ
কিছুক্ষণ আগে আমি বলেছিলাম ক্রোলিং প্রোগ্রামগুলি ওয়েবসাইট ক্রোলিং করার সময় রিয়েল ভিজিটরদের জন্য সাইট স্লো হয়ে যেতে পারে। এই সমস্যা দূর করার জন্য একটা ট্রিক্সস ফলো করলেই হবেঃ
আপনার যদি সাইটে প্রচুর ভিজিটর থাকে তবেই এই পদ্ধতি অনুসরণ করুন।
এতে করে আপনার রোবটস ডট টেক্স ফাইলে একটি টাইমার লাগাতে পারেন । যার ফলে সার্চ ইঞ্জিনের রোবট একপেজ ক্রোল করার পর অন্য পেজ ক্রোলিং করার জন্য কিছুটা সময় নিবে। এটা সাধারণত মিলি সেকেন্ডে হিসাব করা হয়। তবে তার জন্য আপনাকে “ Crwl-delay:10 ” এই কোড দিতে হবে। এইখানে ১০ এর জায়গায় যত সেকেণ্ড ক্রোলিং করার জন্য বিরতি নিবে সেই সময় দিতে পারেন।
এই পদ্ধতিতে যখন আপনার সাইটের একটা পেজ ক্রোলিং করে অন্য পেজে যাবে তখন ১০ মিলি সেকেণ্ডের জন্য থেকে থাকবে । যার ফলে আপনার সাইট একটা ব্রেথিং পাবে এর ফলে আপনার সাইট আর স্লো হওয়ার সম্ভাবনা কম থাকবে।
আশা করি Robots.Txt ফাইল সংক্রান্ত সমস্থ বিষয় আপনি বুঝতে পারছেন।
ডিজিটাল মার্কেটিং এ ব্লগ কমেন্ট এর মাধ্যমে এসইও কিভাবে করে এর বিস্তারিত জানতে নিচের ছবিতে ক্লিক করুন।