বর্তমানের একটা সাধারণ রেওয়াজ হয়ে গ্যাছে, কোন কিছু জানতে হলে গুগল মামাকে জিজ্ঞাস কর। তাহলে গুগল কি সব প্রশ্নের উত্তর জানে? গুগল কি সমগ্র বিশ্বের বিশ্বকোষ? গুগল এর মধ্যে কি আছে যার থেকে আমরা সব উত্তর পেয়ে যাই? তাহলে চলুন জেনে নেয়া যাক,

গুগল হচ্ছে সার্চ ইঞ্জিন। যে তার রোবট বা সফটওয়্যার ব্যবহার করে তার মধ্যে থাকা ওয়েবসাইট গুলো থেকে তথ্য খুজে বের করে আমাদের প্রয়োজন মত দেখায়। আমাদের সার্চ করা বিষয় এর উপর গুগল অ্যানাল্যসিস করে বেস্ট সাইট গুলো প্রদর্শন করে। এটা গুগল কি কি প্রক্রিয়ায় করে?

সার্চ ইঞ্জিন কিভাবে কাজ করে?

1. Crowling: গুগল যে ওয়েবসাইট বা URL গুলো খুজে পায় তার কোড/বিষয় বস্তু অনুসন্ধান পর্যবেক্ষণ করে।

2. Indexing: গুগল crawler দ্বারা খুজে পাওয়া URL গুলো তার ডাটা বেস এ সংরক্ষন করে।

3. Ranking: ওয়েবসাইট-এর গুণগত মান ও পারফরমেন্স অনুযায়ী সার্চ রেজাল্ট এ দ্যাখায়

সার্চ ইঞ্জিনের ক্রলিং কি?


ক্রলিং (Crawling) হল তথ্য খুজে বের করার প্রক্রিয়া, যেখানে সার্চ ইঞ্জিন গুলো নতুন ও আপডেট হওয়া তথ্যকে খুজে পেতে রোবট বা একধরনের সফটওয়্যার ব্যবহার করে।

Crawler মাকড়শার জাল হিসেবে পরিচিত, যা চারিদিকে ছড়িয়ে থাকে। Crawler ওয়েবসাইট-এর যাবতীয় বিষয় থেকে সার্চ ইঞ্জিন কে তথ্য দিতে থাকে, সেটা হতে পারে পেজ, পিডিএফ, লিঙ্ক, ভিডিও ইত্যাদি।

গুগলবোট(google bot) নতুন ওয়েবসাইট-এর URL খুজে বের করে। তারপর সেই ওয়েবসাইট এর লিঙ্ক অনুসরণ করে। লিঙ্কগুলোর পথ অনুসরণ করে গুগলবোট বা স্পাইডার নতুন কন্টেন্ট সন্ধান করতে থাকে এবং এই তথ্য গুলো তাদের ক্যাফিন এ জমা করতে থাকে। এভাবে স্পাইডার আবিষ্কার করে একটি URL এর বিশাল ডাটাবেস। পরে গুগল User এর চাওয়া তথ্য অনুযায়ী তা প্রদর্শন করে।

ইনডেক্সিং কি


সার্চ ইঞ্জিন গুলো নতুন তথ্য খুজে তা প্রক্রিয়া করণ করে, তথ্য স্টোর করে। এভাবে তৈরি করে বিশাল একটি ডাটাবেস। আর এই ডাটাবেস এ তথ্য স্টোর করাই হচ্ছে ইনডেক্সিং।

সার্চ ইঞ্জিন রাঙ্কিং


গুগল এর ইউজার যখন কোন বিষয় সার্চ করে, গুগল সেই সার্চ এর সাদৃশ্য তথ্য ইউজারকে প্রদর্শন করে।

গুগল এর ফাস্ট পেজ তারা ১০টি রেজাল্ট প্রদর্শন করে। সার্চ ইঞ্জিন সবসময় চায় তার ইউজার যেন সঠিক এবং এক সঙ্গে অনেক তথ্য পায়। সেই অনুযায়ী সার্চ ইঞ্জিন গুলো ওয়েবসাইট-এর ক্রম সাজায়। ওয়েবসাইট-এর এই ক্রম-এ হচ্ছে রাঙ্কিং।

রাঙ্কিং এ Crawler এর দেয়া তথ্য অনুযায়ী সার্চ ইঞ্জিন নির্দিষ্ট বিষয় মোতাবেক ওয়েবসাইট-এর ক্রম তৈরি করে ইউজারকে প্রদর্শন করে।

সার্চ ইঞ্জিন কি আপনার ওয়েবসাইট এর পেজগুলো অনুসন্ধান করতে পারে?

সার্চ ইঞ্জিন তার স্পাইডার দিয়ে ওয়েবসাইট-এর সব তথ্য পরে ফেলতে পারে। এই তথ্য যে পেজের মধ্যে দেখায় সেটি হচ্ছে SERP(সার্চ ইঞ্জিন রেজাল্ট পেজ)।

আপনার যদি একটি ওয়েবসাইট থাকে তাহলে আপনি দেখতে পারবেন আপনার ওয়েবসাইটের কয়টা পেজ সার্চ ইঞ্জিন ইনডেক্স করেছে।

উদাহরণ হিসাবে বলতে চাই, কোন ওয়েবসাইটের কয়টি পেজ ইনডেক্স হয়েছে তা দেখতে Google Advaced করতে হবে। Site:”mondolweb.com”

google advanced search

সার্চ ইঞ্জিনের দেয়া এই রেজাল্ট গুলো সঠিক নয়। তবে আপনার ওয়েবসাইটের পেজ সম্বন্ধে এটি ধারণা দেয়।

ভালো রেজাল্ট পাওয়ার জন্যে গুগল সার্চ কনসোল(Google search console) এর ইনডেক্স কভারেজ পেজটি আপনাকে ব্যবহার করতে হবে

এখন আপনার সাইট সার্চ ইঞ্জিনের কোথাও প্রদর্শিত হচ্ছে না, তারও কিছু কারণ আছে

  • আপনার সাইটটি একেবারে নতুন এবং এখনও ক্রল হয়নি
  • আপনার সাইটটি বাহিরের কোন সাইট থেকে লিঙ্ক পায়নি
  • আপনি সাইট এ Robot.txt ব্যবহার করেন তাই স্পাইডার ওয়েবসাইট-এ প্রবেশ করতে পারেনি
  • আপনার ওয়েবসাইট সার্চ ইঞ্জিনের পেনাল্টির অন্তর্ভুক্তির হলে

অনেক সময় ওয়েবসাইট-এ মুল্যবান তথ্য রাখতে পারেন যা আপনি কাউকে দেখাতে চান না। কিন্তু আপনি যদি সঠিক পদ্ধতি অবলম্বন না করেন তাহলে স্পাইডার ঠিকই আপনার সেই তথ্য তার ডাটাবেস এ সংরক্ষন করবে এবং তা সার্চ রেজাল্ট এ দেখাবে।

তাহলে আপনার কি করা উচিত? গুগল স্পাইডার যেন আপনার সেই পেজ এ ঢুকতে না পারে সে জন্য ব্যবহার করা হয় Robot.txt

Robot.txt


Robot.txt ফাইলগুলো ওয়েবসাইটের মুল ডিরেক্টরিতে অবস্থিত। (উদাহরনঃ http://mondolweb.com/robot.txt) যার সাহায্যে আপনি গুগল স্পাইডারকে বলে দিতে পারবেন কোন পেজটি ক্রল করা উচিত আর কোনটি ক্রল করা উচিত নয়।

গুগলবোট বা স্পাইডার কিভাবে Robot.txt ফাইল ব্যবহার করে?


  • যদি গুগলবোট কোনও সাইটের জন্য একটি রোবটস.টি.এস.টি. ফাইল খুঁজে না পায়, তবে এটি সাইটটি ক্রল করার জন্য এগিয়ে যায়।
  • যদি গুগলবোট কোনও সাইটের জন্য একটি রোবটস.টেক্সট ফাইল খুঁজে পায় তবে সেই ফাইলটি এড়িয়ে চলে এবং সাইটটি ক্রল করার জন্য এগিয়ে যায়।
  • গুগলবট যদি কোনও সাইটের Robot.txt ফাইল অ্যাক্সেস করার চেষ্টা করার সময় ত্রুটির মুখোমুখি হয় এবং এটি উপস্থিত থাকতে পারে কি না তা নির্ধারণ করতে না পারলে এটি সাইটটি ক্রল করবে না।

# Block googlebot from example.com/directory1/… and example.com/directory2/…
# but allow access to directory2/subdirectory1/…
# All other directories on the site are allowed by default.
User-agent: googlebot
Disallow: /directory1/
Disallow: /directory2/
Allow: /directory2/subdirectory1/

LEAVE A REPLY

Please enter your comment!
Please enter your name here