وبلاگ

موتور جستجوی گوگل چگونه کار می کند؟

 

موتور جستجوی گوگل

چگونگی ثبت سایت در موتور جستجوی گوگل همیشه یکی از سوا های افراد تازه وارد در حوزه ی دیجیتال می باشد. به همین منظور  سعی شده تا حد امکان با خواندن این مطلب، جواب سوالاتی مانند چگونگی پیدا کردن وب سایت ها توسط گوگل، چگونگی خزیدن ربات های گوگل در وب سایت ها و چگونگی نمایش سایت ها در نتایج جستجوی گوگل را پیدا کنید.

در بررسی وب سایت شما توسط ربات های گوگل سه مفهوم کلی در میان است :

۱) خزیدن (Crawling)

۲) ایندکس (Index)

۳) خدمت رسانی (Serving)

در ادامه به توضیح این سه مفهموم می پردازیم:

نمایش سایت ما در موتور جستجوی گوگل

خزیدن (Crawling)

بعد از اینکه وب سایت خود را طراحی کردید و اجازه ی ورود خزنده های گوگل به آن را دادید. فرآیند بررسی سایت شما توسط ربات گوگل شروع می شود. این ربات که به اسم عنکبوت هم شناخته می شود به وسیله ی تعداد زیادی هسته های کامپیوتری پشتیبانی شده است. الگوریتم های خاصی که بر روی این ربات پیاده کرده اند؛ به او، این دانش را داده که سایت های تازه تاسیس را تشخیص داده و برای ایندکس کردن آن ها کارهای لازم را انجام دهد.

بعد از اینکه خزنده های گوگل وارد وب سایت شما شدند؛ وارد فایل Site Map می شوند که قبلا توسط طراح سایت برای دسترسی این خزنده ها تعبیه شده است. وجود سایت مپ باعث می شود تا کار گوگل سریع تر انجام شود و امتیاز خوبی به سایت شما بدهد. البته نبود آن نیز جلوی بررسی صفحات سایت شما را نمی گیرد اما وجود یک فایل Site Map در سئو On Site شما تاثیر مثبت زیادی خواهد داشت.

باید بدانید که خزنده های گوگل تنها یک بار به سایت شما سر نمی زنند. ربات گوگل بعد از اولین خزش، وب سایتتان را در نظر می گیرد و هر چند وقت یک بار به سایت شما سر می زند. هرچه بیشتر سایت خود را به روز رسانی کنید خزنده های گوگل زودتر به سایت شما باز می گردند و هرچه این سر زدن ها بیشتر شود؛ سایت شما نیز زودتر در جستجو های گوگل نمایش داده خواهد شد.

برای اینکه پروسه ی Crawling برایتان سریع تر اتفاق بیافتد باید سایت خود را در بخش وبمستر گوگل ثبت کنید تا در صف انتظار قرار بگیرد. البته انجام ندادن این کار مانع ورود خزنده ها به سایت شما نمی شود و فقط زمان آن را طولانی تر می کند.

ایندکس (Index)

برای اینکه وب سایت شما توسط موتور جستجوی گوگل شناسایی و نمایش داده شود؛ باید ایندکس شده باشد. این روند وقتی اتفاق می افتد که گوگل کلیه ی اطلاعات سایت شما را پردازش کرده و آماده ی انتشار آن باشد. بعد از اینکه اطلاعات جدید را وارد سایت کردید برای ایندکس شدن آن ها باید تا حضور بعدی خزنده ها در سایتتان صبر کنید. به منظور سرعت بخشیدن به پروسه ی ایندکس یک سایت، باید از قابلیت “Fetch As Google” استفاده کنید. این کار را می توانید از طریق اکانت گوگل وب مستر خود انجام دهید.

از عواملی که به ایندکس بهتر و سریع تر سایت شما کمک می کند می توان به ساخت اکانت گوگل وبمستر، استفاده از قابلیت Fetch As Google، ایجاد Site Map و … اشاره کرد.

خدمت رسانی (Serving)

خدمت رسانی بر خلاف Index و Crawling حاصل دست رنج و تلاش شما می باشد. در واقع بخش اعظم پروسه  Serving توسط شما انجام می شود. نحوه ی تولید محتوا سایتتان و ارتباط آن با کلمه ی کلیدی مورد نظر، سئو On site و Off Site، رعایت قوانین گرافیکی در سایت، همه و همه در خدمت رسانی سایت شما تاثیر چشم گیری دارند.

بعد از ایندکس شدن سایت نوبت به نمایش آن در موتور جستجوی گوگل می رسد. همه ی عواملی که قبل تر به آن ها اشاره کردیم بر روی انتخاب سایت شما برای نمایش، نسبت به کلمه ی سرچ شده تاثیر دارد. هرچه الگوریتم های تعریف شده ی گوگل را بیشتر رعایت کرده باشید، سایتتان نیز از لحاظ خدمت رسانی بهتر عمل می کند و امتیاز بالاتری دریافت خواهد کرد. در واقع گوگل زمانی سایت شما را انتخاب می کند که بداند بهترین نتیجه را برای فرد سرچ کننده خواهید داشت.

به طور کلی این سه مفهوم بر روی نمایش وب سایت شما در گوگل دخالت دارند. از زمانی که طراحی سایتتان پایان می یابد تا اولین نمایش آن در موتور جستجوی گوگل هر یک از این سه  مورد گفته شده پروسه ای مخصوص به خود را بر روی سایت انجام می دهند. و اینگونه می شود که یک وب سایت تازه طراحی شده در گوگل نمایش داده خواهد شد.

آیا می دانید موتور های جستجو چگونه کار می کنند؟

آموزش موتورهای جستجو

حال که با مفاهیم اولیه و اصطلاحات مرتبط با ساختار موتورهای جستجو آشنا شدید. بهتر است از نحوه ی عملکرد آن ها نیز شناخت پیدا کنید. از این طریق می توانید تا حد زیادی واکنش های موتور جستجوی گوگل را پیشبینی کنید و بهترین راه را برای بهینه سازی سایتتان انتخاب کنید.

چه مواردی برای موتور جوستجوی گوگل مهم است؟

همانطور که در مقاله ی ” هوش مصنوعی گوگل (Rank Brain) چیست؟ ” اشاره کردیم؛ مهم ترین فاکتور هایی که گوگل بر اساس آن ها به سایت شما رتبه می دهد: لینک ها و محتوای سایتتان است.

اما فارغ از این دو مورد؛ موارد دیگری نیز در پشت صحنه ی سایتتان وجود دارند که خزنده های موتور جستجوی گوگل توجه ویژه ای به آن ها دارند.

اگر برنامه نویس سایت نباشید؛ این موارد از عهده ی شما خارج هستند. زیرا اکثر آن ها نیاز به کدنویسی دارند.

حال می خواهیم با هم این موارد را بررسی کنیم.

۵ پروتکلی که موتور جستجوی گوگل از آن ها استفاده می کند

۱-Sitemaps

سایت مَپ ها در واقع لیستی هستند که در آن تعداد زیادی فایل وجود دارد.این فایل ها وظیفه ی دارند تا خزنده های موتور جستجوی گوگل را راهنمایی کنند. این کار کمک می کند تا خزنده های گوگل بدانند به چه نحوی در سایت شما بخزند و اطلاعاتتان را بررسی کنند.

همچنین این فایل ها به موتور جستجو کمک می کنند تا به محتوای طبقه بندی شده ی سایت شما دسترسی پیدا کنند. محتواهایی که به خودی خود نمایش داده نمی شوند.

Sitemap ها در فرمت های مختلفی وجود دارند که می توانند انواع محتوا را در دسترس قرار دهند. این موارد شامل: محتوای ویدئویی، محتوای تصویری، محتوای خبری و محتوای مخصوص گوشی موبایل هستند.

شما می توانید با مراجعه به سایت Sitemaps.org جزئیات بیشتری درباره ی سایت مَپ ها بدست بیاورید.

همچنین با مراجعه به سایت XML-Sitemaps.com خواهید توانست فایل سایت مَپ مخصوص به خود را درست کنید.

سایت مَپ ها را می توان در سه فرمت مختلف تهیه کرد:

XML

نام این فرمت خلاصه شده ی عبارت “Extensible Markup Language” به معنی “زبان نشانه گذاری قابل توسعه” است.

مزیت

این فرمت گسترده ترین و پر استفاده ترین نوع Sitemap است که باعث می شود موتورهای جستجو به راحتی اطلاعات آن را تجزیه و تحلیل کنند و همچنین می تواند توسط تعداد زیادی از ژنراتورهای Sitemap تولید شود. درضمن این فرمت اجازه دارد تا به جزئی ترین پارامتر های کنترل صفحات سایت دسترسی داشته باشد.

عیب

بزرگترین عیب این فرمت حجم بالای آن است. حتی در صورتی که XML به یک تگ باز و یک تگ بسته نیاز داشته باشد؛ حجم فایل Sitemap بیشتر نیز خواهد شد.

RSS

نام این فرمت خلاصه شده ی عبارت “Rich Site Summary” به معنی “خلاصه ی کامل سایت” است.

مزیت

نگهداری از آن ها آسان است. RSS ها می توانند به راحتی کدنویسی شوند تا به طور خودکار هنگام اضافه شدن محتوا به روز رسانی شوند.

عیب

مدیریت آن ها سخت است. RSS ها در واقع نوعی از همان فرمت XML هستند. با این تفاوت که به دلیل داشتن تنظیمات به روز رسانی، سخت تر می شود با آن مدارا کرد.

TXT

فایل متنی

مزیت

بسیار راحت است. شما می توانید از ۱ تا ۵۰,۰۰۰ خط URL وارد این فایل کنید.(هر URL باید در یک خط قرار داشته باشد.)

عیب

این فرمت قابلیت اضافه کردن متا دیتا به صفحات را ندارد.

۲-Robots.txt

نحوه ی جستجوی گوگل

فایل Robots.txt محصولی از Robots Exclusion Protocol است که اطلاعات شاخه ی اصلی سایتتان (Root directory) را در خود ذخیره می کند.

Robots.txt تمام آموزش های لازم را به خزنده های خودکار فضای وب، به خصوص خزنده های جستجو گر می دهد تا به بهترین نحو سایت شما را بررسی کنند.

وبمستر ها می توانند با استفاده از فایل Robot.txt به موتورهای جستجو نشان دهند که بهتر است چه بخش هایی از سایت را نادیده بگیرند. در نتیجه به همین شکل می توانند مکان دقیق فایل Sitemap را نشان دهند.

یکی دیگر از کاربرد های Robot.txt نشان دادن پارامترهای Crawl Delay است که تا حد زیادی سرعت عمل خزنده ها را بهبود می بخشد.

برای مشاهده ی جزئیات بیشتر درباره ی این فایل  می توانید به این مقاله در سایت ماز که درباره ی Robot.txt نوشته شده است؛ مراجعه کنید.

حال می خواهیم به توضیح چند اصطلاخ در مورد کار با Robot.txt بپردازیم:

Disallow (نادیده گرفتن)

این اصطلاح یعنی از دسترسی ربات ها به برخی صفحات خاص جلوگیری می شود.

Sitemap

محل قرار گیری فایل های سایت مَپ را برای هر وب سایت نشان می دهد.

Crawl Delay

نشان دهنده ی سرعت خزش ربات ها در سایت، بر حسب ثانیه است.

توجه: تمام ربات های تحت وب از فایل Robot.txt پیروی نمی کنند. در بسیاری از موارد دیده شده که افرادی که مقاصد شوم دارند؛ پروتکل های گفته شده را دنبال نمی کنند و به راحتی فایل های محرامانه و بخش های مدیریتی سایت شما را شناسایی می کنند. برای جلوگیری از این موضوع لازم است تا دسترسی عمومی به این اطلاعات را داخل فایل Robot.txt از بین ببرید. در عوض صفحات می توانند از تگ های Meta Robots استفاده کنند و موتور های جستجو را از محتواهایی که دارای ریسک بالا هستند دور نگه می دارند.

۳-Meta Robots

متا ربات ها با طبقه بندی صفحات، یک دستورالعمل جامع برای ربات های جستجوگر ایجاد می کنند.

Meta Robot ها باید در بخش ابتدایی فایل HTML قرار بگیرند.

به مثال زیر توجه کنید:

<html>
<head>
<title>The Best Webpage on the Internet</title>
<meta name=”ROBOTS” content=”NOINDEX, NOFOLLOW”>
</head>
<body>
<h1>Hello World</h1>
</body>
</html>

در مثال بالا نشان دادیم که در این مورد خاص، ربات ها اجازه ی ایندکس کردن این صفحه را ندارند. همچنین به دلیل NoFallow بودن لینک های آن، خزنده ها اجازه ندارند بعد از اینکس لینک های صفحه، امتیاز سایت مبدا را به سایت مقصد بدهند.

۴-“rell=”Nofollow

درواقع “nofollow” به خزنده های گوگل دستور می دهد تا لینک های مجود در صفحه را فالو نکنند و از ارزش گذاری برای آن لینک ها خودداری کنند. اما با این حال برخی از ربات های جستجوگر برای پیدا کردن صفحات جدید این لینک ها را فالو می کنند.

بدیهی است که اینگونه لینکها دارای ارزش سئویی پایین تری نسبت به لینک های Dofollow هستند.(در خیلی از موارد اصلاً ارزشی ندارند.)

اما اینگونه لینک ها در شرایطی که دارای منبعی غیر قابل اعتماد هستید می توانند مفید واقع شوند.

۵-“rell=”Canonical

گاهی اوقات ممکن است از یک صفحه چندین کپی با محتوای یکسان به وجود بیاید که هر یک از این کپی ها دارای URL ای متفاوت باشند. برای مثال می توان یک صفحه ی Home Page را با URL های زیر در نظر گرفت:

  • http://www.example.com/
  • http://www.example.com/default.asp
  • http://example.com/
  • http://example.com/default.asp
  • http://Example.com/Default.asp

برای موتور جستجوی گوگل و خزنده های آن، هر یک از این URL ها صفحه ای مجزا به حساب می آیند. از آن جایی که محتوای همه ی این URL ها یکسان است گوگل ارزش این صفحات را پایین در نظر می گیرد و رتبه ی خوبی به آن ها نخواهد داد.

برای حل این مشکل، باید از تگ “Canonical” استفاده کرد. این تگ ربات های گوگل را توجیح خواهد کرد که کدام صفحه منحصر به فرد است و صفحه ی شاخصی که آن ها باید آن را در نظر بگیرند کدام یک از این URL ها هستند.

به مثال زیر دقت کنید:

An Example of rel=”canonical” for the URL http://example.com/default.asp

<html>
<head>
<title>The Best Webpage on the Internet</title>
<link rel=”canonical” href=”http://www.example.com”>
</head>
<body>
<h1>Hello World</h1>
</body>
</html>

در این مثال تگ canonical به ربات ها اطلاع داده که URL صفحه ای که دارند آن را بررسی می کنند؛ یک کپی از آدرس “http://www.example.com” است. در نتیجه آن ها باید آدرس دومی را به عنوان URL اصلی و معتبر در نظر بگیرند.

امیدواریم که با این مقاله توانسته باشیم اطلاعات شما را نسبت به عملکرد موتور جستجوی گوگل و سایر موتورهای جستجو بیشتر افزایش دهیم. بعد از خواندن این مطالب، مطالعه ی مقاله ی “بهینه سازی سایت چیست و چگونه باید آن را انجام داد؟” می تواند دید شما را نسبت به سئو وسیع تر کند.

آموزش طراحی سایت با e-cds

برچسب ها

نوشته های مشابه

پاسخی بگذارید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا
بستن