دنیای وب پر از اطلاعات است. اگر به دنبال فهمیدن اطلاعاتی هستید، بهاحتمال زیاد میتوانید آن را بهصورت آنلاین پیدا کنید. آیا تابهحال فکر کردهاید باوجود میلیاردها سایت، چگونه پاسخ مناسب به شما نمایش داده میشود؟ چگونه میدانید که باید به کجا مراجعه کنید؟ خوشبختانه، موتورهای جستجو کار پیدا کردن اطلاعات موردنیاز ما را انجام میدهند. اما موتورهای جستجو از کجا آن اطلاعات را میفهمند؟ چگونه موتورهای جستجو تعداد اندکی از سایتها و صفحات را از میان میلیاردها صفحه انتخاب و به ما نشان میدهند؟ خزندههای وب یا web crawlers پاسخ همهٔ این سؤالها است. خزندههای وب یا کراولر، برنامههای کامپیوتری هستند که وب سایت ها را از نظر سئو بررسی میکنند و همهچیز را میخوانند. خزندههای وب با نامهای دیگری مانند spider، بات، کراولر و ایندکسکنندههای خودکار شناخته میشوند. این خزندهها صفحات وب را بررسی میکنند تا کلمات بهکاررفته در آنها را بدانند و بفهمند کجا بهکاررفتهاند. آنگاه این یافتهها را ایندکس میکنند. ایندکس اصولاً لیست بزرگی از کلمات است که صفحات وب به هرکدام مرتبط شده است. بنابراین وقتیکه دریکی از موتورهای جستجو کلمهای را جستجو میکنید، موتور جستجو ایندکسهای مرتبط با آن کلمه را پیدا میکند و لیست صفحاتی که با آن مرتبط است را به کاربر نشان میدهد. خزندههای وب بهطور منظم وبسایتها را چک میکنند، بنابراین ایندکس آنها همیشه بهروز است.
به ربات هایی که گوگل برای جمع آوری اطلاعات از آنها استفاده می کند، کراولر یا خزنده وب می گویند. این ربات ها با نام های مختلفی مانند عنکبوت وب، ربات عنکبوتی و ربات وب هم شناخته می شوند. کراولرها در تمام صفحات اینترنت گردش می کنند و سپس این اطلاعات را به سرورهای مرکزی خود می فرستند. این خزنده ها می توانند داده های جدید و طبقه بندی آنها را شناسایی کنند و به این ترتیب دامنه اینترنت را گسترش دهند. در حال حاضر موتورهای جستجوی زیادی وجود دارند که از جمله آنها می توان Google ، Yahoo، Bing، Ask، Aol، DuckDuckGo، Baidu، Yandex، Internet archive و ... را نام برد. هر یک از این موتورهای جستجوگر از ربات های مخصوصی استفاده می کنند.
برای شروع خزنده ها یا همان Spider-Crawler نیاز به یک سری URL ها ( آدرس های وب ) دارند که اصطلاحا به آنها seed گفته می شود . هنگام پردازش این آدرس ها ، لیست لینک ها و آدرس های موجود در صفحات آن ها را گردآوری کرده و به لیست ابتدایی اضافه می کنند ، در هر بار ورود خزنده ها به یک صفحه وب , برای مشاهده هر لینکی در آن صفحه ، چه آن لینک آدرس یک عکس از سایت دیگر باشد و چه آن لینک آدرس یک صفحه اینترنتی دیگر باشد و چه آدرس یک فایل باشد , به ازای هر کدام از آن لینک ها اصطلاحا یک Hit محاسبه و ذخیره خواهد شد .
در حقیقت وقتی یک خزنده وارد سایتی می شود که در آن عکسی وجود دارد که آدرس آن از جای دیگری است یک Hit محاسبه می شود برای مثال صفحه ای که 4 عکس و 6 لینک در آن می باشد 4 Hit آن مربوط به همان 4 عکس می شود چرا که به ازای آن 4 عکس به آدرس دیگری خزیده شده است و 6 Hit دیگر مربوط به لینک ها می باشد . پس از هر خزیدن اطلاعاتی که اسپایدر ها جمع آوری نموده اند به برنامه ای دیگر به اسم Indexer تحویل داده خواهد شد و آن ها هستند که با الگوریتم های گوناگونی مثل پاندا , پنگوئن و ... تمام محتوای جمع آوری شده را تجزیه و تحلیل نموده و در نهایت به شما جایگاهی در جستجوی یک کلمه کلیدی ویا یک عبارت داده خواهد شد .
شما می توانید این خزیدن ها توسط روبات ها و اسپایدر های گوگل و زمان های خزش آن ها و مدت زمانی که در سایت شما سپری کرده اند و هم چنین حجم اطلاعاتی را که به Indexer ها تحویل داده اند را در کنسول گوگل وب مستر مربوط به سایت خود در قسمت Crawl مشاهده نمایید .
نتیجه گیری :
همانطور که در ابتدا تا اینجای کار گفته شد، نقش خزنده گوگل برای ایندکس شدن صفحات سایت بسیار پررنگ است. هرچه لینکسازی شما بهینهتر و سئوپسندتر (seo friendly) باشد، خزش خزنده گوگل راحتتر و سریعتر اتفاق خواهد افتاد. البته در لینکسازی باید عمق سایت و مسیر خزش را هم در نظر گرفت. در صورتی که محتوای شما در عمق پایینی از سایت قرار گرفته باشد و با توجه به کراول باجت سایت (crawl budget)، ممکن است که خزنده گوگل قادر به شناسایی و خزش در آن صفحه نباشد. بنابراین مسیر لینکسازی تاثیر مهمی بر ایندکس شدن صفحات دارد. همچنین وجود سایت مپ به ربات خزنده کمک میکند تا از آپدیت، انتشار یا حتی حذف صفحات سایت شما بهتر و سریعتر باخبر شود. ذکر این نکته نیز در پایان خالی از لطف نکنید که معمولا مدت زمان ایندکس صفحات سایت از یک روز تا ۴ هفته است. پس تا ۴ هفته شما باید صبر کنید و به خزندهها فرصت شناسایی سایت را بدهید. اما در صورتی که پس از ۴ هفته محتوای شما در گوگل ایندکس نشد بهتر است به سراغ موارد بالا که در مورد چرایی ایندکس نشدن محتوا گفته شد بروید و درصدد برطرف کردن عیبها و مشکلات موجود برآیید.