در حقیقت ایندکسر، صفحه را به پارامترهای آن خرد می کند و تمام این پارامترها را به یک مقیاس عددی تبدیل می کند تا سیستم رتبه بندی بتواند پارامترهای صفحات مختلف را با هم مقایسه کند. در زمان تجزیه و تحلیل اطلاعات، ایندکسر برای کاهش حجم داده ها از بعضی کلمات که بسیار رایج هستند صرف نظر می کند. کلماتی نظیرa ، an،the ، www، is و … از این گونه کلمات هستند[۴۷].
به طور کلی این ماژول کلمات موجود در صفحات را به همـراه URL آن ها در یک جـدول بسیار عظیم لیست می کند. یک خروجی ماژول شاخص دهی بانک اطلاعاتی یا شاخص ساختاری[۵۷] است . این بانک چگونگی پیوند خوردن صفحات را نشان می دهد[۵۵].
۲-۶ دو نمایه اصلی واحد نمایه ساز
- نمایه ساختاری یا لینکی [۵۸]
- نمایه متنی یا محتوایی [۵۹]
واحد آنالیز مجموعه با بهره گرفتن از این دو نمایه و صفحات موجود در مخزن، تنوعی از نمایه های دیگر را می سازد. برای ساختن یک نمایه ساختاری، بخش مرور شده وب توسط خزنده، به صورت یک نمودار دارای گره و خط مدل یافته می شود. هر گره در نمودار یک صفحه وب است و هر خط مستقیم از گره A به گره B نشان دهنده یک لینک فرا متنی از صفحه A به صفحه B است. یکی از کاربردهای این نمودار، یافتن صفحات مرتبط با یک صفحه است.
اگر چه تکنیک های مبتی بر لینک برای افزایش کیفیت و ارتباط نتایج جستجو استفاده شده است، ولی بازیابی مبتنی بر متن مثلاً جستجو برای صفحاتی که شامل برخی کلیدواژه ها هستند، همچنان به عنوان روش اولیه برای تشخیص صفحات مرتبط با سؤال استفاده می شـود. نمایه ها برای بازیابی مبتنی بر متن می توانند از روش هـای سنتی که بر اساس تطابق بین کلید واژه های سؤال و کلید واژه های متن است برای بازیـابی مـدارک متنی استفاده کنند[۴۸].
تعـداد و نوع نمـایه هـایی که به وسیـله واحـد آنالیز مجموعه ساخـته می شـود بستـگی به رابـط موتـور جستجو و نوع اطلاعاتی که به وسیله واحد رتبه بندی استفاده شده است دارد مثلاً رابط موتوری که اجازه می دهد صفحات به یک سایت یا حوزه خاص محدود شوند باید از یک نمایه سایتی که نام هر حوزه را به لیستی از صفحات متعلق به آن حوزه مرتبط می کند استفاده کند.
ساختار نمایه، اندازه و حجم آن در موتورهای جستجوی مختلف، متفاوت است به همین دلیل جستجو با کلید واژه های یکسان نتایج نسبتاً متفاوتی در موتورهای گوناگون در پی خواهد داشت. یکی از مشکلات عمده موتورهای جستجو، اتکای زیاد آنها به نمایه سازی اطلاعات متنی است. این موتورها معمولاً برای نمایه سازی منابع متنی و به ویژه منابع ابرمتن طراحی شده اند. این در حالی است که بسیاری از منابـع موجـود در شبـکه به قالب های دیگر و معمولاً غیـرمتنی مثـل تصـویر یا منـابع دیـداری- شنیداری هستند و برای موتورهای کاوش امکان نمایه سازی بهینه این منابع به راحتی فراهم نیست[۴۸].
یکی دیگر از اجزای موتورهای جستجو ماژول تحلیل مجموعه می باشد. این ماژول کنترل موارد زیر را به عهده دارد:
- تمامی صفحات در حال تغییر هستند.
- احتمال دارد لینکـی که در یـک صفحـه است هیچ ربطـی به این صفحـه از لحاظ محتوایی نداشـته باشد.
خروجی ماژول تحلیل مجموعه، شاخص سودمندی می باشد که پس از تحلیل کل انباره صفحات بدست می آید. این شاخص ها می توانند متفاوت باشند مانند تعداد تصویر در یک صفحه، تعداد لینک ها یا رتبه اقتصادی وب سایت صاحب آن صفحه و … .
بعد از آنکه تمام مراحل قبل انجام شد، موتور جستجوگر آماده پاسخ گویی به سوالات کاربران است.
کاربران چند کلمه را در جعبـه جستجـوی[۶۰] وارد می کنند و سپس با فشـردن دکمه اینتر منتـظر پــاسخ
می مانند[۴۷ و ۴۸].
برای پاسخگویـی به درخواست کاربر، ابتـدا تمام صفحـات موجـود در پایگاه داده که به موضـوع جستجـو شده مرتبط هستند، مشخص می شوند. پس از آن سیستم رتبه بندی وارد عمل شده، آن ها را از بیشترین ارتباط تا کمترین ارتباط مرتب می کند و به عنوان نتایج جستجو به کاربر نمایش می دهد[۴۸].
حتی اگر موتور جستجوگر بهترین و کامل ترین پایگاه داده را داشته باشد اما نتوانـد پاسخ های مرتـبطی را ارائه کند، یک موتور جستجوگر ضعیف خواهد بود. در حقیقت سیستم رتبه بندی قلب تپـنده یک مـوتور جستجوگر است و تفاوت اصلی موتورهای جستجوگر در این بخش قرار دارد[۵۹].
سیستم رتبه بندی برای پاسخ گویی به سوالات کاربـران، پارامترهای بسـیاری را در نظر می گـیرد تا بتـواند بهترین پاسخ ها را در اختیار آنها قرار دارد. در حال حاضر قـدرتمندترین سـیستم رتبـه بندی را گـوگل در اختیار دارد. برای سهولت در بیان مطالب بعدی هر گاه صحبت از بایگانی به میان می آید، مقصود این است که صفحه تجزیه و تحلیل شده و به انباره موتور جستجوگر وارد می شود[۵۷].
اما کلیاتی در کار بسیاری از موتورهای جستجو مشترک و مشابه است که دانستن آنها خالی از لطف نیست. ماژول رتبه بندی پس از غربال کردن نتایج بی ارزش یا کم ارزش آن ها را بر حسب اهمیتشان رتبه بندی و مرتب می کند تا آنچه را که کاربر دریافت می دارد فهرست مرتب شده ای از صفحات مرتبـط با کلیدواژه هایش باشد.
ماژول رتبه بندی در دو دسته کاملاً متفاوت از اطلاعات بهره می گیرد:
- اطلاعات مندرج در درون صفحه
- اطلاعات مندرج در بیرون از صفحه وب یعنی درون صفحـات دیگر. این روش، روش موفـقی
است.
ارزش یک صفحه از نظر ماژول رتبه بندی با توجه با اطلاعات مندرج در درون صفحه به عوامل زیر بستگی دارد[۳۲]:
-
- دفعات تکرار کلمات کلیدی
- ترتیب و مجاورت کلمات کلیدی
- محل درج کلمات کلیدی از لحاظ عنوان پاراگرافی یا متن معمولی
- درج کلمات درون آدرس صفحه در url
- پر رنگ بودن کلمات کلیدی
- بهره گیری از برچسب های توصیفی[۶۱]