عنوان مقاله

+

مقاله  طرز کار موتورهای جستجوگر

فهرست مطالب

+

  • مقدمه ۱
  • فصل اول درآمدی بر کاوش در شبکه اینترنت 
  • ۱-۱- مقدمه ۵
  • ۱-۲- تاریخچه اینترنت  ۶
  • ۱-۳- (وب)  ۸
  • ۱-۴- ساختار ایستگاههای اطلاعاتی شبکه وب ۱۱
  • ۱-۵- موتورهای گاوش  ۱۴
  • ۱-۶- ساختار موتورهای کاوش ۱۷
  • ۱-۷- ابر موتور کاوش  ۱۹
  • ۱-۸ خلاصه ۲۱
  • فصل دوم شناسایی موتورهای کاوش 
  • ۲-۱- مقدمه ۲۲
  • ۲-۲- ویژگیهای نرم افزار کاوش ۲۳
  • الف) کاوش براساس گزینه های مختلف  ۲۳
  • ب)محدودسازی حیطه کاوش ۲۴
  • ج) استفاده از عملکردهای ترکیبی – منطقی  ۲۵
  • د) بهینه سازی کاوش  ۲۷
  • هـ) نمایش بهینه نتایج  ۲۹
  • فصل سوم تاریخچه موتورهای جستجو  
  • ساختارهای موتورهای جست و جو ۳۳
  • خزنده ها ۳۴
  • بانک اطلاعاتی موتور جست و جو ۳۵
  • برنامه شاخص بندی و شاخص ۳۶
  • موتور بازیابی ۳۷
  • واسط HTML 38
  • بانک اطلاعاتی در ورای بانک اطلاعاتی  ۳۸
  • ویژگی های دروازه ۳۹
  • اجزای صفحه اول موتور جست و جو ۴۱
  • گزینه های بانک اطلاعاتی  ۴۴
  • کادر تقاضا ۴۴
  • گزینه های اصلاح کننده تقاضا ۴۴
  • پیوند به نسخه های پیشرفته تر ۴۵
  • آگهی تبلیغاتی ۴۵
  • دایرکتوری (موضوعات، کانال ها و دسته بندی)  ۴۵
  • ارتقای سایت ۴۷
  • سایر ویژکی های دروازه  ۴۷
  • پیوندهای Help 47
  • چه انتظاری از این خدمات دارید ۴۷
  • موضوعات یا نواحی تحت پوشش موتورهای جست و جو ۵۱
  • روزآمد کردن موتورهای جست و جو ۵۱
  • عوامل بازیابی و رتبه بندی  ۵۲
  • ملاک های مقایسه موتورهای جست و جو  ۵۵
  • هم پوشانی بازیابی بین موتورهای جست و جو  ۵۷
  • فصل چهارم گزینه های جست و جوی متداول  
  • انتخاب چیزی که باید جست و جو شود  ۵۸
  • منطق بولی ۵۹
  • قابلیت تودرتویی (استفاده از پرانتزها) ۵۹
  • اختصار متن های جست و جو ۶۱
  • حست و جوی عبارت و همسایگی ۶۲
  • جست و جوی نام ۶۳
  • جست و جوی فیلدها (جست و جوی بخشی از رکود) ۶۴
  • عنوان (Title) 65
  • تاریخ (Date) 66
  • یوآرال (URL) 72
  • تصاویر و سایر رسانه ها  ۷۲
  • سایر محتویات صفحه  ۷۳
  • پیوندها ۷۳
  • جست و جوی تاریخ – ملاحظات ویژه  ۷۳
  • یافتن رکورد از طریق شباهت ۷۴
  • گزینه های خروجی  ۷۴
  • نکاتی در مورد جست و جوی تصویر ۷۵
  • نکات کلی در مورد جست و جو ۷۸
  • نسخه های بین المللی  ۸۵
  • در مورد وضعیت موتورهای جست و جو  ۸۵
  • ویژگی های دروازه ۸۶
  • نتیجه گیری ۸۷
  • منابع ۸۹
  • ///////////////////////////////////////////////////////////////////////////////////////////////

بخشهایی از متن این مقاله : 

 

مقدمه

حتماً این جمله معروف را شنیده اید که گفته اند: اگر در سال ۲۰۰۰ کسی کامپیوتر نداند، بی سواد است. اما امروزه باید گفت هر کامپیوتری که به اینترنت وصل نباشد، بی فایده است و از دنیای اطلاعات بی بهره خواهد بود.

دنیای امروز در اینترنت خلاصه شده است، به طوری که مثالات، کتاب ها، روزنامه ها، اخبار، اطلاعات علمی، فرهنگی، آموزشی، فناوری، تکنیکی، خرید الکترونیکی، تجارت الکترونیکی و غیره در اینترنت مهیا است. آنچه که در دنیای ا نسان ها وجود داشت، امروزه در اینترنت وجود دارد. عدم ارتباط با اینترنت به معنای عدم ارتباط با دنیایی است که در آن زندگی می کنید.

اینترنت منبع عظیمی از اطلاعات است که هرکسی می تواند اطلاعاتی را به آن اضافه کند. مخزن اطلاعاتی است که اگر کسی به درستی وارد آن نشود، در آن غرق خواهد شد. چگونه باید از اطلاعات موجود در اینترنت استفاده کرد؟ پژوهش گران زیادی در سراسر دنیا وجود دارند که از اطلاعات موجود در اینترنت بهره می برند. دستیابی بهینه به اطلاعات موجب دقت در پژوهش و صرفه جویی عجیبی در وقت پژوهش گران شده منابع آن ها را به هدر نمی دهد.

برای دستیابی سریع و مؤثر به اطلاعات، ابزارهای گوناگونی فراهم شده اند. دایرکتوری های وب، یکی از این ابزارها هستند که اطلاعات را طبقه بندی می کنند و اطلاعات مرتبط به هم را در یک سطح از سلسله مراتب دایرکتوری قرار می دهند. موتورهای جست و جو ابزارهای جست و جوی قدرتمندی هستند که اطلاعات را بازیابی می کنند. هر موتور جست و جو بانک اطلاعاتی مخصوص به خود را دارد که صفحات وب موجود در اینترنت را در آن ها نگهداری می نمایند. هرچه بانک اطلاعاتی موتور جست و جو بزرگ تر و غنی تر باشد، اطلاعات مرتبط و مؤثری را در اختیار قرار می دهد.

اطلاعات به دو شکل در بانک های اطلاعاتی موتورهای جست و جو قرار می گیرند. یک روش این است که ناشرین صفحات وب، آن ها را در اختیار موتورهای جست و جو قرار می دهند. در روش دیگر، موتورهای جست و جو برنامه هایی به نام های عنکبوت یا خزنده دارند که در وب می خزند و صفحات جدید (یا صفحات تغییریافته) را می یابند و به بانک اطلاعاتی خود می افزایند.

این پروژه تلاشی است در جهت معرفی ویژگی های موتورهای جست و جو، و بررسی چند موتور جست و جوی مهم. پژوهش گران از طریق آشنایی با این موتورهای جست و جو و ویژگی های هرکدام، می توانند به راحتی و به طور مؤثر از اطلاعات موجود در اینترنت بهره ببرند.

بخشی از این پروژه، از کتاب Web Search Englnes ترجمه شده است و بخشی دیگر توسط نگارنده تدوین شده است.

سرعت و میزان تولید علم در جهان و روشهای نوین گرد آوری، پردازش و توزیع اطلاعات از یک سو و نیاز رو به تزاید جوامع انسانی به استفاده از نمودهای مختلف اطلاعات از دیگر سو، منجر به پدید آمدن دوره اجتماعی خاصی موسوم به عصر اطلاعات شده است، تأثیر شگرف این دوره بر وجوه [۱]مختلف حیات جوامع کاملاً مشهود است: از امور ساده تهیه بلیت و خرید از فروشگاهها تا فرایندهای پیچیده گردش امور مالی در نظام بانکداری، دانشگاههای مجازی، دوراپزشکی، دولت الکترونکی و حتی در سطح بالاتر تغییر تلقی از مقوله امنیت ملی؛ چه اگر کمی پیشتر حمله فیزیکی دشمن به پایگاههای انسانی، نظامی یا صنعتی نمادی از اختلال در امنیت به شمار می آمد، اینک نفوذ به منابع اطلاعاتی نظامی، اتقصادی ، صنعتی و سیاسی کشور از طریق گذرگاههای الکترونیکی، خطری جدی برای امنیت ملی محسوب می شود، خطر بالقوه ای که نمودی از آن را جهانیان در آغاز سال ۲۰۰ میلادی و همراه با بحران موسوم به شاهد بودند.

رشد و توسعه ناشی ازکاربست سازوکارهای منبعث از فناوری اطلاعات و رسوخ آثار گوناگون آن در تار و پود زندگی روز مره سبب پیدایش مرحله نوینی از تکوین حیات جمعی موسوم به جامعه اطلاعاتی [۲] شده است؛ این شکل جدید همزیستی دارای دو ویژگی اساسی است:

الف – کوتاه شدن فاصله ها و تبدیل به مجوعه اجتماعی واحد؛

ب – گردش اطلاعات به مثابه شریان اصلی حیات جامعه.

اگر تعبیر « مک لوهان» را بپذیریم که با اختراع ماشین چاپ، انسان وارد «کهکشان گوتنبرکی» شد باید اذعان داشت که با اختراع افزارهای جدید مخابراتی، بشر در «کهکشان مارکونی» به سیر و سلوک می پردازد! کهکشانی که در آن ارتباطات به کمک امواج نامرئی الکترو مغناطیسی وبا سرعت نور امکانپذیر می شود و همین امر موجب کوتاه شدن فاصله ها، کوچک شدن جهان و به تعبیری پدید آمدن «دهکده جهانی»[۳] می گردد. دهکده ای که گردش و فراورش اطلاعات در بستر حاصل از فناوری اطلاعات، رکن قوام آن است.

گرچه معابر مختلفی برای نقل و انقال اطلاعات قابل تصور است اما در حال حاضر اینترنت اصلی ترین بزرگراه جابه جایی داده های شبکه های مختلف می باشد که از طریق آن امکان تردد اشکال مختلف اطلاعات (اطلاعات متن، صوت، تصویر، گرافیک و … ) مهیا شده است، رشد حیرت افزای اطلاعات موجود در شبکه اینترنی و افزایش سریع کاربران آن سبب پدید آمدن حوزه های خاص اطلاعاتی در این شبکه شده که دستیابی قانونمند به آنها از طریق موتورهای کاوش[۴] امکانپذیر است.

در ساده ترین تعبیر، موتورکاوش بسته ای نرم افزاری [۵] است که به کمک نمایه اطلاعتی[۶] خود امکان بازیابی و دسته بندی اطلاعات مورد نیاز کاربر را فراهم می سازد. موضوع اصلی این کتاب بر تبیین عملکرد و شناسایی موتورهای کاوش اینترنت اختصاصی دارد و بدین لحاظ مطالب در سه فصل تدوین شده است:

فصل اول: این فصل با بررسی مفاهیم اساسی اینترنت و پروتکلهای[۷] اصلی آن، ساختار موتورهای کاوش را تبیین واز اینرهگذر مفهوم ابرموتور کاوش[۸] و تفاوتهای عمده آن را با موتور کاوش بیان می نماید.

هدف اصلی از تدوین این فصل آشنا ساختن خواننده با مبانی اصلی تار جهانگستر [۹] و ویژگیهای پایگاههای اطلاعاتی موجود درآن و نیز تشریح روند اصلی کاوش در اینترنت است.

فصل دوم: این فصل بتفصیل به تشریح ویژگیهای موتورهای کاوش می پردازد و به همین دلیل در ابتدا مهمترین وجوه نرم افزار کاوش این افزار مورد توجه قرار می گیرد و پس از آن در بخشی جامع،
اصلی ترین موتورها و ابر موتورهای کاوش اینترین شناسایی می گردد. این موتورها براساس حروف الفبای نام آنها منظم شده و پس از ذکر نشانی اینترنتی آنها، نمایی از صفحه اصلی[۱۰] آنها نشان داده شده است.

معرفی هر یک از موتورها مشتعال بر دو بخش اصلی است: در بخش امکانات مهمترین ویژگیها و توانمندیهای مختلف موتور در بازیابی اطلاعات بیان شده و سپس راهنمای کاوش نکات اصلی کاوش و چگونگی دستیابی به اطلاعات مفید به کمک آن موتور تبیین گردیده است. این بخش به شناسایی حدود یکصد موتور کاوش مهم در اینترنت می پردازد و سعی شده مهمترین موتورهای کاوش در هر یک از زمینه های: علمی، فنی، تجاری، جغرافیایی ، کتابخانه ای، دانشگاهی، ورزشی، عمومی و … مورد پوشش قرار گیرد. با توجه به گستره وسیع موتورهای کاوش در زمینه های مختلف در بخش دیگری از این فصل به دسته بندی موضوعی موتورهای کاوش و معرفی پرکاربردترین موتورها در هر یک از دسته ها پرداخته شده است.

حجم وسیع داده های موجود در نمایه موتورهای کاوش و امکانات فراوان آنها در بازیابی اطلاعات، تشخیص موتور کاوش بهینه را با دشواریهای فراوانی مواجه می سازد؛ از این رو در بخش پایانی فصل دوم سعی شده است مناسبترین موتورهای کاوش در زمینه های مختلف تعیین گردد، شیوه تعیین موتور مناسب مبتنی بر روش شناسی [۱۱] مقایسه تطبیقی موتورهای کاوش و بر اساس تحقیقات مفصلی است که نگارنده مسؤولیت اجرای آن را در طی هجده ماه بر عهده داشته و در طی آن با تعیین کلید واژگان استاندارد در گرایشهای مختلف رشته های علمی و با انجام دقیق جستجو در موتورهای اصلی کاوش اینترنت وبازیابی و مقایسه نتایج حاصل، رتبه هر یک از موتورهای مورد مطالعه تعیین گردیده است . روند کامل مطالعه و تحقیق مورد بحث در مراجع مذکور در پایان کتاب ذکر شده است و به دلیل احتراز از اطاله کلام در این کتاب صرفاً به اصول کلی و نتایج حاصل از آن اکتفا شده است.

 

فصل اول – درآمدی بر کاوش در شبکه اینترنت

۱-۱- مقدمه

اینترنت به عنوان شاخصترین نماد عصر اطلاعات، با سرعتی حیرت افزا در طی دهۀ اخیر رشد کرده و به عنوان بستر اصلی انتقال اطلاعات میان شبکه های مختلف رایانه ای به کار گرفته شده است. تا پیش از حضور اینترنت، سه رسانۀ اصلی روزنامه/ کتاب، رادیو/ تلفن و تلویزیون وظیفۀ جابه جایی اطلاعات را به سه شکل اصلی نوشتاری، شنیداری و دیداری- شنیداری بر عهده داشتند؛ لیکن اینترنت به عنوان رسانۀ جدید علاوه بر داشتن همه ویژگیهای توأم رسانه های پیشگفته، دو مشخصۀ ممتاز را نیز به همراه دارد: نخست اینکه امکان ارتباط دو طرفه و متعامل میان کاربر و رسانه را به وجود می آورد و دیگر آنکه جا به جای شکلهای دیگر داده ها ( خارج از صوتهای نوشتاری، دیداری و شنیداری ) را نیز امکانپذیر می سازد. در تشریح ویژگی نخست، اشاره به این نکته ضروری است که رسانه های موجود تنها امکان بهره برداری یکسویه از اطلاعات موجود را فراهم می آورند به عنوان مثاب بینندۀ تلویزیونی صرفاً کاربری منفعل است که در معرض دریافت امواج اطلاعاتی قرار گرفته و نمی تواند خود نیز به طور همزمان بر رسانۀ کاربردی مؤثر واقع شود. اما محیط اینترنت، افزار مناسبی را برای تعامل میان کاربر و رسانه فراهم می آورد که از طریق آن هم قدرت گزینش کاربر استفادۀ دیگران باشد. این ویژگی یکی از مخاطرات اصلی پدید آمدن رسانه های ارتباطاتی را نیز برطرف می سازد: گرچه پیدایش رسانه های مختلف در بدو امر سبب افزایش ارتباطات جمعی و نزدیکی بیشتر افراد جامعه گردید لیکن در گذر زمان، جریان یکسویۀ اطلاعات و عدم تأثیر گذاری کاربر بر رسانه،‌موجب انزوای بیش از پیش انسانها گردید و بر تنهایی آنها افزود؛ اما ظهور اینترنت و حضور فعال کاربر در محیط این رسانه، افزایش ارتباطات فعال و حضور هوشمندانۀ کاربر را به همراه دارد و این موضوع مانع از عزلت انسانها می گردد.

از سوی دیگر یکی از مهمترین امتیازات اینترنت امکان انتقال صورتهای ترکیبی داده ( مانند آمیزه ای از اطلاعات نوشتاری، دیداری و شنیداری ) است؛ ضمن اینکه اینترنت محمل مناسبی را برای جابه جایی اطلاعات بویایی و لامسه پدید آورده است؛ اینک امکان دریافت رایحه های مختلف ( با شدت و ضعف قابل تنظیم ) از طریق اینترنت میسر شده است [۱] و پژوهشگران تلاش گسترده ای را برای انتقال حس لامسه از طریق اینترنت به کار بسته اند[۲]، بدین ترتیب این رسانۀ جدید با در اختیار داشتن ویژگیهای ممتاز خود سعی در پدید آوردن بستری جامع و فراگیر به منظور ایجاد ارتباطی مناسب و هوشمندانه برای کاربران اقصی نقاط گیتی داشته است.

این فصل به بررسی مفاهیم اصلی اینترنت و امکانات موجود در آن می پردازد؛ از این رو در بخش ۱-۲ به بررسی تاریخچۀ ظهور اینترنت خواهیم پرداخت و به مهمترین صورتهای اطلاعاتی موجود در آن اشاره خواهیم کرد. پروتکل۱TCP/IP مهمترین پیمان کاربردی در اینترنت است و به همین دلیل نیز در این بخش نکات اصلی این پروتکل مورد بررسی قرار می گیرد. بخش ۱-۳ به تشریح تار جهانگستر ۲ ( وب ) به عنوان یکی از مهمترین خدمات ارائه شده در اینترنت می پردازیم و ضمن اشاره به تاریخچۀ شکل گیری این پدیده، سه پروتکل اصلی آن مورد توجه قرار می گیرد. ساختار ایستگاههای اطلاعاتی ۳ موجود در وب از نکات مهمی است که آشنایی با آن در درک عملکرد موتورهای کاوش بسیار مؤثر است، از این رو در بخش ۴-۱ این موضوع مورد بحث قرار گرفته است. این سه بخش در اصل پیش درآمدی بر مفهوم موتورهای کاوش است، لذا در بخش ۱-۵ با بررسی مفهوم موتور کاوش و علت پیدایش آن، تعاریف مختلف موتورهای کاوش ارائه میگردد و پس از آن در بخش ۱-۶ اصول عملکرد، معماری و نیز مهمترین اجزای سازندۀ آنها تبیین می گردد، در نهایت در بخش ۱-۷ نیز مفهوم ابرموتور کاوش، ارتباط آن با موتور کاوش و شیوۀ عملکرد آن مورد توجه قرار می گیرد.

۱-۲- تاریخچۀ اینترنت

ظهور شبکۀ اینترنت به اواخر دهۀ شصت میلادی باز می گردد. سال ۱۹۶۹ میلادی آژانس پروژه های تحقیقاتی پیشرفته۱، وابسته به وزارت دفاع امریکا، شبکه ای به نام آرپانت۲ تأسیس کرد تا از طریق آن بتواند بستر ارتباطی منظمی را بین دانشمندان این مؤسسه فراهم سازد. این شبکه در ابتدا به دلیل استفاده از شیوۀ انتقال هشت بیتی۳ داده ها تنها می توانست حداکثر ۶۴ رایانه را به هم متصل کند. مهمترین مشکل این شبکه فقدان پروتکلی مناسب برای ردوبدل کردن پیام بین شبکه ها بود. پروتکل مجموعه ای از قوانین و مقررات استانداردی است که همۀ اعضای شبکه ملزم به پیروی از آن هستند. طراحان شبکۀ آرپانت در نخستین گام پروتکلی موسوم به پروتکل میزبان به میزبان ۴ را آماده کردند، لیکن به دلیل عدم کارایی آن از سال ۱۹۸۳ میلادی کار روی پروتکل دیگری را آغاز کردند که بعدتر بهنام پروتکل نظارت بر انتقال / پروتکل اینترنت ۵ یا به اختصار TCP/IP مشهور گردید و از سال پ۱۹۸۳ میلادی به عنوان پروتکل رسمی شبکۀ آرپانت معرفی شد. در همین سال آرپانت به دو شاخۀ تحقیقاتی ( آرپانت ) و نظامی ( میلنت۶ ) تقسیم شد. یکی از ضعفهای اساسی آرپانت توانمندی کم آن در انتقال داده ها بود؛ زیرا تنها قادر به انتقال ۵۶ کیلوبایت۱ داده در ثانیه بود. به همین دلیل در اواخر دهۀ هشتاد میلادی، بنیاد ملی علوم۲ امریکا طرح شبکهای را به نام ان. اس. اف. نت۳ در دستور کار خود قرار داد که توانایی انتقال ۵/۱ میلیون بایت داده در ثانیه را دارا بود. استقرار این شبکه موجب افول آرپانت شد به گونه ای که در اول ژوئن ۱۹۹۰ میلادی انحلال آن رسماً اعلان گردید، البته بخش نظامی شبکه
( یعنی میلنت ) به حیات خود ادامه داد. علاوه بر آن وزارت دفاع امریکا شبکۀ جدیدی به نام اینترنت دفاعی- تحقیقاتی۴ را برای امور علمی- پژوهشی خود تأسیس کرده که با استفاده از پروتکل TCP/IP وظایف آرپانت را بر عهده دارد[۳].

در حال حاضر شبکۀ اینترنت شامل همۀ رایانه ها و شبکه های کوچکی است که از پروتکل TCP/IP یا پروتکلهای مشابه استفاده می کنند. تخمین زده می شود در حال حاضر ۲۲۶ کشور با بیش از ۴۰۰ میلیون کاربر به این شبکه متصل هستند و از اشکال مختلف اطلاعاتی مانند متن، صوت، تصویر، عکس، فیلم و … استفاده می کنند[۴]، آخرین آمار استخراج شده نشان می دهد توزیع اطلاعات روی شبکۀ اینترنت به شکل ذیل است[۵]:

  • اطلاعات تجاری               ۱/۸۲ درصد
  • اطلاعات علمی                             ۶       درصد
  • اطلاعات پزشکی- بهداشتی         ۶/۲   درصد
  • صفحات شخصی          ۳/۲   درصد
  • انجمنهای علمی           ۹/۱   درصد
  • مباحث اجتماعی ۴/۱   درصد
  • اطلاعات دولتی ۲/۱   درصد
  • اطلاعات مذهبی ۸/۰   درصد
  • سایر موارد               ۵/۱   درصد

همچنانکه اشاره شد مهمترین قانون ناظر بر نقل و انتقالات اطلاعات در اینترنت پروتکل TCP/IP است، این پروتکل از دو تخش اصلی تشکیل شده است: پروتکل نظارت بر انتقال و پروتکل اینترنت.

پروتکل نظارت بر انتقال بر نحوۀ رفت و آمد و جابه جایی داده ها از طریق اینترنت نظارت می کند؛ بدین منظور قوانین این پروتکل، اطلاعات مورد حمل را به قطعات کوچکتری تقسیم می کند تا کنترل آنها ساده تر شود، این روند سبب می شود که ارسال گونه های مختلف اطلاعات نوشتاری، تصویری، صوتی و غیره امکانپذیر گردد. پس از تقسیم بسته های بزرگ اطلاعاتی به بخشهای کوچکتر، هر یک از بسته های کوچک شماره گذاری و مرتب می شوند تا گیرنده بتواند مجدداً آنها را با همان نظم و ترتیب پشت سر ردیف کند؛ چنانچه بخشی از اطلاعات مفقود یا معیوب شده باشد این پروتکل، بخش مذکور را مجدداً از فرستنده تقاضا می کند، سرانجام پس از آنکه TCP همۀ اجزای بستۀ اطلاعاتی را به ترتیب در کنار هم چید آن را به نرم افزار مورد کاربرد گیرنده می فرستد تا مورد استفاده قرار گیرد، شایان ذکر اینکه این فرایند با سرعت چندین هزار بایت در ثانیه رخ می دهد. از سوی دیگر هر یک از شبکه های موجود در اینترنت از طریق افزارهای مسیریاب۱ به هم متصل می شوند، این مسیریابها نقش دفتر توزیع نامه ها را در شبکۀ سراسری پست بازی می کنند و وظیفۀ اصلی شان نحوۀ توزیع اطلاعات در اینترنت است. هر مسیریاب فقط باید بداند چه نوع پیوندهایی در شبکه وجود دارد و مناسبترین ایستگاه بعدی برای نزدیکتر کردن پیام به مقصد نهایی اش کدام است، پروتکل / اینترنت وظیفۀ تنظیم این مهم را بر عهده دارد و تا اصول پیغام به مقصد نهایی، حرکت آن را تحت نظارت دارد.

۱-۳ تار جهانگستر ( وب )

تار جهانگستر ( وب ) یکی از امکانات مهم اینترنت است که سریعترین رشد و پیشرفت را نسبت به سایر امکانات اینترنت داشته است و بی تردید یکی از اصلی ترین عوامل رشد این شبکه نیز به شمار می آید. سابقۀ اندیشۀ ایجاد صفحاتی که به صورت فرامتنی۱ ایجاد و خوانده شود منتسب به” وانواربوش” است که در سال ۱۹۴۵ میلادی طی مقاله ای با عنوان ” Aswe may think” نظریۀ خود را بیان کرد، این دیدگاه سبب شد در سال ۱۹۹۰ میلادی، ” تیم برنرز۳” و ” روبرت کالیا ۴” در آزمایشگاه فیزیک ذره ای اروپا ( سرن۵) در پنو پروژۀ HTML را به مرحلۀ اجرا گذاشته و اندیشۀ خود را در نوشتاری تحت عنوان:

“Wolrd wide web: proposal for a hypertext project”

به نگارش درآورند. در سال ۱۹۹۲ میلادی فعالیتهای آنان به بار نشست و محیط جذاب وب روی اینترنت متولد شد. بلافاصله پس از این رخداد مرورگرهای۶ مناسب و سازگار با این محیط ساخته و با اقبال جهانی مواجه شد [۶].

یکی از پرسشهای اساسی در مورد وب این است که چرا وب از آزمایشگاه فیزیک ذره ای آغاز شد؟ این امر ناشی از ماهیت پژوهشهایی است که در علم فیزیک مطرح می شود و ضرورت همفکری جهانی در زمینۀ موضوعات این حوزه و وجود محملی مناسب برای ارتباط منظم دانشمندان را اجتناب ناپذیر می کند. چنین بستری باید بدون توجه بهاختلاف بین سیستمهای رایانه ای پژوهشگران ( از نظر نرم افزار و سخت افزار ) کارایی لازم را داشته باشد.

عملکرد شبکۀ وب مبتنی بر معماری سرویس گیرنده / سرویس دهنده۷ است. این معماری الگویی ساده است که بر مبنای آن هر یک از برنامه های کاربردی از دو بخش سرویس گیرنده و سرویس دهنده تشکیل شده است. نرم افزار سرویس گیرنده بر روی رایانۀ محلی ( رایانه شخصی ) و نرم افزار سر.یس دهنده بر روی رایانۀ میزبان و یا سرویس دهندۀ اطلاعاتی نصب می شود که مایل به بازاریابی اطلاعات از آن هستیم. این دو نرم افزار به صورت مشترک و با همکاری یکدیگر عمل می کنند، ابزارهای نرم افزاری برای سرویس گیرنده / سرویس دهنده به صورت یکپارچه عمل نموده و بار کاری رایانه را به صورت مشترک بر عهده دارند. برنامۀ سرویس دهنده مسؤول نگهداری داده هایی است که قرار است در دسترس کاربر قرار گیرد و نیز مسؤول یافتن و بازگرداندن اطلاعاتی است که سرویس گیرنده آنها را درخواست می کند. این نرم افزار به طور معمول در انتظار درخواستی است که از سوی نرم افزار سرویس گیرنده برایش ارسال می شود و نتایج اقدامات خود را در پاسخ به درخواست کاربر باز می گرداند. برنامۀ سرویس گیرنده مسؤول ارتباط با کاربر  است و به صورت محلی عملیات خود را انجام می دهد. شبکۀ وب از طریق معماری سرویس دهنده / سرویس گیرنده توانایی دستیابی به منابع پراکندۀ موجود در اینترنت را داراست. این مهم به کمک استفاده از پیوندهای فرامتن عمل می کند و با استفاده از اشاره گرها۱کاربر را به منابع اطلاعاتی موجود در ایستگاههای اطلاعاتی راهنمایی می کند. طراحی شبکۀ وب مبتنی بر نظام فرارسانه ای۲، ترکیبی از فرامتن و چند رسانه ای۳، است. فرامتن در اصل متنی است که بهصورت مجموعهای از صفحات الکترئنیکی تنظیم شده و هر یک از صفحات، بخشی از متن را با استفاده از اشاره گر و پیوندها به سایر صفحات مدرک پیوند می دهد. هر گاه کاربر بخواهد در مورد عناصر به هم پیوسته مطالب بیشتری دریافت کند با گزینش آن بخش به صفحات مربوطه هدایت می شود. این صفحات با استفاده از زبان نشانه گذاری فرامتن۴( HTML  ) طراحی می شود که توسیعی از زبان نشانه گذاری تعمیم یافتۀ استاندارد۵( SGML ) است. SGML یکی از استانداردهای بین المللی ( ۸۸۷۹ LSO ) است که برای پردازش اطلاعات متنی به کار می رود. فلسفۀ وجودی SGML مبتنی بر آرایش اطلاعات بع گونه ای است که دستگاههای رایانه های برنامه های دیگر بسادگی بتوانند از آن استفاده کنند. HTML نوعی زبان نشانه گذاری واژگان است کهروش به نمایش درآمدن آنها را تعیین می کند. این نظام از نظر پیوند مطالب و امکان ردگیری اطلاعات با استفاده از ارجاعات دقیقاً مشابه با نظام جستجوی کاربردی در دایره المعارفها و فرهنگنامه ها است؛ بدین ترتیب که با دیدن یک نقطۀ ارجاع در متن، که به مطلب دیگر پیوند داده شدهبیدرنگ می توان بهاطلاعات مورد نظر دسترسی یافت. بنابراین مطالب ممکن است به هر شکل تنظیم شده باشد و تنها نکتۀ مهم آن است که پیوند بین مؤلفه ها بدرستی صورت گرفته و امکان مرور ( رفت و آمد ) بین صفحات فراهم گردد. شایان ذکر است که ترتیب خطی و ساختار مستقیم مرسوم در کتابهای فرهنگنامه در اینجا هیچ ضرورتی ندارد و حتی قرار گرفتن تصاویر در کنار متن ( آنچنانکه در کتابها مرسوم است ) الزامی نیست، بلکه می توان با استفاده از تواناییهای زبان نشانه گذاری فرامتن، محلی خاص برای آنها در نظر گرفت و یا تمهیداتی اندیشیدکار براساس خواست خود تصاویر را رؤیت کند. علاوه بر این در چنین محیطی امکان ایجاد نمایه و فهرستهای گوناگون از مطالب صفحات نیز وجود دارد {۷} . آماهای موجود نشان می دهد در حال حاضر بیش از دو میلیارد صفحه وب [۱۲]   درقالب بیش از چهار میلیون ایستگاه اطلاعاتی ب روی شبکه وب وجود دارد {۸} . هر یک از این صفحات به کمک مکانیاب جهانی منابع[۱۳] قابل دستیابی است. مکانیاب جهانی منابع نشانی استاندارد و منحصر به فردی برای تشخیص مکان منبع اطلاعاتی در وب است. این نشانی به دو صورت عمده مورد استفاده قرار می گیرد:

الف) به عنوان روشی استاندار برای توصیف محل یک مدرک یا موردی خاص و روش دسترسی به آن؛

ب – به عنوان ابزاری اساسی در شبکه وب که اطلاعات را به شکل فرامتنی به یکدیگر پیوند می دهد. مکانیاب جهانی منابع شامل اطلاعات ذیل است.:

  • پروتکل دسترسی به منبع اطلاعات؛
  • نشانی اینترنتی رایانه سرویس دهنده ؛
  • مسیر فایل حاوی مدارک مورد نیاز

 

مثالی از نشانی مکانیاب جهانی منابع (URL) به شکل ذیل است.

http: // www. Modares.ac.ir/about /history .htm

این نشانی (http://www) نشانگر پروتکل انتقال فرامتنی است، بخش بعدی (modares) نشانی رایانه میزبان و ویژگیهای آن (رایانه در محیط دانشگاه تربیت مدرس ودر کشور ایران واقع است)، بخش بعد (about) مسیر فایل حاوی صفحه مورد نظر بر روی رایانه سرویس دهنده را نشان می دهد و در نهایت history فایل حاوی صفحه مورد درخواست کاربر (مدرک درخواستی) را نشان می دهد، واژه htm نیز نشان می دهد که مدرک مورد نظر به شکل زبان نشانه گذاری متن (html) وجود دارد. یکی از ویژگیهای مهم  نشانیهای اینترنتی نحوه چینش قسمت اصلی مکانیک جهانی منابع است که بسادگی بتوان از روی آن اطلاعات مربوط به رایانه میزبان را دریافت، این بخش تحت عنوان حوزه اینترنتی [۱۴] نامیده می شود. به عنوان نمونه در مثال فوق ac.ir نشان دهنده حوزه اینترنتی رایانه میزبان است «پیوست ب » مهمترین نمادهای حوزه های اینترنتی مورد کاربرد در شبکه وب را بیان می کند.

۱-۴- ساختار ایستگاههای اطلاعاتی شبکه وب

هر یک از ایستگاههای اطلاعاتی دربرگیرنده تعدادی از صفحات وب است که با نظمی خاص در کنار یکدیگر قرار گرفته اند، هر چند که ممکن است این ساختار برای کار بران مشهود نباشد. البته تعدادی از ایستگاههای اطلاعاتی موجود در اینترنت، نمایی از ساختار صفحات وب خود را در اختیار کاربران قرار می دهند تا سرعت و تسلط آنان را در دسترسی به صفحه و اطلاعات مورد نظر افزایش دهند. و تسلط آنان را در دسترسی به صفحه  و اطلاعات مورد نظر افزایش دهند. معمولاً این موضوع در ایستگاههای اطلاعاتی تحت عنوان «نقشه ایستگاه وب » [۱۵] درج می شود. معمولاً ایستگاههای اطلاعاتی با ساختاری سلسله مراتبی سازماندهی می شوند. در این ساختار صفحه اصلی[۱۶] در بر گیرنده پیوندهای مربوط به صفحه (لایه ها) ی سطح دوم است و به همین ترتیب در صفحات سطح دوم، پیوندهای صفحات سطوح پایینتر قرار دارد و این روال در صفحات بعدی نیز ادامه پیدا می کند تا دسترسی به آخرین سطح ممکن گردد. چنین ساختاری در شکل ۱ نشان داده شده است.

شکل ۱ ساختار سلسله مراتبی ایستگاههای اطلاعاتی

با تهیه صفحات پیوند خورده به هم با استفاده از زبان نشانه گذارفرامتن، کار طراحی ایستگاه اطلاعاتی در گام اول به پایان می رسد لیکن برای انتشار و دریافت اطلاعات در اینترنت و نیز دسترسی به اطلاعات مختلف، نرم افزاری مورد نیاز است که بتواند برپایه پروتکلهای موجود، اطلاعات فرامتنها را خوانده و آنهارا جابه جا کند؛ این نرم افزارها «مرور گر وب» نامیده می شوند .مرور گرهای وب چند ضابطه ای هستند بدین معنا که می توانند به سرویس دهنده های مختلفی که بر اساس پروتکلهای گوناگون به فعالیت مشغولند دسترسی داشته باشند مهمرین پروتکلهای مورد استفاده در شبکه اینترنت به شرح ذیل است:

  • پروتکل انتقال فرامتن
  • پروتکل انتقال فایل ؛[۱۷]
  • پیام نگار [۱۸]
  • گوفر؛ [۱۹]
  • پروتکل انتقال اخبار شبکه ؛ [۲۰]
  • تلنت.[۲۱]

در فصل سوم توضیحاتی راجع به هر یک از پروتکلهای کاربردی در اینترنت و نیز نرم افزارها و واژگان مورد کار برد دراین حوزه ذکر خواهد شد.

دو مرورگر «کاوشگر اینترنت»[۲۲] و « پیمایشگرنت اسکیپ»[۲۳] بیش از سایر مرور گرهای دیگر در شبکه اینترنت عمومیت یافته اند، مرورگر کاوشگر اینترنت یکی از نرم افزارهای تولیده شده شرکت میکروسافت [۲۴]

است که در سال ۱۹۹۵ میلادی ابتدا در سیستم عامل ویندوز ۹۵ و سپس با توسعه بیشتر همراه با سیستم عامل ویندوز ۹۸ معرفی شد. نسخه های جدید این مرورگر توانایی تعبیه طراحی وویژگیهای متحرک سازی پیشرفته در صفحه های وب را داراست . پیمایشگر نت اسکیپ یکی از عمومیترین یکی از عمومیترین مرور گرهای وب است که شرکت نت اسکیپ [۲۵] آن را ابداع کرده است . نسخه های مختلف این مرور گر برای سیستمهای عامل ویندوز ۱/۳ ، ویندوز ۹۵، ۹۷، ۹۸ ، ویندوز NT ، کامپیوتر های مکینتاش[۲۶] و بسیاری از رایانه ها با سیستم عامل یونیکس [۲۷] در دسترس است {۹} . هر یک از این مرورگرها دارای امکانات متنوعی هستند که کاربر را در اتصال به منابع اطلاعاتی گوناگون یاری می دهند. مهمترین ویژگیهای این مرورگرها را می توان در موارد ذیل خلاصه کرد{۶}:

الف) مرورگرهای وب پیوندهای داخلی اینترنت را پشتیبانی می کنند. برخی از مرورگرها بویژه پیمایشگر نت اسکیپ نه تنها توانایی نگهداری بخشهای علامتگذاری شده ایستگاههای در دسترس را دارند، بلکه امکاناتی را برای ویرایش و فهرست بندی سلسله مراتبی نیز ارائه می کنند.

ب) مرور گرها توانایی فراخوانی برنامه های سرویس دهندگانی را داراهستند که داده ها را منتقل و برای کاربر قابل استفاده می نمایند. علاوه بر این ممکن است برخی داده ها در شکلهای خاصی ارائه شوند که در بدو امر به کمک مرور گر قابل بارگذاری نباشد، در این صورت مرورگر ابتدا برنامه اصلی را از مقصد تعیین شده فراخوانی و سپس داده ها را قابل نمایش می کند. نمونه ای از این موارد فایلهای دارای پسوند pdf[28] است که مرورگر در بر خورد بااین نوع فایل، با فراخوانی برنامه “Acrobat Reader” و نصب آن بر روی ریانه سرویس گیرنده، فایل مربوطه را قابل خواندن می کند.

ج) مرور گرها توانمندی نمایش تصاویر گرافیکی، ویدیویی  و مد واقعیت مجازی [۲۹] را دارا هستند اما این توانایی مطلق نیست و هنوز در نمایش برخی از وجوه تصویری فایلها محدودیتهایی وجود دارد.

د) همه مرور گرها قابلیت ضبط اطلاعات بازیافتی را بر روی رایانه کاربر دارند. از این طریق کاربر
می تواند اطلاعات مورد نیاز خود را نگهداری و حفظ نماید؛ در این صورت به هنگام استفاده از فایل ضبط شده، مرورگر به نشانی اصلی ارجاع داده می شود (البته اگر نوع ضبط با ارجاع نسبی باشد، صفحه ذخیره شده از روی رایانه مهمان ونه از مرجع بارگذری می گردد).

۱-۵ موتورهای کاوش

حجم فراوان اطلاعات موجود در اینترنت و رشد بروز افزون صفحات وب، لزوم طراحی روالی منظم و مشخص برای دستیابی به اطلاعات را اجتناب ناپذیر ساخته است. بازیابی اطلاعات به عنوان یکی از وجوه اصلی اطلاع رسانی[۳۰] از مهمترین عرصه های پژوهش و سنجش کارایی نظامهای اطلاع رسانی به شمار می آید. با ایجاد و توسعه شبکه اینترنت به عنوان عظیم ترین ، متنوعترین و گسترده ترین منبع اطلاعاتی، تلاش برای طراحی و توسعه ابزارهای نوین به منظور کاوش منابع اطلاعاتی شبکه و بازیابی اطلاعات جدیتر شد و بدین ترتیب نسل جدیدی از افزارهای کاوش موسوم به «موتورهای کاوش» پا به عرصه ظهور گذارده اند. از دیدگاه مدیریت نظام اطلاعاتی [۳۱] چهار ویژگی اصلی برای اطلاعات بازیابی شده قابل لحاظ است: دقت،[۳۲]، پیوستگی زمانی ،[۳۳] بهنگام بودن[۳۴] و مرتبط بودن[۳۵] {۱۰} موتورهای کاوش افزارهایی کمکی برای نمایه سازی [۳۶] و ارائه اطلاعات دقیق و مرتبط با موضوع مورد جستجو در اینترنت هستند. تاکنون تعاریف مختلفی برای موتورهای کاوش ارائه شده که مهمترین آنها به شرح ذیل است:

  • موتور کاوش افزاری برای یافتن اطلاعات در اینترنت است. گرچه پایگاه اطلاعاتی همه موتورهای کاوش، منابع اطلاعاتی اینترنت است لیکن هیچ دوموتور کاوشی یکسان نیستند و هر یک از آنها اطلاعات را به شکلی متفاوت با بقیه نمایش می دهد{۱۱} .
  • موتور کاوش برنامه ای نرم افزاری است که با استفاده از کلید واژه [۳۷] به کاوش منابع اطلاعاتی اینترنت پرداخته و سیاهه ای از مدارک واجد آن کلیدواژه را ارائه می دهد {۱۲}.
  • موتور کاوش برنامه ای رایانه ای است که از طریق کلید واژه و با عبارت مورد نظر کاربر به جستجوی منابع اطلاعاتی موجود در وب می پردازد {۱۳}.

با توجه به تعاریف فوق می توان گفت موتورهای کاوش بسته های نرم افزاری [۳۸] هستند که برای کاوش انوع منابع اطلاعاتی موجود بر روی شبکه اینترنتی به کار می روند. این برنامه امکان استفاده از کلید واژه ، عبارت، پرسش و یا سایر قابلیتهای مورد نیاز در کاوش اطلاعات را داراست . همینجا لازم است به تفاوتهای میان «موتورهای کاوش» و «راهنماها»[۳۹] اشاره کنیم: راهنماهای اینترنتی شامل فهرستی از ایستگاههای اطلاعاتی هستند که از قبل به کمک ویراستاران مختلف جمع آوری و براساس موضوع و عنوان طبقه بندی شده اند. از این رو در این راهنماها قبلاً کیفیت و محتوای هر یک از ایستگاههای اطلاعاتی بررسی شده و سپس در فهرست راهنمای مذکور قرار گرفته اند، در اینگونه راهنماها کاربر می تواند از طریق فهرستهای موجود به جای جای راهنما دست یابد و اطلاعات خود را از آن استخراج کند. بدیهی است که تهیه این فهرستها با حضور عامل سوم (دانش انسان) امکانپذیر است و اجرای این مهم منوط به دریافت اطلاعات مربوط به ایستگاه جدید و ویرایش و ثبت آن در فهرست راهنماست. بدین ترتیب واضح است که ورود اطلاعات به این راهنماها ناهمزمان با ورود اطلاعات به ایستگاهها بوده و به صورت دستی انجام می پذیرد. مهمترین راهنمای موجود در روی شبکه اینترنت «راهنمای یا هو» [۴۰] که در فصل بعد بتفصیل تشریح خواهد شد.

برخلاف راهنماهای اینترنتی ، موتورهای کاوش این امکان را دارند تا به طور خودکار در صفحات وب موجود در ایستگاههای اطلاعاتی به جستجو پرداخته، آنها را نمایه سازی کنند و نتایج حاصل را در پایگاه اطلاعاتی خود ذخیره سازند، بدین ترتیب روال عملکرد موتورهای کاوش به صورت خود کار و همزمان اتفاق می افتد. شایان ذکر اینک با توجه به یکسانی کاربرد هر دو این افزارها در بازیابی منابع اطلاعاتی از سوی کاربر، در این کتاب با تسامح در فصل بعد همه آنها را تحت عنوان موتورهای کاوش مورد شناسایی قرار می دهیم.علاوه بر این باید اشاره کرد یکی از روشهای نوظهور دیگر در عرصه کاوش منابع اطلاعاتی در اینترنت استفاده از «نمایندگان هوشمند»[۴۱] است ؛ این افزار یکی از کاربردهای هوش مصنوعی [۴۲] در شبکه اینترنت است که تاکنون درکاربردهای متفاوتی مانند تجارت الکترونیکی، [۴۳] بازیابی اطلاعات و دسته بندی داده ها مورد استفاده قرار گرفته است {۱۴} «نماینده هوشمند » نوعی نرم افزار است که سعی دارد با شبیه سازی ارتباطات انسانی ، جایگزین مناسبی برای کاربر در هنگام کاوش باشد، بدین ترتیب هدف اصلی این نرم افزار آن است که رفتار کار بر خبره را به هنگام کاوش مدلسازی کند و همان رفتار را در محیط اینترنت به نمایش بگذارد. بدین منظور باید نماینده هوشمند بتواند بدون مداخله کاربر، محیط اینترنت را حس و تغییرات آن را رهگیری نماید (ویژگی نمایندگی) ضمن اینکه باید بتواند وجوه بر خاسته از هوش مصنوعی (مانند تصمیم گیری ،[۴۴] یادگیری [۴۵] و استدلال[۴۶] ) را در خود داشته باشد و از آنها در موقعیتهای مختلف استفاده کند (ویژگی هوشمندی) . ساده ترین سطح هوشمندی آن است که نماینده خواسته های کاربر را به شکل مجموعه ای از قواعد [۴۷] داشته باشد و بتواند به کمک استدلال مبتنی بر این قواعد به هدف مطلوب دست یابد{۱۵}.

۱-۶ ساختار موتورهای کاوش

هر موتور کاوش دارای سه بخش اصلی است {۱۶} :

الف) عنکبوت[۴۸] یا روبات خزنده[۴۹] یا روبات اطلاعاتی ؛[۵۰]

ب) نمایه یا پایگاه اطلاعاتی ؛[۵۱]

ج) نرم افزار کاوش

روباتهای اطلاعاتی برنامه هایی هستند که با جستجوی مستمر و مدوام در صفحات اینترنت و نیز پیگیری پیوند های میان صفحات، یافته های خود را به موتور کاوش باز می گردانند. این فرایند به صورت منظم در دوره های مشخص زمانی (هفتگی، دو هفتگی، ماهیانه و …) انجام می شود. چنین روالی را گرد آوری [۵۲] نیز می نامند. در حال حاضر حدود دویست نوع روبات مختلف برای جمع آوری اطلاعات در موتورهای کاوش به کار می رود که هر یک از این روباتهای می توانند یک یا چند پروتکل مختلف شامل HTTP و WAIS و FTPو COPHER را حمایت و تا ده میلیون صفحه را در روز مشاهده کنند{۱۷}.

روبات اطلاعاتی یافته های خود را به بخش نمایه یا پایگاه اطلاعاتی موتور منتقل می کند. نمایه شامل نسخه ای از همه صفحاتی است که روبات یافت است . نحوه نمایه سازی صفحات موتورهای کاوش مشابه روند نمایه سازی در پایگاههای اطلاعاتی متداول است، در این فرایند دو نکته اصلی وجود دارد: یکی نوع و حجم اطلاعات استخراج شده ودیگر نحوه سازماندگی این اطلاعات در پایگاه اطلاعاتی. یکی از تفاوتهای اصلی موتورهای کاوش ناشی از روال انجام فرایند نمایه سازی در پایگاههای اطلاعاتی آنهاست. اطلاعات نمایه شده از طریق نرم افزار کاوش در اختیار کاربر قرار می گیرد. این نرم افزار برنامه ای است که از میان همه صفحات موجود در نمایه، آنچه را مورد کاوش است، یافته و بر اساس میزان تناسب و ارتباط آن با درخواست، واژه یا عبارت مورد نظر رتبه بندی می کند. چنین فرایندی را بازیابی۱ می نامند. بدیهی است روند بازیابی کاملاً به نحوۀ نمایه سازی اطلاعات در پایگاه اطلاعاتی موتور کاوش وابسته است و هر چه نمایه دقیقتر و منظمتر تدوین شده باشد بازیابی اطلاعات نیز سریعتر و صحیحتر انجام خواهد شد. بخشی از نرم افزار کاوش بر  اساس معیارهای از پیش تعیین شده، کار رتبه بندی۲ اطلاعات باز یافتی را انجام می دهد. معمولاً برای این رتبه بندی دو ویژگی مهم در نظر گرفته می شود:

الف – محل درج۳ کلید واژه: فرض کنید در کتابخانه به دنبال مراجعی در مورد ” ایران ” باشید، در این صورت کتابدار در نخستین گام به دنبال کتابهایی با عنوان ” ایران ” می گردد؛ موتور کاوش نیز دقیقاً همین کار را انجام می دهد یعنی به دنبال صفحات وبی می گردد که در بخش عنوان آنها واژه ” ایران ” ذکر شده باشد و به این صفحات اولویت بیشتری می دهد و آنها را به عنوان مرتبط ترین منابع بازیابی شده رتبه بندی می کند. در گام بعدی، موتور کاوش صفحاتی را می یابد که در آن کلید واژه در چند بند اول ( در نزدیکترین مکان نسبت به سر عنوان اصلی ) ذکر شده است. بدیهی است درج کلید واژه در بندهای ابتدایی صفحه از نظر موتور کاوش دارای ارجعیت است.

ب – تعداد تکرار ( بسامد۴ ): یکی دیگر از عوامل تعیین کننده در سنجش میزان مرتبط بودن مدرک بازیابی شده، تعداد تکرار کلید واژه یا عبارت مورد جستجو در آن مدرک است. اغلب موتورهای کاوش میزان تکرر کلید واژه ها را نسبت به سایر واژه های موجود در صفحات وب می سنجند و واژگانی را که از بسامد بیشتری برخوردار باشند به عنوان واژگان دارای ارتباط و تناسب بیشتری معرفی معرفی می کنند[ ۱۸] .

البته باید اشاره کرد میزان اهمیت این دو پارامتر در موتورهای کاوش با هم تفاوت دارد  این یکی از دلایلی است که نتیجۀ کاوش در موتورهای کاوش با هم فرق می کند. ضمن اینکه تفاوت در حجم پایگاه اطلاعاتی و نمایه از دیگر دلایل اختلاف در نتایج بازیابی شده است. علاوه براین روشهای دیگری برای رتبه بندی صفحات بازیابی شده وجود دارد به طور مثال در موتور کاوش اکسایت۱ وجود پیوندهای بیشتر در یک صفحۀ وب به سایر صفحات یا ایستگاههای اطلاعاتی به عنوان یکی از شاخصهای رتبه بندی لحاظ شده است [ ۱۹].

با توجه به توضیحات پیشگفته ملاحظه می شود نرم افزار کاوش بیشتر به کاربر و روبات اطلاعاتی بیشتر به منابع اطلاعاتی اینترنت نزدیک است بنابراین می توان معماری کلی موتورهای کاوش را مشابه شکل ۲ در نظر گرفت.

شکل ۲: معماری موتور کاوش

نکتۀ مهمی که ذکر آن در خصوص موتورهای کاوش ضروری است این است که بر خلاف تصور غالب، موتور کاوش اطلاعات را نه از اینترنت بلکه از پایگاه اطلاعاتی خود مورد جستجو و بازیابی قرار می دهد، بدین ترتیب گرچه این پایگاه، اطلاعات خود را از صفحات موجود در شبکۀ اینترنت به دست می آورد لیکن همچنانکه پیشتر اشاره شد گردآوری اطلاعات از اینترنت به صورت دوره ای و در فواصل زمانی معین رخ می دهد از این رو می توان گفت کاوش از طریق موتورهای کاوش، کاوشی ناپیوسته
( گسستۀ زمانی۱ ) است.

۱-۷ ابر موتور کاوش

آمار نشان می دهد حدود سه هزار موتور کاوش در شبکۀ اینترنت وجود دارد[ ۲۰] که هر یک
محدوده ای از اطلاعات موجود در این شبکه را پوشش می دهند به همین دلیل برای دستیابی به اطلاعات کاملتر لازم است چند موتور کاوش مورد بررسی و کاوش قرار گیرند. ابر موتورهای کاوش۲، که گاهی موتور کاوش چند گانه۳ یا فراموتور کاوش۴ نیز نامیده می شوند. دستۀ مهمی از موتورهای کاوش با قابلیت جستجوی همزمان در چند موتور کاوش هستند. در واقع می توان گفت ظهور ابر موتورهای کاوش پیامد آمدن انواع موتورهای کاوش و ناکافی بودن اطلاعات بازیابی شده از یک موتور کاوش خاص است. نکتۀ مهم این است که ابر موتورهای کاوش دارای پایگاه اطلاعاتی مختص به خود نیستند؛ به گرد آوری اطلاعات صفحات وب نمی پردازند؛ صفحات وب را بررسی، طبقه بندی و یا نمایه سازی نمی کنند بلکه کلید واژه ها یا عبارتهای مورد جستجو را به طور همزمان به چند موتور کاوش، که در ساختار آن ابر موتور تعریف شده است، ارسال می کنند و نتایج را به صورت منظم و طبقه بندی شده ارائه و رکوردهای تکراری حاصل را حذف می نمایند. برخی دیگر از این ابرموتورها نتایج کاوش را براساس میزان تناسب محتوایی مدرک و میزان مرتبط بودن آن با واژه یا عبارت کاوش شده رتبه بندی می کنند؛ علاوه براین گروهی دیگر از این افزارها امکان انتخاب دو یا چند موتور کاوش را به انتخاب کاربر فراهم می سازند. ذکر این نکته ضروری است مهابرموتورهای کاوش عموماً کاوشهای جامعی را به دست نمی دهند بلکه معمولاً از ده تا یکصد رکورد اول بازیابی شده از هر یک از موتورهای کاوش را بر می گزینند و نمایش می دهند[ ۱۶].

ابر موتورهای کاوش به روشهای مختلفی اطلاعات را از سطح شبکۀ اینترنت جمع آوری کرده، در اختیار کاربر قرار می دهند؛ مهمترین روشهای عملکرد ابر موتورهای کاوش به شرح ذیل است:

الف کاوش ناهمزمان: این شیوه ساده ترین نوع عملکرد ابرموتورهای کاوش است که در آن ابرموتور با نمایش فهرستی از موتورهای کاوش تحت پوشش خود این امکان را برای کاربر مهیا می سازد تا با انتخاب موتور مورد دلخواه به کاوش در آن بپردازد. بدیهی است این روش با برداشت متعارف از ابرموتور کاوش بسیار فاصله دارد چه نحوۀ عملکرد چنان است که کاربر مستقیماً در موتور کاوش مورد نظر به جستجو می پردازد، لیکن به دلیل جلوگیری از اتلاف وقت در جابه جایی از یک ایستگاه به ایستگاه اطلاعاتی دیگر، عملکرد آن سریعتر از جستجوی معمولی است. این روش اغلب به نام کاوش چندگانه۱ خوانده می شود.

ب کاوش همزمان و نمایش ناهمزمان: در این شیوه، کاربر با انتخاب موتورهای کاوش دلخواه و با درج کلید واژۀ مورد نظر در کادر کاوش۲ابرموتور، می تواند به طور همزمان به جستجو در چند موتور کاوش بپردازد، لیکن نتایج کاوش مستقل از هم بوده و هر یک به طور جداگانه برروی صفحه، نمایش داده می شوند، نکتۀ مهم در این نوع کاوش آن است که نمایش نتایج منوط به بازیابی اطلاعات از طریق همۀ موتورهای کاوش است و به همین دلیل نیز عملکرد این نوع ابرموتورهای کاوش کندتر از سایر انواع ابرموتورهاست.

ج کاوش همزمان همراه با نمایش همزمان: نحوۀ عملکرد این نوع ابرموتور مشابه با انواع قبلی است جز آنکه به مجرد بازیابی اطلاعات از هر یک از موتورهای کاوش، بر روی صفحه نمایش داده می شود. بدیهی است سرعت این ابرموتور بمراتب سریعتر از ابرموتورهای نوع قبل است اما ممکن است نتایج تکراری نیز حاصل آید.

د- کاوش همزمان همراه با نمایش بهینه: این شیوه نزدیکترین مفهوم به درک متعارف از ابرموتور کاوش است که در آن با درج کلید واژه در کادر کاوش، عملیات جستجو در موتورهای کاوش ذیل آن ابرموتور انجام می شود و پس از کنار گذاشتن موارد تکراری و رتبه بندی اطلاعات براساس میزان ارتباط با موضوع، نتایج را نمایش می دهد.

۱-۸ خلاصه

این فصل به بررسی اینترنت و مهمترین ویژگیها و توانمندیهای آن اختصاص داشت و در طی آن تاریخچه، مفاهیم مهم اینترنت و پروتکلهای اصلی آن بررسی گردید، این موارد در اصل پیش در آمدی بر بحث اصلی کتاب، موتورهای کاوش، است؛ به همین دلیل در بخشهای پایانی این فصل مفاهیم پایۀ موتور و ابرموتورهای کاوش مورد توجه قرار گرفت و ساختار و عملکرد آنها تشریح شد،  در فصل بعد با تبیین ویژگیهای نرم افزار موتور کاوش، به عنوان اصلی ترین بخش حد و اسط میان کاربر و محیط اینترنت، به شناسایی و مقایسۀ مهمترین موتورها و ابرموتورهای کاوش خواهیم پرداخت.

فصل دوم – شناسایی موتورهای کاوش

۲-۱ مقدمه

در فصل گذشته اصول کار و ساختار موتور و ابرموتورهای کاوش مورد بررسی قرار گرفت و ملاحظه شد هر یک از اجزای سه گانۀ موتور کاوش (روبات اطلاعاتی، پایگاه داده و نرم افزار کاوش ) در توانمندی آن نقش بسزایی دارد، اما همچنانکه پیشتر اشاره شد نرم افزار کاوش به عنوان حدواسط میان کاربر و رسانۀ اینترنت درنمایش این قابلیتها نقش اساسی دارد، از این رو در طراحی سعی می شود این محیط پاسخگوی همۀ نیازمندیهای کاربر باشد. امکانات مختلف بازیابی، توانایی محدود کردن حیطۀ کاوش، نحوۀ نمایش نتایج، امکان استفاده از عملگرهای منطقی و حساسیت نسبت به حروف بزرگ و کوچک از ویژگیهای مهمی است کهمیزان تعامل کاربر با موتور کاوش را نمایان می سازد و بر میزان کاربرد هر یک از موتورها اثر مستقیم می گذارد.

در بخش ۲-۲ مهمترین ویژگیهای نرم افزار کاوش مورد بحث قرار می گیرد و با بیان مفهوم هر یک از آنها، نحوۀ استفاده از این قابلیتها در موتور کاوش تبیین می شود. بخش ۲-۳ به معرفی حدود یکصد موتور مهم کاوش اختصاص یافته که در طی آن علاوه بر توضیحاتی راجع به محتوای هر موتور، پوشش اطلاعاتی و نیز نکات ویژه در نحوۀ کاوش هر یک از آنها بهمنظور دستیابی به اطلاعات مفید و بهینه بیان شده است؛ شایان ذکر است که این موتورها جزء مهمترین موتورهای کاوش اینترنت هستند و بجرأت می توان گفت به کمک آنها می توان همۀ اطلاعات مورد نیاز در زمینه های مختلف را به دست آورد. علاوه بر این تعدادی از برجسته ترین ابرموتورهای کاوش نیز در این بخش معرفی و به توانمندیهای هر یک از آنها اشاره شده است. پس از شناسایی مهمترین موتورها و ابرموتورهای کاوش در بخش ۲-۴ دسته بندی موضوعی آنها تحت موضوعات مختلف مورد نیاز کاربران بیان می شود و در نهایت در بخش پایانیاین فصل با بررسی مهمترین شاخصهای سنجش عملکرد موتورهای کاوش به ارزیابی اصلی ترین موتورهای مورد کاربرد در اینترنت می پردازیم.

۲-۲ ویژگیهای نرم افزار کاوش

نرم افزار کاوش حدواسط میان کاربر و سایر بخشهای موتور کاوش است، به همین لحاظ هر چه توانمندیها و امکانات مختلف این نرم افزار بیشتر باشد کار با موتور کاوش راحت تر و محیط جستجو به میزان بیشتری کاربرپسند۱ خواهد بود، ضمن اینکه قابلیتهای مختلف نرم افزار کاوش سبب دستیابی به اطلاعات دقیقتر و مرتبط تر و نیز جلوگیری از اتلاف زمان کاربر خواهد شد. بدین لحاظ در این بخش مهمترین توانمندیهای نرم افزارهای کاوش را بررسی می کنیم:

الف کاوش بر اساس گزینه های مختلف

برای انجام جستجو در موتورهای کاوش امکانات مختلفی وجود دارد: ساده ترین شکل کاوش استفاده از کلید واژه است، در این صورت با درج کلید واژه های مورد نظر ( مثلاً فناوری ) در کادر ویژۀ کاوش امکان کاوش فراهم می شود. بدیهی است انتخاب مناسب و مرتبط کلید واژ هاسبب دستیابی به نتایج بهتر و مناسبتر خواهد شد. علاوه بر این موتورهای کاوش این قابلیت را در اختیار کاربر قرار می دهند که علاوه بر کلید واژه بتوان به کاوش عبارتهای مختلف نیز پرداخت در این صورت می توان به جای کاوش یک واژه، از یم عبارت ( مثلاً فناوری اطلاعات ) استفاده کرد. با استفاده از این قابلیت نتایج بازیابی شده شامل مدارکی خواهد بود که واجد عبارت مورد نظر باشد. برخی از موتورهای کاوش از توانایی کاوش مفهومی۲نیز برخوردارند این نوع کاوش سطح عمیقتری از کاوش را در اختیار کاربر می دهد که در ضمن آن مدارکی بازیافت می شود که نه الزاماً شامل کلید واژۀ درج شدهکه به لحاظ مفهومی مربوط به آن کلید واژههستند. به بیان دیگر این شیوۀ کاوش، اطلاعاتی را بازیابی می کند که دربارۀ موضوع و مفهوم مورد نظر کاربر است هر چند که کلید واژه های کاربردی مستقیماً در آن مدرک وجود نداشته باشد.

قابلیت دیگری که در برخی از موتورهای کاوش و یا ابرموتورهای کاوش وجود دارد امکان کاوش به زبان طبیعی۱ است؛ در این نوع کاوش، کاربر می تواند پرسش مورد نظر خود را به زبان معمولی در کادر کاوش وارد نماید، در این صورت موتور کاوش با تعیین واژگان اصلی پرسش، نسبت به بازیابی مدارک مربوط به آن اقدام می نماید. این شیوه گرچه کار با موتور کاوش را بیار ساده و کاربرپسند می کند لیکن ممکن است به دلیل بروز خطای ناشی از یافتن واژگان کلیدی، برخی از مدارک بازیابی شده نامربوط به موضوع مورد نظر باشند؛ از این رو توصیه می شود همواره مفهوم اصلی مورد کاوش به عنوان کلید واژه در اختیار موتور قرار گیرد تا اطلاعات مناسبتری استخراج گردد.

ب- محدود سازی حیطۀ کاوش

در بسیاری از موارد ما به دنبال نتایج خاصی از کاوش هستیم به عنوان نمونه می خواهیم ایستگاههای اطلاعاتی مربوط به کلید واژه مورد نظر را بیابیم یا نشانی شرکتهای تولید کننده محصولی را در کشوری خاص پیدا کنیم، بسیاری از موتورهای کاوش امکان محدود سازی حیطه کاوش را در اختیار کاربر قرار می دهند که از طریق آن کاربر می توانید با انتخاب محدوده کاوش به نتایج دقیقتری در باره موضوع مورد نظر دست یابد؛ مهمترین محدودیتهای قابل اعمال به هنگام کاوش شامل: محدود کردن حیطه جغرافیایی کاوش، محدود کردن زبان مدارک بازیابی شده و محدود کردن نوع منابع اطلاعاتی مورد کاوش است. به کمک مشخص کردن محدوده جغرافیایی و زبان مدارک می توان به اطلاعات دقیقی در مورد نظر در آن حیطه جغرافیایی و یا آن زبان خاص دست یافت، به عنوان مثال با انتخاب «امریکا» به عنوان محدوده جغرافیایی و «انگلیسی» به عنوان زبان، تنها مدارکی که ناشر آن در امریکاست و به زبان انگلیسی منتشر شده ، بازیابی خواهد شد. محدود کردن نوع منابع اطلاعاتی این امکان را در اختیار کاربر قرار می دهد که بتواند نوع سند و یا ویژگی ایستگاه اطلاعاتی بازیابی شده را مشخص نماید، به عنوان مثال می توان فقط به دنبال سندهایی گشت که کلید واژه مورد نظر در عنوان سند ذکر شده است (بدین منظور در موتور کاوش آلتاویستا[۵۳] باید قبل از ذکر کلید واژه ” : title” را تایپ نمود همین امر در موتور کاوش یا هو[۵۴] با ذکر “:t” امکانپذیر است که) به عنوان مثالی دیگر فرض کنید بخواهیم منابع دانشگاهی را در زمینه موضوعی خاص بازیابی کنیم در این صورت می توان با محدود کردن حیطه کاوش به حوزه های دانشگاهی به نتایج مطلوب دست یافت (به عنوان مثال در موتور کاوش آلتاویستابا ذکر domain: acیا domain: edu می توان به محدود کردن حیطه کاوش پرداخت).

ج) استفاده از عملگرهای ترکیبی منطقی

در بسیاری از موارد به منظور یافتن نتایج دقیقتر در مورد موضوع مورد کاوش لازم است کلید  واژه اصلی را با کلید واژگان دیگر ترکیب کنیم، به عنوان مثال فرض کنید ابتدا با انتخاب کلید واژه “university” جستجوی در مورد دانشگاهها انجام داده ایم حال می خواهیم دانشگاههای موجود در ایران را بیابیم در این صورت لازم است کلید واژه ” iran” با کلید واژه قبلی ترکیب شود، بدین منظور معمولاً از عملگرهای منطقی – ترکیبی ذیل استفاده می شود:

* عملگر AND: استفاده ازاین عملگر میان دو کلید واژه سبب می شود مدرکی بازیابی گردد که واجد هر دو کلید واژه کذکور باشد. به عنوان مثال انتخابی کلید واژه مرکب ” IRAN AND ECONOMY ” سندهایی را بازیابی می کند که در آن هم واژه ” iran” و هم ” economy” وجود دارد.

* عملگر OR: استفاده از این عملگر میان دو کلید واژه سبب می شود مدارکی بازیابی گردد
که حداقل یکی از کلید واژه های مذکور درآن حضور داشته باشد. به عنوان مثال انتخاب کلید واژه مرکب “iran or iraq” سندهایی را بازیابی می کند که در آن یا واژه “iran” وجود دارد و یا واژه ” iraq ” . نکته مهم اینکه این عملگر موجب می شود که سندهایی که در آن هر دو کلید واژه (مثلاً هم iran و هم iraq ) وجود دارند نیز بازیابی شود.

* عملگر NOT: استفاده از این عملگر میان دو کلید واژه سبب می شود مدارکی بازیابی شود که
حاوی کلید واژه اول است ولی کلید واژه دوم را شامل نمی شود. به عنوان مثال انتخاب کلید واژه مرکب “iran not iraq” سبب می شود سندهایی بازیابی شود که در آن ” iran” وجود دارد اما ” iraq” خیر.

این عملگر برای یافتن اطلاعات دقیق راجع به یک کلید واژه ونیز ارزیابی توانایی بازیابی موتور کاوش بسیار کار است. شایان ذکر اینکه در برخی موتورهای کاوش این عملگر به شکل ” AND NOT” مورد استفاده قرار می گیرد. به لحاظ ترسیمی می توان نتایج حاصل از کاربرد این عملگر ها را به کمک شکل ۱ نمایش داد.

======