–252

5-2-2-3- الگوريتم جريان بيشينه—————————————————23
5-2-2-4- Average Clicks—————————————————–24
6- کاوش استفاده از وب————————————————————24
6-1- انواع داده هاي استفاده از وب—————————————————25
6-1-1- داده هاي سرورهاي وب—————————————————–25
6-1-2- داده هاي سرورهاي پراکسي————————————————–25
6-1-3- داده هاي کلاينت———————————————————-25
6-2- پيش پردازش داده هاي استفاده از وب——————————————–26
6-2-1- پاکسازي داده————————————————————-26
6-2-2- تشخيص و بازسازي نشست—————————————————26
6-2-3- بازيابي ساختار و محتوا——————————————————27
6-2-4- قالب بندي داده————————————————————27
6-3- روش هاي کاوش استفاده از وب————————————————-28
6-3-1- قوانين انجمني————————————————————-28
6-3-2- الگوهاي ترتيبي————————————————————28
6-3-3- خوشه بندي—————————————————————29
6-4- کاربردهاي کاوش استفاده از وب————————————————-29
6-4-1- خصوصي سازي محتواي وب————————————————–30
6-4-2- پيش بازيابي ————————————————————–30
6-4-3- بهبود طراحي سايت هاي وب————————————————-30
6-5-خروجيها و تكنيكهاي wum—————————————————-30
6-6 -تحليل wum—————————————————————31
7- نتیجه گیری——————————————————————-32
8- مراجع————————————————————————33
مفهوم داده کاوی و وب کاوی
داده کاوی یک نوع تحلیل برروی پایگاه داده های بزرگ است که به کشف دانش جدید از آن پایگاه داده منتهی می شود. وقتی پایگاه داده سیستم بزرگ می شود و اطلاعات متنوعی در آن وجود دارد با استفاده از داده کاوی می توانیم الگوهایی را برروی این پایگاه داده کشف کنیم که با روابط درون پایگاه داده نمی شد به آن پی برد.بعنوان مثالی ساده ، شما پایگاه داده سایت آمازون (خرید و فروش اینترنتی) را در نظر بگیرید، برروی پایگاه داده این سایت اطلاعات زیادی از خرید ها و جستجو های افراد مختلف وجود دارد، با استفاده از تکنیک های داده کاوی می توانیم یک الگو بدست بیاوریم که مشخص می کند هر جستجو در سایت در نهایت منجر به چه خریدی شده است و سپس آن را به سایر کاربران بعنوان راهنمایی ارائه کنیم.
داده كاوی فرایندی تحلیلی است كه برای كاوش داده ها ( معمولا حجم عظیمی از داده ها – در زمینه های كسب وكار و بازار) صورت می‌گیرد و یافته‌ها‌با‌به‌كارگیری الگوهایی‌،‌احراز اعتبار می‌شوند . هدف اصلی داده كاوی پیش بینی است و به صورت دقیق تر میتوان گفت :”کاوش داده ها شناسايي الگوهاي صحيح، بديع، سودمند و قابل درک از داده هاي موجود در يک پايگاه داده است که با استفاده از پرداز شهاي معمول قابل دستيابي نيستند” [5].
داده کاوی ، علم استخراج اطلاعات مفید از پایگاه های داده یا مجموعه داده ای می باشد. به عبارت دیگرداده کاوی استخراج نیمه اتوماتیک الگوها، تغییرات، وابستگی ها، نابهنجاری ها و دیگر ساختارهای معنی دار آماری از پایگاه های بزرگ داده می باشد [5].
وب کاوی
با افزايش چشمگير حجم اطلاعات و توسعه وب، نياز به روش ها و تکنيک هايي که بتوانند امکان دستيابي کارا به داده ها و استخراج اطلاعات از آنها را فراهم کنند، بيش از پيش احساس مي شود. وب کاوي يکي از زمينه هاي تحقيقاتي است که با به کارگيري تکنيک هاي داده کاوي به کشف و استخراج خودکار اطلاعات از اسناد و سرويس هاي وب مي پردازد. در واقع وب کاوي، فرآيند کشف اطلاعات و دانش ناشناخته و مفيد از داده هاي وب مي باشد .وب کاوی در واقع کاربرد تکنیک های داده کاوی به منظور کشف الگوهایی از وب می باشد.
استفاده از وب داده های وب یکی از گام های کلیدی در کشف دانش در پایگاه داده، ایجاد یک مجموعه داده مناسب جهت انجام داده کاوی می باشد.در وب کاوی این داده می تواند از سمت سرور، مشتری، پروکسی سرور یا از یک پایگاه داده سازمان جمع آوری شود. هر کدام از این داده ها نه تنها از نظر منابع داده متفاوت می باشند بلکه از نظر انواع داده های موجود و محدوده مکانی که آن داده از آنجا جمع آوری می شود و متد پیاده سازی آن انواع داده ای که در وب کاوی استفاده می شود شامل: “محتوا “: داده واقعی در صفحات وب، داده ای که صفحه وب برای نمایش آن به کاربران طراحی شده است.که معمولاً از متن و گرافیک تشکیل شده ولی به آن محدود نمی شود.”ساختار” : داده ای که سازمان دهی محتوا را مشخص می سازد. اطلاعات ساختار درون صفحات شامل ترتیب انواع تگ های XML یا HTML در یک صفحه داده شده می باشد و می تواند به صورت یک ساختار درختی نمایش داده شود که تگ ریشه درخت می باشد. اصلی ترین نوع از اطلاعات ساختاری بین صفحات، هایپرلینک است که یک صفحه را به دیگری مرتبط می کند.”استفاده”: داده ای که الگوی استفاده از صفحات وب را مشخص می سازد، مثل آدرس های IP، رجوع به صفحات و تاریخ و زمان دسترسی. “پروفایل کاربر” : داده ای که اطلاعات آماری درباره کاربران وب سایت فراهم می سازد که شامل داده ثبت نام و اطلاعات پروفایل مشتری می باشد.منابع داده داده های استفاده که از منابع مختلفی جمع آوری می شود، الگوهای راهبری از بخش های مختلفی از کل ترافیک وب را نمایش می دهد. جمع آوری در سطح سرورلاگ های وب سرور یک منبع مهم برای اجرای وب کاوی استفاده از وب محسوب می شود زیرا به طور صریح رفتار مرورگری تمام مشاهده کنندگان سایت را ثبت می کند.
ارتباط وب کاوي و داده کاوي
وب کاوي و داده کاوي ارتباط بسيار نزديکي با يکديگر دارند. داده کاوي فرآيند ارائه پرسوجوها و استخراج الگوها و اطلاعات مفيد و ناشناخته از داده هايي است که معمولا در پايگاه داده ها ذخيره شده اند. در واقع بسياري از تکنيک هاي داده کاوي قابل استفاده در وب کاوي هستند. اما حوزه وب کاوي وسيع تر از داده کاوي است و اين دو زمينه تحقيقاتي در جنبه هاي مختلفي از يکديگر متفاوتند که برخي از آنها عبارتند از:
در داده کاوي، داده ها ساخت يافته هستند و معمولا در پايگاه داده ها وجود دارند. اما در وب، داده ها عموما غير ساخت يافته هستند.
جمع آوري و مديريت داده ها در وب دشوار است.
داده ها در وب تنها شامل محتواي مستندات و صفحات وب نيستند. بلکه در وب دو نوع داده اصلي ديگر نيز براي کاوش مورد استفاده قرار مي گيرند. نوع اول، اطلاعات ساختاري وب است که منظور از آن پيوندهاي بين صفحات وب مي باشد. نوع دوم نيز، اطلاعات مربوط به نحوه استفاده کاربران از وب است. در واقع تحليل رفتار کاربر در استفاده از وب، ترجيحات و علايق وي درباره نوع و قالب اطلاعات، … بخش مهمي از وب کاوي است. در داده کاوي اين دو نوع از داده وجود ندارند.
مسئله ديگري که در وب کاوي مطرح است، حفظ حريم کاربران است. تکنيک هاي داده کاوي معمولا در يک محيط بسته به کار مي روند. در حالي که تکنيک هاي وب کاوي در محيط باز وب انجام مي شوند. بنابراين بايد تضمين شود، اطلاعات شخصي و خصوصي کاربران مورد سوء استفاده قرار نمي گيرند.
مراحل وب کاوي
وب کاوي شامل چهار مرحله اصلي مي باشد[10] :
پيدا کردن منبع: اين مرحله شامل بازيابي اسناد وب مورد نظر مي باشد.
انتخاب اطلاعات و پيش پردازش: در اين مرحله به صورت خودکار اطلاعات خاصي از اسناد بازيابي شده، انتخاب و پيش پردازش مي شوند
تعميم: در اين مرحله به صورت خودکار الگوهاي عام در يک يا چندين سايت وب کشف مي شود.
تحليل: در اين مرحله الگوهاي به دست آمده در مرحله قبل اعتبار سنجي و تفسير مي شوند.
در مرحله اول داده ها از منابع موجود در وب مانند خبرنامه هاي الکترونيکي، گروه هاي خبري، اسناد HTML، پايگاه داده هاي متني و … بازيابي مي شوند. مرحله انتخاب و پيش پردازش شامل هر گونه فرآيند تبديل داده هاي بازيابي شده در مرحله قبل مي باشد. اين پيش پردازش مي تواند کاهش کلمات به ريشه آنها، حذف کلمات زائد، پيدا کردن عبارات موجود در متن و تبديل بازنمايي داده ها به قالب رابطه اي يا منطق مرتبه اول باشد. در مرحله سوم از تکنيک هاي داده کاوي و يادگيري ماشين براي تعميم استفاده مي شود. همچنين بايد توجه داشت که کاربران نقش مهمي در فرآيند استخراج اطلاعات و دانش از وب ايفا مي کنند. اين نکته به ويژه در مرحله چهارم از اهميت بسزايي برخوردار است.
به اين ترتيب وب کاوي، فرآيند کشف اطلاعات و دانش ناشناخته و مفيد از داده هاي وب مي باشد[10] . اين فرآيند به طور ضمني شامل فرآيند کشف دانش در پايگاه داده ها (KDD ) نيز مي شود. در واقع وب کاوي گونه توسعه يافته KDD است که بر روي داده هاي وب عمل مي کند.
انواع وب کاوي
روش هاي وب کاوي بر اساس آن که چه نوع داده اي را مورد کاوش قرار مي دهند، به سه دسته تقسيم مي شوند[10]:
کاوش محتواي وب: کاوش محتواي وب فرآيند استخراج اطلاعات مفيد از محتواي مستندات وب است. محتواي يک سند وب متناظر با مفاهيمي است که آن سند در صدد انتقال آن به کاربران است. اين محتوا مي تواند شامل متن، تصوير، ويدئو، صدا و يا رکوردهاي ساخت يافته مانند ليست ها و جداول باشد. در اين ميان کاوش متن بيش از ساير زمينه ها مورد تحقيق قرار گرفته است. از جمله اين تحقيقات مي توان به تشخيص موضوع، استخراج الگوهاي ارتباط، خوشه بندي و طبق بندي اسناد وب اشاره کرد. روش ها و تکنيک هاي موجود در اين گروه، از تکنيک هاي بازيابي اطلاعات و پردازش زبان طبيعي نيز استفاده مي کنند.
هر چند در پردازش تصوير و بينايي ماشين تحقيقات زيادي در زمينه استخراج دانش از تصاوير انجام شده است، اما به کارگيري اين تکنيک ها در کاوش محتواي وب چندان چشمگير نبوده است.
کاوش ساختار وب: وب را مي توان به صورت گرافي که گره هاي آن اسناد و يال هاي آن پيوندهاي بين اسناد است، بازنمايي کرد. کاوش ساختار وب، فرآيند استخراج اطلاعات ساختاري از وب مي باشد.
کاوش استفاده از وب: کاوش استفاده از وب، کاربرد تکنيک هاي داده کاوي براي کشف الگوهاي استفاده از وب، به منظور درک و برآوردن بهتر نيازهاي کاربران مي باشد. اين نوع از وب کاوي، داده هاي مربوط به استفاده کاربران از وب را مورد کاوش قرار مي دهد.
تمرکز ما در این نوشته بر روی مورد سوم (کاوش استفاده از وب) و روشهای مورد استفاده و الگوریتمهای قابل استفاده در این گروه است هر چند بايد توجه داشت که مرز مشخصي ميان سه گروه وب کاوي وجود ندارد. به عنوان مثال تکنيک هاي کاوش محتواي وب مي توانند علاوه بر به کارگيري متن مستندات، از اطلاعات کاربران هم استفاده کنند. همچنين مي توان از ترکيب تکنيک هاي فوق براي حاصل شدن نتايج بهتر استفاده کرد.
اهداف و کاربرد
هدف اصلي کاوش استفاده از وب، جمع آوري اطلاعات راجع به الگوهاي پيمايش کاربران مي باشد. اين اطلاعات مي تواند براي بهبود سايت هاي وب از ديد کاربران به کار رود[1].
کاوش ساختار وب در کاربردهاي وسيعي مورد استفاده قرار گرفته است. از جمله اين کاربردها مي توان به تعيين ميزان کيفيت صفحات مرتبط با يک موضوع، طبقه بندي صفحات، پيمايش وب، پيدا کردن اجتماعات وب، طراحي سايت هاي تطبيقي و شخصي سازي صفحات اشاره کرد. در ادامه برخي از اين کاربردها مورد بررسي قرار مي گيرند.[1]
خصوصي سازي محتواي وبتکنيک هاي کاوش استفاده از وب، مي توانند براي شخصي سازي استفاده کاربران از وب به کار روند. براي مثال مي توان رفتار کاربر را از طريق مقايسه الگوي پيمايش فعلي وي با الگوهاي پيمايش استخراج شده از فايل هاي ثبت، به صورت بلادرنگ پيش بيني کرد. سيستم هاي توصيه که يک کاربرد واقعي در اين زمينه هستند، پيوندهايي که کاربر را به صفحات مورد علاقه وي هدايت مي کنند، به او پيشنهاد مي کنند. برخي سايت ها نيز کاتولوگ محصولات خود را براساس علايق پيش بيني شده براي کاربر خاص سازماندهي و به او ارائه مي نمايند.
پيش بازيابي
نتايج به دست آمده از کاوش استفاده از وب مي تواند براي بهبود کارايي سرورهاي وب و برنامه هاي کاربردي مبتني بر وب به کار رود. کاوش استفاده از وب مي تواند براي ايجاد استراتژي هاي پيش بازيابي و caching استفاده شود و به اين ترتيب زمان پاسخ سرورهاي وب را کاهش دهد.
بهبود طراحي سايت هاي وبقابليت استفاده يکي از مسائل مهم در طراحي و پياده سازي سايت هاي وب است. نتايج به دست آمده از کاوش استفاده از وب مي توانند به طراحي مناسب سايت هاي وب کمک کنند. سايت هاي وب تطبيقي يک کاربرد از اين نوع کاوش مي باشند. در اين سايت ها محتوا و ساختار سايت وب به صورت پويا بر اساس داده هاي استخراج شده از رفتار کاربر سازماندهي مجدد مي شوند.
2-4- تشخيص اجتماعات وبيک اجتماع وب، مجموعه اي از صفحات وب است که راجع به موضوعات مشابه هستند و يا علايق مشترک ايجاد کنندگان اين صفحات را منعکس مي کنند. علاوه بر اجتماعاتي که صريحا در وب تعريف شده اند (مانند گروه هاي خبري)، اجتماعات ديگري نيز به طور ضمني در وب وجود دارند که حتي اعضاي آن ممکن است از وجود آن بي اطلاع باشند. براي تشخيص اجتماعات وب محققين بسياري از ساختار پيوندها استفاده کرده اند. برخي يک اجتماع را هسته اي از صفحات Authority دانسته اند که از طريق صفحات hub به يکديگر متصل شده اند. با اين تعريف، براي تشخيص يک اجتماع مي توان از الگوريتم HITS استفاده کرد. گروهي ديگر اجتماعات وب را در هنگام پيمايش وب تشخيص مي دهند. در اين روش، اجتماعات وب طي با استفاده از تکنيکي به نام trawling که نوعي sub-graph enumeration مي باشد، به دست مي آيند. برخي ديگر اجتماع وب را مجموعه اي از صفحات وب مي دانند که تعداد اتصالاتشان با صفحات اجتماع بيش از تعداد اتصالاتشان با ساير صفحات وب است. اين گروه براي تعيين اجتماعات، از الگوريتم جريان بيشينه که در بخش هاي قبلي معرفي شد، استفاده مي کنند.
2-5-پيمايش وببا توجه به افزايش حجم وب، پيمايش و جستجوي آن از اهميت بالايي برخوردار است. در پيمايش اين حجم وسيع از صفحات بهتر آن است، صفحاتي ابتدا پيمايش شوند که مرتبط با موضوع موردنظر مي باشند. “پيمايش متمرکز” روشي است که براي پيمايش صفحات مرتبط با يک موضوع به کار مي رود. در اين روش سعي بر آن است که در هنگام پيمايش، صفحات hub خوب تشخيص داده شوند تا از آن ها به عنوان منبعي براي رسيدن به صفحات authoriry استفاده شود.
روش ديگري به نام “پيمايش هوشمند” نيز براي پيمايش صفحات وب پيشنهاد شده است. اين روش علاوه بر ساختار پيوند وب از ويژگي هاي ديگري نيز استفاده مي کند. از جمله اين ويژگي ها، مي توان به محتواي صفحه، token هاي URL مانند برخي کلمات کليدي مشخص که اهميت يک URL در ارتباط با يک موضوع خاص را نشان مي دهند، تعداد صفحات sibling در گراف وب که پيمايش شده اند و … اشاره کرد. با استفاده از اين ويژگي ها اولويتي براي پيمايش هر يک از صفحات تعريف مي شود.
2-6- کاربردهاي وب کاويتکنيکها و روشهاي وب کاوي از کاربرد وسيعي در حوزههاي مختلف همچون تجارت الکترونيکي، دولت الکترونيکي، آموزش الکترونيکي، آموزش از راه دور، سازمان هاي مجازي، مديريت دانش، کتابخانه هاي ديجيتال، … برخوردارند. در اين قسمت برخي از حوزه هاي کاربردي وب کاوي و نمونه کاربردهاي موفقي که از تکنيک هاي وب کاوي استفاده کرده اند، معرفي ميشوند.
2-6-1- تجارت الکترونيکيتکنيک هاي وب کاوي مي توانند تا حد چشمگيري به موفقيت تجارت الکترونيکي کمک نمايند. اگر سازماني بخواهد از طريق وب فعاليت تجاري کند، بايد تصميم بگيرد چه نوع داده اي را در وب قرار دهد. وب کاوي مي تواند در تشخيص نوع اين داده ها به سازمان ها کمک کند. براي مثال سايتي که کتاب مي فروشد، بايد روش مناسبي براي تبليغ کتب مختلف انتخاب کند. براي اين منظور اين سايت مي تواند، بر اساس علايق کاربران، آن ها را دسته بندي کرده و تبليغات مربوط به يک کتاب خاص را براي گروه کاربران مربوطه انجام دهد. به عنوان مثال ديگر، اگر سازماني قصد تجارت با سازمان ديگري را داشته باشد، مي تواند از وب کاوي براي يافتن شريک تجاري مناسب و تشخيص رقبا استفاده کند. همچنين مي تواند خط مشي رقبا را تعيين کرده و بر اساس آن سرويس ها و کالاهاي خود را قيمت گذاري کند [3].
قبل از آن که سازماني از وب کاوي استفاده کند، بايد زمينه(هايي) را که استفاده از وب کاوي در آن مثمرثمر خواهد بود، تعيين کند. سپس به جمع آوري داده در آن زمينه خاص مي پردازد. مثلا داده هاي مربوط به کاربران را جمع آوري مي کند. مرحله بعد، تعيين نوع کاوش است. به عنوان مثال مي توان کاربران و رقبا را دسته بندي کرد و يا ارتباط بين کاربران، رقبا و شرکا را استخراج نمود. در پايان نيز بايد روش هاي براي اعتبار سنجي نتايج به دست آمده معرفي شود.
يک نمونه از سايت هاي تجاري که از تکنيک هاي وب کاوي همچون استخراج ارتباط بين صفحات مشاهده شده توسط کاربر، تحليل مسير کليک شده، … استفاده مي کند، سايت Amazon است که موفقيت هاي چشمگيري براي آن به دنبال داشته است.
2-6-2- موتورهاي جستجوبيشتر موتورهاي جستجو براي بازيابي صفحات مرتبط با پرس وجوي کاربر از محتواي صفحات وب استفاده مي کنند. Google اولين موتور جستجويي بوده است که از ساختار پيوندها در وب و کاوش آن براي بازيابي و رتبه بندی صفحات استفاده کرده است. براي اين منظور Google از الگوريتم Page Rank که در بخش هاي قبل معرفي شد، استفاده مي کند. همچنين Google داراي اين قابليت است که اطلاعات مربوط به جريان کليک هاي کاربر را نگهداري کند. اين اطلاعات استفاده از وب، براي بهبود نتايج بازيابي شده و سفارشي سازي آن ها به کار مي رود.
از ديگر سرويس هاي Google که در آن از تکنيک هاي وب کاوي استفاده مي شود، مي توان به Google News اشاره کرد. اين سرويس اخبار موجود در روزنامه هاي مختلف وب را جمع آوري کرده و سپس با استفاده از روش هاي طبقه بندي و خوشه بندي آن ها را در گروه ها و دسته هاي مختلف سازماندهي مي کند.
2-6-3- حراجي در وبسايت ebay يکي از موفق ترين سايت هاي تجاري وب است که امکان به حراج گذاشتن کالاهاي مختلف را فراهم مي کند. اما متاسفانه اين خاصيت وب که اشخاص در آن مي توانند در آن اطلاعات واقعي خود را ارائه نکنند، براي ebay مشکلاتي به وجود آورده است، چرا که نمي توان بين پيشنهادهاي واقعي و غير واقعي تمايز قائل شد. ebay براي حل اين مشکل از تکنيک هاي وب کاوي استفاده کرده است. براي اين منظور رفتار و الگوهاي ارائه کردن پيشنهاد توسط شرکت کنندگان در حراجي، تحليل مي شود تا الگوي پيشنهادات غير واقعي مشخص و با آن برخورد مناسب گردد.
مشکلات و چالش هاي وب کاويوب کاوي با چالش ها و محدوديت هاي متنوعي روبه رو است. از يک ديدگاه مي توان اين محدوديت ها را به دو گروه تکنيکي و غير تکنيکي تقسيم کرد. از محدوديت هاي غير تکنيکي مي توان به عدم پشتيباني مديريت، کافي نبودن بودجه و عدم وجود منابع مورد نياز مانند نيروي انساني متخصص اشاره کرد[13] . اما مشکلات تکنيکي بسيار است که به برخي از آنها در اين جا اشاره مي شود:
داده هاي ناصحيح و نادقيق : براي آن که فرآيند وب کاوي با موفقيت انجام شود، لازم است داده هاي جمع آوري شده صحيح و در قالب مناسب باشند. اما معمولا مشکلات زيادي در اين زمينه وجود دارد. اولا، داده ها ممکن است دقيق نباشند. ثانيا داده ها مي توانند ناکامل بوده و برخي مقادير موجود نباشد. ثالثا تخمين ميزان اطمينان درباره صحت و دقت داده ها به سادگي امکان پذير نيست.
عدم وجود ابزارها: محدوديت ديگر وب کاوي، عدم وجود ابزارهاي مناسب و کامل براي آن مي باشد. در اين راستا، متخصصان بايد تصميم بگيرند آيا براي يک کاربرد از وب کاوي، ابزار خاص آن کاربرد را توسعه دهند و يا از ابزارهاي موجود استفاده کنند.
ابزارهاي سفارشي: ابزارهاي موجود تنها يکي از انواع وب کاوي مانند طبقه بندي يا خوشه بندي را پشتيباني مي کنند. اما بهتر آن است که يک ابزار قادر به انجام چندين تکنيک وب کاوي باشد تا کاربران بتوانند با توجه به نيازمندي هاي خود از تکنيک مناسب استفاده کنند.
البته در حال حاضر تحقيقات بسياري در زمينه وب کاوي در حال انجام است که هدف آن ها حل اين مشکلات مي باشد. همچنین به طور کلي کاربران وب در استفاده از آن با مشکلات زير روبرو هستند:
يافتن اطلاعات مرتبط: يافتن اطلاعات مورد نياز در وب دشوار مي باشد. روش هاي سنتي بازيابي اطلاعات که براي جستجوي اطلاعات در پايگاه داده ها به کار مي روند، قابل استفاده در وب نمي باشند و کاربران معمولا از موتورهاي جستجو که مهمترين و رايج ترين ابزار براي يافتن اطلاعات در وب مي باشند، استفاده مي کنند. اين موتورها، يک پرس و جوي مبتني بر کلمات کليدي از کاربر دريافت کرده و در پاسخ ليستي از اسناد مرتبط با پرس و جوي وي را که بر اساس ميزان ارتباط با اين پرس و جو مرتب شده اند، به وي ارائه مي کنند. اما موتورهاي جستجو داراي دو مشکل اصلي هستند. اولا دقت موتورهاي جستجو پايين است، چراکه اين موتورها در پاسخ به يک پرس و جوي کاربر صدها يا هزاران سند را بازيابي مي کنند، در حالي که بسياري از اسناد بازيابي شده توسط آنها با نياز اطلاعاتي کاربر مرتبط نمي باشند. دوما ميزان فراخوان اين موتورها کم مي باشد، به آن معني که قادر به بازيابي کليه اسناد مرتبط با نياز اطلاعاتي کاربر نيستند. چرا که حجم اسناد در وب بسيار زياد است و موتورهاي جستجو قادر به نگهداري اطلاعات کليه اسناد وب، در پايگاه داده هاي خود نمي باشند.
ايجاد دانش جديد با استفاده از اطلاعات موجود در وب: اين مشکل در واقع بخشي از مشکل مطرح شده در قسمت قبل مي باشد. در حال حاضر اين سوال مطرح است که چگونه مي توان داده هاي فراوان موجود در وب را به دانشي قابل استفاده تبديل کرد، به طوري که يافتن اطلاعات مورد نياز در آن به سادگي صورت بگيرد. همچنين چگونه مي توان با استفاده از داده هاي وب به اطلاعات و دانشي جديد دست يافت.
خصوصي سازي اطلاعات: از آن جا که کاربران متفاوت هر يک درباره نوع و نحوه بازنمايي اطلاعات سليقه خاصي دارند، اين مسئله بايد توسط تامين کنندگان اطلاعات در وب مورد توجه قرار بگيرد. براي اين منظور با توجه به خواسته ها و تمايلات کاربران متفاوت، نحوه ارائه اطلاعات به آنها بايد سفارشي گردد.
تکنيک هاي وب کاوي قادر به حل اين مشکلات مي باشند البته تکنيک هاي وب کاوي تنها ابزار موجود براي حل اين مشکلات نيستند. بلکه تکنيک هاي مختلفي از ساير زمينه هاي تحقيقاتي همچون پايگاه داده ها، بازيابي اطلاعات، پردازش زبان طبيعي، … قابل استفاده در اين زمينه مي باشند. همچنين تکنينک هاي وب کاوي مي توانند به صورت مستقيم يا غير مستقيم براي حل اين مشکلات به کار روند. منظور از رويکرد مستقيم آن است که کاربرد تکنيک هاي وب کاوي به صورت مستقيم مشکلات مطرح شده را حل مي نمايد. يک عامل گروه خبري که مرتبط بودن يک خبر به يک کاربر را تعيين مي کند، مثالي از اين رويکرد مي باشد. اما در رويکرد غير مستقيم، تکنيک هاي وب کاوي به عنوان بخشي از يک روش جامع تر که به حل اين مشکلات مي پردازد، مورد استفاده قرار مي گيرند.
وب کاوي و زمينه هاي تحقيقاتي مرتبط
وب کاوي با زمينه هاي مختلف تحقيقاتي علوم کامپيوتر همچون داده کاوي، پايگاه داده، بازيابي اطلاعات، هوش مصنوعي، يادگيري ماشين، پردازش زبان طبيعي، استخراج اطلاعات، انبار داده ها، طراحي واسط کاربر و … در ارتباط تنگاتنگ است.
در اين بخش ارتباط اين زمينه تحقيقاتي با برخي از زمينه هاي مرتبط بررسي مي شود.
4-1- وب کاوي و داده کاويارتباط وب کاوی و داده کاوی قبلا بطور کامل بیان شد .
4-2- وب کاوي و بازيابي اطلاعاتبعضي محققين معتقدند که کشف منبع يا سند (بازيابي اطلاعات) در وب، نمونه اي از وب کاوي است و برخي وب کاوي را مرتبط با بازيابي اطلاعات هوشمند مي دانند. منظور از بازيابي اطلاعات، بازيابي خودکار اسناد مرتبط و در عين حال بازيابي کمترين حد ممکن از اسناد غير مرتبط مي باشد. اهداف اصلي بازيابي اطلاعات شاخص گذاري متون و جستجو براي اسناد مرتبط در يک مجموعه مي باشد. در حال حاضر تحقيقات در زمينه بازيابي اطلاعات شامل مدلسازي، طبقه بندي اسناد، واسط هاي کاربري، تصوير سازي داده، جداسازي و … مي باشد. آنچه در اين ميان مي تواند به عنوان نمونه اي از وب کاوي در نظر گرفته شود، طبقه بندي اسناد است که در شاخص گذاري مورد استفاده قرار مي گيرد. با چنين ديدگاهي وب کاوي به بخشي از فرآيند بازيابي اطلاعات مبدل مي گردد.
4-3- وب کاوي و استخراج اطلاعاتهدف از استخراج اطلاعات تبديل مجموعه اي از اسناد به اطلاعات خلاصه شده و تحليل شده مي باشد. در حالي که تمرکز اصلي در بازيابي اطلاعات بر انتخاب اسناد مرتبط است، استخراج اطلاعات بر استخراج وقايع مرتبط از اسناد تکيه دارد. همچنين در استخراج اطلاعات، ساختار يا بازنمايي يک سند مد نظر قرار مي گيرد، در حالي که در بازيابي اطلاعات، يک سند مجموعه اي نامرتب از کلمات است [12].
ساخت يک سيستم استخراج اطلاعات براي محيط پويا و متنوعي چون وب امکان پذير نيست و بيشتر سيستم هاي ايجاد شده بر سايت هاي وب خاصي متمرکز مي شوند. برخي ديگر از سيستم هاي استخراج اطلاعات از تکنيک هاي يادگيري ماشين و داده کاوي براي يادگيري قوانين و الگوهاي استخراج استفاده مي کنند. با اين ديدگاه، وب کاوي بخشي از فرآيند استخراج اطلاعات مي باشد.
البته ديدگاه هاي ديگري درباره ارتباط اين دو وجود دارد. برخي معتقدند استخراج اطلاعات گونه اي از مرحله پيش پردازش (مرحله بعد از بازيابي اطلاعات و قبل از اعمال تکنيک هاي داده کاوي) در فرآيند وب کاوي مي باشد.
به طور کلي دو گونه متفاوت از استخراج اطلاعات وجود دارد. استخراج اطلاعات از متون غير ساخت يافته و استخراج اطلاعات از داده هاي نيمه ساخت يافته. براي استخراج اطلاعات از متون غير ساخت يافته معمولا نوعي پيش پردازش زباني قبل از به کارگيري تکنيک هاي داده کاوي استفاده مي شود. بنابراين اين نوع از استخراج اطلاعات ارتباط نزديکي با تکنيک هاي پردازش زبان طبيعي دارد. اما با ايجاد و گسترش وب نياز به روش هاي بازيابي اطلاعات از متون ساخت يافته مي باشد. استخراج اطلاعات ساخت يافته متفاوت از استخراج اطلاعات غير ساخت يافته است، چرا که معمولا از اطلاعاتي مانند تگ هاي HTML، جدا کننده ها، … استفاده مي کند. بيشتر روش هاي ساخت يافته اي که در وب به کار مي روند، از تکنيک هاي يادگيري ماشين براي استخراج قوانين استفاده مي کنند.
4-4- وب کاوي و يادگيري ماشينوب کاوي معادل يادگيري از وب يا به کارگيري تکنيک هاي يادگيري ماشين در وب نيست. کاربردهايي از يادگيري ماشين در وب وجود دارد که نمونه هاي وب کاوي به شمار نمي آيند. يک مثال از اين نوع کاربردها، به کارگيري تکنيک هاي يادگيري ماشين براي يافتن بهترين مسير در پيمايش وب توسط Spider ها است.
از طرف ديگر علاوه بر تکنيک ها و روش هاي يادگيري ماشين، روش هاي ديگري هم براي وب کاوي به کار مي رود. به عنوان مثال الگوريتم هايي اختصاصي براي يافتن Hub ها وAuthority ها در وب وجود دارد. (مفهوم Hub و Authority در بخش 7 معرفي خواهد شد. ) با اين حال ارتباط نزديکي بين يادگيري ماشين و وب کاوي وجود دارد. در واقع تکنيک هاي يادگيري ماشين از وب کاوي پشتيباني مي کنند و قابل استفاده در فرآيندهاي وب کاوي مي باشند. به عنوان مثال تحقيقات نشان مي دهد استفاده از تکنيک هاي يادگيري ماشين در طبقه بندي اسناد، مي تواند دقت طبقه بندي را در مقايسه با استفاده از روش هاي سنتي بازيابي اطلاعات افزايش دهد.
5- انواع وب کاويروش هاي وب کاوي بر اساس آن که چه نوع داده اي را مورد کاوش قرار مي دهند، به سه دسته تقسيم مي شوند[1] :
کاوش محتواي وب: کاوش محتواي وب فرآيند استخراج اطلاعات مفيد از محتواي مستندات وب است. محتواي يک سند وب متناظر با مفاهيمي است که آن سند در صدد انتقال آن به کاربران است. اين محتوا مي تواند شامل متن، تصوير، ويدئو، صدا و يا رکوردهاي ساخت يافته مانند ليست ها و جداول باشد. در اين ميان کاوش متن بيش از ساير زمينه ها مورد تحقيق قرار گرفته است. از جمله اين تحقيقات مي توان به تشخيص موضوع، استخراج الگوهاي ارتباط، خوشه بندي و طبق بندي اسناد وب اشاره کرد. روش ها و تکنيک هاي موجود در اين گروه، از تکنيک هاي بازيابي اطلاعات و پردازش زبان طبيعي نيز استفاده مي کنند.
هر چند در پردازش تصوير و بينايي ماشين تحقيقات زيادي در زمينه استخراج دانش از تصاوير انجام شده است، اما به کارگيري اين تکنيک ها در کاوش محتواي وب چندان چشمگير نبوده است.
کاوش ساختار وب: وب را مي توان به صورت گرافي که گره هاي آن اسناد و يال هاي آن پيوندهاي بين اسناد است، بازنمايي کرد. کاوش ساختار وب، فرآيند استخراج اطلاعات ساختاري از وب مي باشد.
کاوش استفاده از وب(wum): کاوش استفاده از وب، کاربرد تکنيک هاي داده کاوي براي کشف الگوهاي استفاده از وب، به منظور درک و برآوردن بهتر نيازهاي کاربران مي باشد. اين نوع از وب کاوي، داده هاي مربوط به استفاده کاربران از وب را مورد کاوش قرار مي دهد.
در wum الگوهاي كاربردي كاربران مختلف و روندهاي كاربردي پيگري ميشوند و پيشگويهايي را درباره اينكه كاربران چه ميخواهند ايجاد ميكند. با توجه به هدف بازاريابي كه دارند، كاربران هم ممكن است اطلاعاتي درباره اينكه كاربران چه چيزي را در وب جستجو ميكنند، بدهند. در اينجا كار كاربر در خصوص پيمايش صفحات مختلف وب آسان ميشود.
بايد توجه داشت که مرز مشخصي ميان سه گروه وب کاوي وجود ندارد. به عنوان مثال تکنيک هاي کاوش محتواي وب مي توانند علاوه بر به کارگيري متن مستندات، از اطلاعات کاربران هم استفاده کنند. همچنين مي توان از ترکيب تکنيک هاي فوق براي حاصل شدن نتايج بهتر استفاده کرد.
کاوش ساختار وب كمي به wum وابسته است. در جاهايي كه كاوش لينك و ساختار براي شناسايي لينكهاي بين صفحات وب نياز است. اين اطلاعات ميتواند براي دادن آگاهي به كاربر استفاده شود، و همچنين ظرفيت موتورها جستجو را بهبود ببخشد .
5-1- کاوش محتواي وبکاوش محتواي وب اولين گروه از طبقه بندي ارائه شده در وب کاوي مي باشد. همان طور که در بخش هاي قبل اشاره شد، کاوش محتواي وب به کشف و استخراج اطلاعات مفيد و ناشناخته از محتواي مستندات وب مي پردازد. محتواي مستندات وب بطور کلي شامل انواع مختلف اطلاعات از جمله داده هاي متني، صوتي، تصويري، فرا داده و … مي باشد و کاوش محتواي وب نوعي کاوش داده هاي چندرسانه اي نيز محسوب مي شود. داده هاي وب عموماً شامل داده هاي غير ساخت يافته مثل متون آزاد يا نيمه ساخت يافته مثل صفحاتHTML و تا حدي ساخت يافته تر مثل جداول يا صفحات HTML توليد شده توسط پايگاه داده هاست. اما در هر صورت بيشتر اطلاعات موجود در وب را متون غير ساخت يافته تشکيل مي دهند.
کاوش محتوا در وب را مي توان از دو ديد بررسي کرد: از ديد بازيابي اطلاعات و از ديد پايگاه داده ها. هدف کاوش محتوا در وب از نقطه نظر بازيابي اطلاعات تسهيل يا بهبود فرايند جستجوي اطلاعات يا فيلتر کردن اطلاعات براي کاربران است. در حالي که از ديد پايگاه داده ها هدف کاوش محتوا، ارائه مدلي از داده هاي وب و يکپارچه سازي آنها است به طوي که پرس و جوهاي پيچيده تر از پرس و جوهاي مبتني بر کلمات کليدي قابل پردازش باشند. کاوش محتوا از ديد پايگاه داده ها سعي در بدست آوردن ساختار سايت وب و يا تبديل سايت وب به يک پايگاه داده دارد تا بتواند مديريت و پرس و جوي اطلاعات موجود در وب را کاراتر انجام دهد. اين کار با کشف شماي اسناد موجود در وب يا ساخت يک پايگاه داده مجازي قابل انجام است.
در اين بخش رويکردها و تکنيک هاي کاوش محتوا در وب و نتايج حاصل از کاوش بررسي مي شوند. به طور کلي براي انجام کاوش محتوا براي يک کاربرد خاص، ابتدا بايد نوع نتيجه مورد انتظار تعيين شود. سپس بر اساس آن تکنيکي که براي کاوش و به دست آوردن آن نتيجه به کار مي رود، انتخاب مي گردد. در پايان نوع رويکرد مشخص مي شود تا تعيين گردد، فرآيند چگونه انجام شود.
سه رويکرد يا متدولوژي اصلي براي کاوش محتوا وجود دارد: رويکرد بالا به پايين، پايين به بالا و يا ترکيبي از اين دو. اين متدولوژي ها مي توانند مستقيم يا غير مستقيم باشند. به متدولوژي هاي مستقيم، يادگيري بانظارت و به متدولوژي هاي غير مستقيم، يادگيري بدون نظارت نيز گفته مي شود.
تکنيک هاي کاوش محتوا، الگوريتم هايي هستند که براي کاوش به کار مي روند. به نتايج حاصل از کاوش، انواع کاوش نيز گفته مي شود. اين نتايج معمولا شامل طبقه بندي، خوشه بندي، تشخيص موضوع و … مي باشد. بيشتر اوقات براي تمايز قائل شدن بين تکنيک هاي کاوش و نتايج کاوش، ميان محققين اختلاف نظر وجود دارد.
5-1-1- انواع کاوش محتوا در وب
منظور از انواع کاوش محتوا در وب، انواع نتايج مختلفي است که پس از فرآيند کاوش توليد مي شود. طبقه بندي، خوشه بندي، پيش بيني و تخمين، تعيين وابستگي ها و همبستگي ها و کشف آنومالي ها برخي از انواع کاوش محتوا در وب هستند که در اين بخش معرفي مي شوند. اگر چه تفاوت هايي ميان انواع کاوش محتوا وجود دارد، اما شباهت هايي نيز قابل مشاهده است.
5-1-1-1- طبقه بنديطبقه بندي مستندات به معناي مرتبط نمودن يک سند به يک طبقه از پيش تعريف شده است. به عبارت ديگر هدف از طبقه بندي مستندات، يافتن طبقه موضوعي مناسبي است که با کمترين خطا موضوع بحث يک سند را نشان مي دهد[1] . اين کار مي تواند با مربوط کردن يک سند به يکي از طبقات از پيش تعريف شده صورت پذيرد و يا در طبقه بندي پويا منجر به تعريف طبقه موضوعي جديدي براي سند در دست بررسي گردد. طبقه بندي جزء روشهاي يادگيري با نظارت به شمار مي آيد. به آن معني که ابتدا مجموعه اسنادي به سيستم داده مي شود که طبقه آنها مشخص شده است. سپس انتظار مي رود سيستم با ديدن اين نمونه ها بتواند نمونه هاي جديد را طبقه بندي کند. .هدف طبقه بندي، تحليل نمونه هاي آموزشي و ساخت مدل دقيقي براي هر طبقه با استفاده از ويژگيهاي موجود در داده ها و سپس استفاده از اين مدلها براي طبقه بندي داده هاي آتي است. عمده روش هاي طبقه بندي مستندات در يکي از دو دسته الگوريتم هاي آماري و مفهومي جاي مي گيرند.
5-1-1-3- خوشه بنديخوشه بندي يا تحليل خوشه ها فرايند گروه بندي اشياء فيزيکي يا مجازي در کلاسهايي از اشياء مشابه است. خوشه بندي يکي از روش هاي يادگيري بدون نظارت به شمار مي آيد. به آن معني که بر خلاف طبقه بندي که در ابتدا مثال هايي از کلاس هاي معلوم به سيستم داده مي شود، در خوشه بندي هيچ گونه اطلاع قبلي از کلاس ها در دسترس نيست و اين وظيفه سيستم است که با بررسي داده ها، خوشه ها و ويژگيهاي هر يک را تشخيص دهد [1].
به عنوان يک تکنيک وب کاوي، خوشه بندي داده ها، خوشه ها يا نواحي متراکم را در مجموعه بزرگي از داده هاي چند بعدي بر اساس معياري براي اندازه گيري فاصله پيدا مي کند. در يک مجموعه بزرگ از نقاط داده اي چند بعدي، معمولاً فضاي داده اي بطور يکنواخت توسط نقاط پر نمي شود. خوشه بندي داده ها، محلهاي خلوت و متراکم را تشخيص داده و در نتيجه الگوي کلي توزيع اطلاعات را تشخيص مي دهد.
5-1-1-4- ساير انواع کاوش محتوا در وبتخمين و پيش بيني دو نوع ديگر کاوش محتوا در وب به شمار مي آيند. به عنوان مثال ميزان درآمد افراد را مي توان با توجه به الگوهاي پرداخت و سن آنها تخمين زد. در پيش بيني نيز، مثلا با توجه به الگوهاي مشاهده شده در يک روزنامه، مي توان وقوع برخي رخدادها در آينده را پيش بيني کرد.
يکي ديگر از انواع کاوش محتوا، تعيين وابستگي ها و همبستگي ها مي باشد. به عنوان مثال با استفاده از اين نوع کاوش مي توان تعيين کرد، چه اجناسي با يکديگر خريداري مي شوند. در حالي که پيش بيني و تخمين راجع به مقادير آينده تصميم مي گيرند، اين نوع کاوش بين مقادير جاري ارتباط برقرار مي کند.
تحليل انحراف و کشف آنومالي ها نيز دو نوع ديگر کاوش محتوا محسوب مي شوند. اين نوع کاوش براي تشخيص بيماري ها مورد استفاده قرار مي گيرد.
5-1-2- رويکردهاي کاوش محتوا در وب
رويکردهاي کاوش محتوا که به آنها متدولوژي هم گفته مي شود، مراحل کاوش را تعيين مي کنند. دو رويکرد اصلي براي انجام مراحل کاوش وجود دارد: پايين به بالا و بالا به پايين. همچنين مي توان ترکيبي از اين دو رويکرد را استفاده کرد.
در رويکرد بالا به پايين کار از يک فرضيه، ايده يا الگوي مشخص آغاز مي شود. سپس با استفاده از داده هاي موجود، اين فرضيه ارزيابي مي شود. اگر برخي از داده ها، فرضيه مورد بررسي را تاييد نکنند، فرضيه اصلاح مي شود. براي اين منظور بسياري از تکنيک هاي استدلال آماري استفاده مي شوند. به طور کلي ارزيابي فرضيه شامل توليد مدلي براي فرضيه و ارزيابي مدل براي تعيين صحت يا عدم صحت فرضيه مي باشد. توسعه مدل چالش اصلي اين فرآيند مي باشد. يک مدل مي تواند مجموعه اي از قوانين باشد. براي ارزيابي مدل از داده هاي موجود استفاده مي شود.
در روش پايين به بالا، فرضيه اي براي ارزيابي وجود ندارد. اين رويکرد دشوارتر از رويکرد بالا به پايين است، چرا که بايد داده ها بررسي شده و از آنها الگويي استخراج شود. رويکرد پايين به بالا مي تواند مستقيم يا غير مستقيم باشد. در روش مستقيم که به آن يادگيري با نظارت نيز گفته مي شود، ايده اي در مورد آنچه به دنبال آن هستيم، وجود دارد. در اين حالت، مشابه رويکرد بالا به پايين، به توسعه مدل ها و ارزيابي آن ها بر اساس داده ها پرداخته مي شود. در روش غير مستقيم که به آن يادگيري بدون نظارت نيز گفته مي شود، ايده اي در مورد آنچه به دنبال آن هستيم، وجود ندارد. بلکه از ابزار موجود براي کاوش خواسته مي شود که الگوهايي کشف کند. به عنوان مثال در کاوش تصوير، ابزار کاوش مي تواند به جستجوي الگوهاي غير معمول بپردازد. پس از آن که الگوهاي مورد نظر کشف شد، مي توان از روش هاي يادگيري مستقيم استفاده کرد.
در رويکرد ترکيبي، از هر دو رويکرد بالا به پايين و پايين به بالا استفاده مي شود. براي مثال مي توان کار را با رويکرد پايين به بالا آغاز کرد و با تحليل داده ها يک يا چند الگو را کشف نمود. اين الگو مي تواند فرضيه اي باشد که با استفاده از رويکرد بالا به پايين مورد ارزيابي قرار گيرد.
5-1-3- الگوريتم هاي کاوش محتوا در وب
الگوريتم هاي متعددي براي کاوش محتوا در وب وجود دارند که از آن جمله مي توان به الگوريتم هاي تحليل آماري، يادگيري ماشين و ساير الگوريتم هاي استدلال اشاره کرد.
5-1-3- 1- درخت تصميميکي از الگوريتم هاي کاوش محتوا در وب، درخت تصميم است. درخت تصميم يکي از الگوريتم هاي يادگيري ماشين است که براي طبقه بندي به کار مي رود. در اين الگوريتم نمونه هاي اشياء و رکوردها، بر اساس مقادير برخي صفات به گروه هايي تقسيم مي شوند. به عنوان مثال افراد يک جامعه را مي توان بر اساس ميزان درآمد آنها به گروه هايي تقسيم کرد. همچنين گروه ها يا دسته هاي حاصل را مي توان بر اساس ويژگي ديگري مثل سن به زير دسته هاي ديگري تقسيم نمود و اين روند را ادامه داد. به اين ترتيب يک ساختار درختي شکل مي گيرد. اين درخت مورد آموزش قرار مي گيرد و براي دسته بندي داده هاي جديد به کار مي رود. هر گره در اين درخت، به ارزيابي يکي از صفات نمونه ها مي پردازد و هر يک از شاخه هاي يک گره مقادير متفاوت آن صفت را نشان مي دهد.
يکي از الگوريتم هاي رايجي که براي ساخت درخت تصميم به کار مي رود، ID3 است که درختهاي تصميم را از بالا به پايين مي سازد. اين الگوريتم ابتدا صفتي را که بايد در ريشه درخت قرار بگيرد، تعيين مي کند. براي اين منظور، هر يک از صفات نمونه ها با يک تست آماري ارزيابي مي شوند تا مشخص شود، اين صفت تا چه اندازه قادر به دسته بندي نمونه ها مي باشد. بهترين صفت در ريشه درخت قرار مي گيرد و براي هر مقدار ممکن اين صفت شاخه اي در زير آن ايجاد مي شود و نمونه هاي مربوط به هر شاخه انتقال مي يابند. سپس مراحل فوق الذکر براي نمونه هاي هر شاخه تکرار مي شود. درختهاي تصميم براي مسائلي مناسب هستند که نمونه ها با جفت هاي صفت-مقدار بازنمايي مي شوند و تابع دسته بندي مقادير خروجي گسسته داشته باشد. همچنين اين الگوريتم در صورت وجود خطا در نمونه هاي آموزشي و يا مقادير نامشخص براي بعضي صفات نيز قابل استفاده است.

5-1-3- 2- شبکه عصبييکي ديگر از الگوريتم ها و تکنيک هايي که در کاوش محتواي وب به کار مي رود، شبکه هاي عصبي هستند. يک شبکه عصبي مجموعه اي از سيگنال هاي ورودي، گره ها و سيگنال هاي خروجي است [2]. شبکه هاي عصبي ابتدا با داده ها و مثال هاي آموزشي، آموزش داده مي شوند. سپس داده هاي جديد به شبکه ارائه مي شوند و شبکه به تحليل آنها مي پردازد. شبکه هاي عصبي در کاوش محتواي وب، براي خوشه بندي، تشخيص موجوديت ها، تحليل انحرافات و ساير کاربردهاي وب کاوي به کار مي روند. همچنين شبکه هاي عصبي براي کشف الگوهاي غيرعادي در تصاوير به کار رفته اند.
5-1-3- 3- ساير الگوريتم هاي کاوشاز ديگر الگوريتمهاي کاوش محتوا در وب ميتوان به برنامهنويسي منطق استنتاجي که يکي از تکنيکهاي يادگيري ماشين است، اشاره کرد. در اين روش به جاي استنتاج دادههاي جديد از دادهها و قوانين موجود، قوانين از طريق تحليل دادهها استخراج ميشوند. برنامهنويسي منطق استنتاجي از اصل resolution براي اثبات قوانين کشف شده استفاده مي کند.
علاوه بر تکنيک هاي اشاره شده، تکنيک هاي ديگري نيز براي کاوش محتوا به کار مي روند. به عنوان مثال، تکنيک هاي نزديکترين همسايه، به تحليل داده هاي جديد بر اساس همسايه هاي آن ها مي پردازند. در اين روش اگر داده ي جديدي بايد تحليل شود، داده هاي موجود بررسي مي شوند تا داده هايي که ويژگي هايي مشابه داده جديد دارند، تشخيص داده شوند. سپس بر اساس اين داده ها در مورد داده جديد، تصميم گيري مي شود. براي تشخيص داده هاي مشابه از توابع فاصله استفاده مي شود.
از ديگر تکنيک هاي کاوش مي توان به تکنيک هاي مبتني بر الگوريتم هاي ژنتيک، منطق فازي، يادگيري مفهوم و استدلال مبتني بر قانون اشاره کرد.
5-2- کاوش ساختار وبکاوش ساختار وب، فرآيند کشف اطلاعات ساختاري از وب مي باشد. اين نوع کاوش بر اساس آن که از چه نوع داده ساختاري استفاده مي کند، به دو دسته تقسيم مي شود:
پيوندها: يک پيوند، يک واحد ساختاري است که يک صفحه وب را به صفحه ديگر يا به بخش ديگري از همان صفحه متصل مي کند. به پيوند نوع اول، پيوند بين سند و به پيوند نوع دوم، پيوند درون سند گفته مي شود. به اين نوع کاوش ساختار وب که از پيوندها استفاده مي کند، تحليل پيوند گفته مي شود.
ساختار سند: محتواي يک صفحه وب مي تواند بر اساس تگ هاي XML و HTML موجود در آن به صورت يک درخت بازنمايي شود. کاوش در اين جا بر استخراج مدل شيئ سند متمرکز مي شود. به اين نوع از کاوش ساختار وب، تحليل ساختار سند گفته مي شود.
در اين بخش ابتدا مدل هايي که براي بازنمايي ساختار وب به کار مي روند، معرفي مي شوند. سپس الگوريتم هايي که در کاوش ساختار وب به کار مي روند، تشريح مي شود.
5-2-1- مدل هاي بازنمايي ساختار وببراي به کارگيري الگوريتم هاي کاوش ساختار وب و محاسبه معيارهاي مربوطه، ابتدا لازم است، ساختار وب با استفاده از مدلي بازنمايي شود. برخي مدل هاي رايج، ساختارهاي گراف و مدل هاي مارکو هستند که در اين بخش به معرفي آنها پرداخته مي شود.
5-2-1-1- مدل هاي مبتني بر گرافمدلهاي مبتني بر گراف، ميتوانند از يک يا چند گره تشکيل شوند و يا کل گرههاي گراف وب را شامل شوند. مدلهاي تک گرهاي که نمونههاي آن درشکل(1)مشاهده ميشود، از يک گره و چندين يال تشکيل شدهاند. مدل (a) يک نوع صفحه

شکل(1) – مدل هاي گراف تک گره اي
وب را بازنمايي ميکند که به آن Authorithy گفته ميشود. يک صفحه Authorithy، صفحهاي است که صفحات زياد ديگري به آن اشاره کردهاند. مدل (b) نوع ديگري از صفحات وب را بازنمايي ميکند که به آن Hub گفته ميشود. يک صفحه Hub، صفحهاي است که به صفحات زياد ديگري اشاره ميکند. مدل (c) نيز ترکيبي از دو مدل قبل ميباشد [10].
مدل هاي چند گره اي که نمونه هاي آن در شکل (2) ديده مي شود، شامل چندين گره و يال هاي متصل کننده آن ها مي باشند. در مدل (a) که ارجاع مستقيم خوانده مي شود، يک صفحه به صفحه ديگر اشاره مي کند که نشان مي دهد، دو صفحه راجع به يک موضوع هستند. مدل (b) ارجاع متقابل است، که نشان دهنده ارتباطي قوي بين دو صفحه مي باشد. مدل (c) يک ارجاع غيرمستقيم ميان صفحه اول و سوم را نشان مي دهد. مدل (d)، co-citation است که در آن يک صفحه به دو صفحه ديگر اشاره مي کند و احتمالا اين دو صفحه مشابه يکديگر هستند. مدل (e)، co-referenceاست که دو صفحه به يک صفحه اشاره کرده و مي توان نتيجه گرفت اين دو صفحه با يکديگر در ارتباطند.

شکل(2) – مدل هاي گراف چند گره اي
علاوه بر مدل هاي معرفي شده، مدلي نيز براي کل گراف وب پيشنهاد شده است. اين مدل که به نام Bow-Tie شناخته مي شود از يک مولفه متصل قوي (SCC)، يک مولفه متصل ضعيف (IN) که به صفحات مولفه قوي اشاره مي کند و يک مولفه ضعيف ديگر (OUT) که مولفه قوي به صفحات آن اشاره مي کند، تشکيل شده است. مولفه هاي ديگري نيز در اين مدل وجود دارند که به اين ساختارهاي اصلي متصل نيستند. همچنين مجموعه اي از گره ها به نام TENDRILS وجود دارند که به فقط به IN يا OUT متصلند. مولفه اي نيز به نام tube گره هاي IN را به گره هاي OUT متصل مي کنند. اين مدل در شکل (3) نشان داده شده است.
ويژگي هاي اين گراف مانند قطر آن و توزيع درجه ورودي/خروجي گره ها در تحقيقات مختلف مورد بررسي قرار گرفته است. به عنوان مثال قطر محاسبه شده براي مولفه متصل قوي، 28 مي باشد. همچنين نشان داده شده است که توزيع درجه ورودي/ خروجي صفحات از قانون توان تبعيت مي کند. قانون توان نشان مي دهد، احتمال آن که مقداري مانند d وجود داشته باشد، متناسب با 1/dp است. که d يک عدد مثبت صحيح و p يک عدد مثبت کوچک است.

شکل(3) – مدل گراف وب
5-2-1-2- مدل هاي مارکويک زنجيره مارکو از مرتبه m، نشان مي دهد که تغيير حالت يک سيستم، به حالت فعلي و m-1 حالت گذشته آن بستگي دارد. مدل هاي مارکو مرتبه اول براي مدلسازي رفتار پيمايشي کاربر در وب به کار رفته اند. الگوريتم Page Rank که يکي از الگوريتم هاي کاوش ساختار وب به شمار مي آيد، از فرآيند قدم زدن تصادفي مبتني بر مدل هاي مارکو استفاده مي کند. در اين الگوريتم فرض بر آن است که کاربر در طي پيمايش يا به يک صفحه جديد مراجعه مي کند و يا يکي از پيوندهاي موجود در صفحه جاري را طي مي نمايد. همچنين زنجيرهاي مارکو در طراحي سايت هاي تطبيقي نيز استفاده مي شوند.
5-2-2- الگوريتم هاي کاوش ساختار وبدر اين بخش به بررسي الگوريتم ها و روش هايي که در کاوش ساختار وب به کار مي روند، پرداخته مي شود. دو الگوريتم اول که HITS و Page Rank نام دارند، براي بازيابي صفحات وب و رتبه بندي آنها بر اساس ميزان ارتباط با پرس و جوي کاربر استفاده مي شوند. الگوريتم سوم در تشخيص اجتماعات وب و الگوريتم چهارم نيز براي محاسبه فاصله صفحات وب استفاده مي شود.
5-2-2-1- HITSالگوريتم HITS يکي از الگوريتم هاي رايج براي رتبه بندي صفحات وب بر اساس ميزان ارتباط آنها با پرس و جوي کاربر است که در سال 1998 توسطKleinberg ارائه شد [2]. اين الگوريتم از دسته روش هاي وابسته به پرس و جو است. در اين نوع روش ها براي هر پرس و جو تحليل پيوندها انجام مي شود. براي انجام تحليل پيوند، ابتدا مي بايست گراف خاص پرس و جو به نام گراف همسايگي ساخته شود. در حالت ايده آل اين گراف تنها شامل صفحات مرتبط با موضوع پرسوجو است. براي ساخت گراف همسايگي، ابتدا يک مجموعه از اسناد مرتبط با پرس و جو، به وسيله موتور جست و جو واکشي مي شوند. سپس اين مجموعه آغازين به وسيله همسايگانش تکميل مي گردد. همسايه ها، مجموعه اي از اسناد هستند که يا از اسناد موجود در مجموعه آغازين به آنها پيوند داده شده است و يا به اسناد موجود در مجموعه آغازين پيوند داده اند. از آنجا که تعداد اسنادي که به اسناد موجود در مجموعه آغازين پيوند داده اند ممکن است عدد بزرگي شود، اين عدد محدود و براي تعداد اين اسناد حدي در نظر گرفته مي شود. سپس اين الگوريتم براي هر گره در گراف همسايگي، به طور تناوبي دو امتياز Authority و Hub را محاسبه مي کند. سپس گره ها را با توجه به اين امتيازات رتبه بندي مي کند. گره هاي با امتياز بالايAuthority ، Authority خوب و گره هاي با امتياز بالاي Hub، Hub خوبي هستند. اين الگوريتم فرض مي کند سندي که به اسناد ديگر بيشتري اشاره مي کند، Hub خوبي است، و سندي که اسناد بيشتري به آن اشاره مي کنند، Authority خوبي مي باشد. به طور بازگشتي مي توان نتيجه گرفت سندي که به تعداد Authority هاي خوب بيشتري اشاره مي کند، Hub بهتري است و سندي که Hub هاي خوب بيشتري به آن اشاره مي کنند، Authority بهتري مي باشد. الگوريتم بازگشتي براي محاسبه امتياز Hub و Authority به صورت زير بيان مي شود:
N، مجموعه گره ها در گراف همسايگي در نظر گرفته مي شود.
براي هر گره A در N، امتياز Authority با Aut[A] و امتياز Hub با Hub[A] نمايش داده مي شود.

dad12

دانلود پایان نامه 595

NFR1

–252

Related posts: