ریسرچ های ارشد user854

Please enter banners and links.

تعریف مشخصات نیازمندی‌ها: در این فاز بر اساس تعریف ایجاد شده از سیستم، یک مدل از آن ساخته می‌شود.
اعتبار سنجی نیازمندی‌ها: در این فاز نیازمندی‌ها برای وجود ابهامات مورد آزمایش و بررسی دقیق قرار می‌گیرند.
مدیریت نیازمندی‌ها: این فاز مجموعه‌ای از فعالیت‌ها را تعریف می‌کند که باعث می‌شوند تیم پروژه بتواند تعیین، کنترل و ردگیری نیازمندی‌ها و تغییرات آنها را در هر زمان مدیریت کند.
این پنج فاز مکانیزم مناسبی جهت درک خواسته‌های ذینفعان، تحلیل نیازها، تعیین امکان پذیر بودن پروژه، مذاکره در مورد راه حل قابل قبول، تعیین راه حل به صورت شفاف، اعتبار سنجی خصوصیات و مدیریت نیازمندی‌ها در زمان اعمال آنها به سیستم عملیاتی می‌باشد.
هدف از فاز اول تعیین این موضوع است که چه مسائلی نیاز به حل شدن دارند. در فاز دوم درک ارتباط بین نیازمندی‌های گوناگون مشتری و شکل دادن به ارتباطات برای دستیابی به نتیجه موفق انجام می‌شود. در فاز سوم از روش‌هایی چون ایجاد یک مدل ملموس از سیستم می‌تواند به تعیین نیازمندی‌ها کمک کند. در فاز چهارم توسط بازبینی مدل به اعتبار و صحت سنجی نیازهای ثبت شده پرداخته و در فاز آخر به مدیریت این فرایند که شامل تعیین، کنترل و پیگیری نیازها و تغییرات آنها می‌باشند، می‌پردازیم.1-3 استخراج نیازمندی‌هااستخراج نیازمندی‌ها به عنوان اولین و مهم‌ترین فاز از پنج فاز مهندسی نیازمندی‌ها می‌باشد. هدف استخراج نیازمندی‌ها تعیین این مطلب است که چه مسائلی نیازمند حل شدن هستند. بیشتر سیستم‌هایی که در صنعت نرم افزار ساخته می‌شوند نمی‌توانند نیازهای کاربران را برآورده کنند. کیفیت نیازمندی‌ها برای موفقیت یک پروژه حیاتی است. استخراج نیازمندی‌ها فاز اول مهندسی نیازمندی‌ها است و نقش مهمی در طول چرخه‌ی عمر توسعه‌ی نرم افزار دارد. این فاز شامل مسائل اجتماعی، ارتباطی و تکنیکی و درگیر بیرون کشیدن نیازمندی‌های مشتری است و یکی از فعالیت‌های کلیدی و پیچیده محسوب می‌شود، زیرا در اکثر موارد کاربران از نیازهای خود آگاه نیستند و اختلاف در نقاط دید طرز تفکر و انتظارات بین کاربران و تحلیلگران این کار را مشکل و چالش برانگیز ساخته است. برای پشتیبانی و بهبود فرایند استخراج تکنیک‌های زیادی با نقاط ضعف و قدرت متفاوت وجود دارند اما مهندسان نیازمندی همواره برای انتخاب تکنیک مناسب از بین این تکنیک‌ها مشکلاتی دارند. مهم‌ترین دلیل آن این است که یک تکنیک برای همه‌ی موقعیت‌ها مناسب نیست و موقعیت در طول فرایند استخراج تغییر می‌کند. نقل قولی از فردریک بروکس جواب این سؤال را که “چرا نیازمندی‌ها اینقدر اهمیت دارند” می‌گوید: سخت‌ترین بخش ساخت یک سیستم نرم‌افزاری تصمیم گیری دقیق در مورد این است که چه چیزی باید ساخته شود. بخش‌های دیگر عمل درک نیازمندی‌ها به سختی وضع کردن نیازمندی‌های فنی مجزا نیست که شامل همه رابطه‌های افراد، ماشین‌ها ، و سیستم‌های نرم افزاری دیگر است. بخش‌های دیگر سیستم حاصل را اینقدر عاجز نمی‌کنند اگر اشتباه انجام شود. هیچ بخش دیگری سخت‌تر از این نیست که بعداً تصحیح شود. استنباط ، تحلیل ، و خوب نوشتن نیازمندی‌ها سخت‌ترین بخش‌های مهندسی نرم افزار هستند. به هر حال به نقل قول از کارل ویگرس “اگر شما نیازمندی‌ها را درست نگیرید هیچ اهمیتی نخواهد داشت که شما چیزهای دیگر را چقدر خوب انجام داده باشید”.
1-4 سازمان‌های بزرگ مقیاسهمان طور كه از نام سازمان‌هاي بزرگ مقياس برمي‌آيد، اين نوع از سازمان‌ها، سازمان‌هايي هستند كه از نظر مقياس و اندازه فراتر از سازمان‌هاي امروزي هستند. اين «بزرگ مقياس» بودن از هر نظر قابل بررسي است: از نظر افراد درگير در سازمان، داده‌هاي ذخيره شده، بازيابي شده، دستكاري شده و پالايش شده، ميزان اتصالات و وابستگي بين واحدي مؤلفه‌های نرم‌افزاري، عناصر سخت‌افزاري و … .
«مقياس» در سازمان‌هاي بزرگ مقياس باعث تغيير همه چيز مي‌شود. اين سازمان‌ها، لزوماً به شكل نامتمركز هستند؛ توسط تعداد زيادي از ذینفعان با نيازهاي متضاد، توسعه و به كار گرفته مي‌شوند؛ به طور مستمر تكامل پيدا مي‌كنند؛ از قطعات ناهمگن تشكيل مي‌شوند؛ افراد تنها كاربران سامانه نيستند، بلكه بخشي از سامانه محسوب مي‌شوند؛ خرابي‌هاي نرم‌افزاري و سخت‌افزاري يك امر كاملاً عادي محسوب مي‌شوند و نمي‌توان آن‌ها را يك استثناء در نظر گرفت. همچنين، سامانه‌هاي بزرگ مقياس همزمان مورد استفاده قرار مي‌گيرند و نياز به روش‌هاي نوين براي كنترل دارند. اين ويژگي‌ها، لزوم بكارگيري روش‌هايي را براي استفاده، توليد، استقرار، مديريت، مستندسازي و تكامل سازمان‌هاي بزرگ مقياس اجتناب‌ناپذير مي‌سازد ADDIN EN.CITE <EndNote><Cite><RecNum>60</RecNum><DisplayText>[3]</DisplayText><record><rec-number>60</rec-number><foreign-keys><key app=”EN” db-id=”w2sr2evvy9wst9ep9sfxd9tjp09pewf5tx0a”>60</key></foreign-keys><ref-type name=”Web Page”>12</ref-type><contributors></contributors><titles></titles><volume>1392</volume><dates></dates><urls><related-urls><url>http://isa.sbu.ac.ir/uls</url></related-urls></urls></record></Cite></EndNote>[3].
از نمونه این سازمان‌ها می‌توان به شهرداری تهران اشاره نمود که دارای مجموعه وسیعی از نیروی انسانی در واحدهای مختلف بوده که هدف آنها جلب رضایت هرچه بیشتر شهروندان می‌باشد. ارضای نیازمندی‌های شهروندان در اولویت وظایف این سازمان قرار داشته و با بوجود آوردن زیرمجموعه‌هایی همچون سامانه مدیریت شهری 137، سامانه نظارت همگانی 1888 و … با دخیل کردن شهروندان در ثبت نظرات، پیشنهادات، خواسته‌ها و نیازهایشان سعی به انجام بهتر این وظیفه بزرگ دارد.
1-5 ویژگی‌های سازمان‌ها و سامانه‌های بزرگ مقیاسسازمان‌هاي بزرگ مقياس ويژگي‌هايي دارند كه باعث مي‌شوند رويكردهاي فعلي و مورد استفاده روش‌هاي مهندسي نرم‌افزار نتوانند پاسخگوي توسعه آن‌ها باشند. اين ويژگي‌ها عمدتاً ناشي از «مقياس» اين گونه از سازمان‌ها است. ويژگي اصلي سازمان‌هاي بزرگ مقياس، اندازه بسيار بزرگ آن‌ها در ابعاد مختلف است. البته ماهيت سامانه‌هاي بزرگ مقياس به مواردي فراتر از «اندازه» آن‌ها برمي‌گردد. در واقع، اندازه باعث مي‌شود بسياري از مواردي كه در سازمان‌هاي معمولي غیر مهم يا كم اهميت بودند، تبديل به موارد بااهميت شوند. مشكلات ناشي از مقياس، نيازمند روش‌هاي جديد حل و تعريف مفاهيم نو براي طراحي، توسعه، كاركرد و تكامل سازمان‌ها است. مي‌توان هفت ويژگي را براي سازمان‌ها و یا سامانه‌های بزرگ مقياس در نظر گرفت. در ادامه، ضمن بيان اين ويژگي‌ها، مشخص مي‌كنيم چرا هر يك از آن‌ها باعث مي‌شود كه رويكردهاي فعلي مهندسي نرم‌افزار در مقابله با آن‌ها ناتوان باشد ADDIN EN.CITE <EndNote><Cite><RecNum>60</RecNum><DisplayText>[3]</DisplayText><record><rec-number>60</rec-number><foreign-keys><key app=”EN” db-id=”w2sr2evvy9wst9ep9sfxd9tjp09pewf5tx0a”>60</key></foreign-keys><ref-type name=”Web Page”>12</ref-type><contributors></contributors><titles></titles><volume>1392</volume><dates></dates><urls><related-urls><url>http://isa.sbu.ac.ir/uls</url></related-urls></urls></record></Cite></EndNote>[3].
كنترل نامتمركز
مقياس سامانه‌هاي بزرگ مقیاس تنها به شكل بسيار محدودي اجازه كنترل مركزي و سلسله مراتبي داده، توسعه، تكامل، و كاركرد را مي‌دهد. حتي مقدار محدود كنترل سلسله مراتبي كه امروزه در سامانه‌هاي بسيار بزرگ امكان‌پذير است، در سامانه‌هاي بزرگ مقیاس مورد ترديد است، و در نتيجه مدل‌هاي متفاوتي را براي كنترل طلب مي‌كند.
نیازمندی‌های ذاتاً متضاد و ناشناخته
مقياس و پيچيدگي مسائلي كه سازمان‌هاي بزرگ مقياس بايد حل كنند، اغلب ما را به سمت وضعيتي سوق مي‌دهد كه در آن نيازمندي‌هاي يك سامانه تا زمان استفاده از آن سامانه ناشناخته‌اند. حتی، گاهي پس از آن كه سامانه مورد نظر عملياتي شد، درك ما از مسئله دچار تغيير مي‌شود. در واقع، هر تلاش براي حل مسئله، فهم ما را از آن مسئله بيشتر مي‌كند و باعث مي‌شود مسئله جديدي مطرح شده و به تلاشي ديگر براي حل آن نياز باشد. به اين شكل، بسياري از مسائلي كه سامانه‌هاي بزرگ مقياس بايد حل كنند، پايان‌پذير نيستند. از طرف ديگر، سامانه‌هاي بزرگ مقياس به دليل اندازه و ماهیتشان بايد طيف وسيعي از نيازمندي‌ها را ارضا كنند. هر چقدر دامنه اين نيازمندي‌ها وسيع‌تر باشد، تنوع و تضاد در بين آن‌ها افزايش مي‌يابد. همچنين، يكپارچگي راه‌حل‌ها نياز به دانش در حوزه‌هاي مختلف و بين دامنه‌اي دارد، كه به دست آوردن آن چندان ساده نيست.
تكامل و استقرار مداوم
يكي ديگر از پيامدهاي «اندازه» اين است كه سازمان‌هاي بزرگ مقياس براي مدت طولاني بايد به ارايه خدمات بپردازند. در واقع، اندازه اين نوع از سازمان‌ها جايگزيني يا از رده خارج شدن آن‌ها را غيرممكن مي‌سازد. سازمان‌هاي بزرگ مقياس نيز همانند سامانه‌هاي بسيار بزرگ امروزي به طور مداوم تكامل پيدا مي‌كنند تا نيازمندي‌هاي جديد و تغييريافته را برآورده كنند. با اين حال، ما به تكاملي متفاوت از تكامل در سازمان‌هاي بسيار بزرگ امروزي نياز داريم. هنگامي كه از تكامل يك سامانه صحبت مي‌كنيم، منظورمان تغييرات هدايت‌شده‌اي است كه بر اساس قواعد و سياست‌ها، به شكل محلي انجام مي‌شود بدون آن كه يكپارچگي آن سامانه را از بين ببرد. اما، يكپارچگي در سامانه‌هاي بزرگ مقياس توسط گروه‌هاي مختلفي از ذینفعان انجام مي‌شود. هيچ تضميني وجود ندارد كه اين تغييرات كاملاً قاعده‌مند بوده و بر اساس قواعد از پیش تعریف شده انجام پذيرد.
عناصر ناهمگن، ناسازگار و در حال تغيير
اندازه سامانه‌هاي بزرگ مقياس به این معني است كه عناصر آن (همچون سخت‌افزار، نرم‌افزار، روال‌ها، قواعد، افراد و …) ناهمگن، ناسازگار و در حال تغيير هستند. عناصر نرم‌افزاري به دليل گوناگون بودن منابع آن‌ها ناهمگن هستند (زبان‌هاي برنامه‌سازي متفاوت، سكوهاي مختلف، متدلوژی‌های متفاوت و …). از آن جا كه ايجاد نرم‌افزارها نيز در شرايط متفاوتي (از منظر مكان‌ها، زمان‌بندي‌ها، فرآيندها، اهداف، ذینفعان و …) انجام شده است، احتمالاً در طراحي، ساخت و بهره‌برداري با يكديگر ناسازگارند. بخش‌هاي مختلف يك سامانه همواره در حال تغيير هستند. محيط عملياتي تغيير مي‌كند؛ بخش‌هاي خراب سخت‌افزار بايد جايگزين شوند؛ نرم‌افزارها و سخت‌افزارها به روز مي‌شوند؛ و پيكربندي مؤلفه‌ها اصلاح مي‌شوند.
از بين رفتن تدريجي مرز بين افراد و سامانه
افراد نه تنها كاربران يك سامانه بزرگ مقياس هستند، بلكه بخشي از رفتار كلي آن نيز محسوب مي‌شوند. در واقع، مرز بين سامانه و نقش‌هاي كاربر/ توسعه‌دهنده به روشني مشخص نيست. يك شهر را در نظر بگيريد. افرادي كه در اين شهر ساكن هستند، ممكن است تغيير و نگهداري آن را نيز به عهده داشته باشند. در واقع يك شخص، نقش‌هاي متفاوتي دارد. در يك سامانه بزرگ مقياس نيز چنين وضعيتي رخ مي‌دهد. يك شخص در يک زمان ممکن است كاربر سامانه باشد؛ در وقتي ديگر ممکن است يك نقش نگهداشت را بر عهده گيرد؛ در زماني ديگر مي‌تواند عملكردهاي سامانه را اضافه و كم يا تصحيح کند. در نظر گرفتن افراد به عنوان بخشي از سامانه‌هاي بزرگ مقياس به اين معني است كه با تغيير توانايي‌هاي محاسباتي و پيكربندي سازمان‌ها بايد فرآيندها و روال‌هاي مربوطه جهت كمك به درك افراد در راستاي اهداف و مأموریت‌های آن‌ها اصلاح شود، زيرا افراد بخشي از خود سامانه بزرگ مقياس هستند.
خرابي‌هاي طبيعي
از آن جا كه زيربناي فيزيكي يك سامانه بزرگ مقياس بسيار گسترده است، خرابي سخت‌افزار ديگر يك امر غيرعادي نيست؛ بلكه به طور طبيعي اتفاق مي‌افتد. همچنين، از آنجا كه مؤلفه‌های نرم‌افزاري فراتر از ظرفيتي كه طراحي شده‌اند، تحت فشار قرار مي‌گيرند، رفتار آن‌ها نيز ممكن است نامطلوب باشد؛ كه اين مسئله نيز كاملاً عادي است. فرض كنيد يك پروتكل ارتباطي در هر يك ميليون انتقال فايل يك بار با شكست روبه‌رو مي‌شود. اگر انتقال فايل يك ميليون بار در روز اتفاق افتد، به طور متوسط يك شكست در روز خواهيم داشت. در سامانه‌هاي بزرگ مقياس معمولاً بروز خرابي آن قدر متداول است كه در واقع مي‌توان گفت خطا «هميشه» رخ مي‌دهد. با توجه به مقياس چنين سامانه‌هايي، مسئله خرابي بايد به شكل يك مشكل پيوسته در طراحي و ساخت لحاظ شود.
پارادايم‌هاي جديد براي استفاده و سياست‌گذاري
به دليل اندازه سامانه‌هاي بزرگ مقياس، افرادي كه مسئول ساخت آن‌ها هستند (احتمالاً مديران، توسعه‌دهندگان، فروشندگان، و …) نمي‌توانند به طور قطعي تعريف شوند. نمي‌توان نيازمندي‌هاي متغير و غيرقطعي ذینفعان را كنترل كرد. نمي‌توان نيازمندي‌ها را به شكل متمركز و سراسري نظارت كرد. در حقيقت اندازه سامانه‌هاي بزرگ مقياس باعث بروز يك چالش اساسي براي مديران مي‌شود. اگر نتوان نيازمندي‌هاي واقعي ذینفعان را به طور كامل مشخص كرد، چگونه مي‌توان فرآيند بستن قرارداد، طراحي و ساخت را كنترل كرد.
1-6 چالش‌های سازمان‌های بزرگ مقیاسسازمان‌هاي بزرگ مقياس داراي ويژگي‌هايي هستند كه باعث مي‌شوند رويكردهاي (فعلي و مورد استفاده) روش‌هاي مهندسي نرم‌افزار نتوانند پاسخگوي نیازهای آن‌ها باشند. اين ويژگي‌ها عمدتاً ناشي از «مقياس» اين گونه از سازمان‌ها است. روش‌هاي امروزي براي استخراج صحیح نیازمندی‌ها در این سازمان‌ها كافي نيستند. موفقيت سازمان‌هاي بزرگ مقياس و دست‌يابي به اهداف و مقاصد اين نوع از سازمان‌ها بستگي به توسعه توانمندي‌هاي جديد دارد ADDIN EN.CITE <EndNote><Cite><RecNum>60</RecNum><DisplayText>[3]</DisplayText><record><rec-number>60</rec-number><foreign-keys><key app=”EN” db-id=”w2sr2evvy9wst9ep9sfxd9tjp09pewf5tx0a”>60</key></foreign-keys><ref-type name=”Web Page”>12</ref-type><contributors></contributors><titles></titles><volume>1392</volume><dates></dates><urls><related-urls><url>http://isa.sbu.ac.ir/uls</url></related-urls></urls></record></Cite></EndNote>[3]. از نمونه این چالش‌ها می‌توان به بحث استخراج و اولویت بندی نیازمندی‌ها در سامانه مدیریت شهری 137 شهرداری تهران اشاره نمود که شامل میلیون‌ها رکورد ثبت شده از خواسته‌ها و نیازهای شهروندان می‌باشد که استفاده از این حجم عظیم اطلاعات، این سامانه را گاهاً دچار مشکل می‌کند.
1-7 انگیزهامروزه اهمیت اولین فاز از فازهای مهندسی نیازمندی‌ها بر همگان مشخص گردیده و بارها مشاهده کردیم که نادیده گرفتن یک ذینفع منجر به صدمات جبران ناپذیر و یا حداقل منجر به نادیده شدن گروهی از ذینفعان دیگر گردیده است. در استخراج نیازها، افراد دیدگاه‌ها و نظرات متفاوتی در نیازها و اولویت اجرای آنها دارند و با رشد روز افزون بازار فناوری اطلاعات و بزرگ شدن پروژه‌ها اهمیت و پیچیدگی این موضوع بیشتر می‌گردد.
انگیزه از جایی شروع می‌شود که تا ندانیم چه مسائلی نیاز به حل شدن دارند نمی‌توانیم به دنبال ارائه راه حل‌های آنها باشیم. بنابراین شناسایی و اولویت بندی نیازها موضوعی است که باید در ابتدا مورد توجه قرار گیرد. با توجه به اهمیت استخراج نیازمندی‌ها و مدیریت ارتباط با شهروند، پژوهش قابل توجهی در این زمینه انجام نشده است. اکثر مقالات منتشر شده در این زمینه نیز جنبه نظری و تئوری داشته و تعداد کمی از آنها به صورت کاربردی مفهوم مدیریت ارتباط با شهروند را مورد بررسی قرار داده‌اند ADDIN EN.CITE <EndNote><Cite><Author>مینایی</Author><Year>1389</Year><RecNum>59</RecNum><DisplayText>[2]</DisplayText><record><rec-number>59</rec-number><foreign-keys><key app=”EN” db-id=”w2sr2evvy9wst9ep9sfxd9tjp09pewf5tx0a”>59</key></foreign-keys><ref-type name=”Conference Paper”>47</ref-type><contributors><authors><author><style face=”normal” font=”default” charset=”178″ size=”100%”>بهروز مینایی</style></author></authors></contributors><titles><title><style face=”normal” font=”default” charset=”178″ size=”100%”>مدلی جدید برای کشف نیازهای مشتریان بر اساس تئوری </style><style face=”normal” font=”Arial” size=”100%”>RFM </style><style face=”normal” font=”default” charset=”178″ size=”100%”>و تکنیک های داده کاوی</style></title><secondary-title><style face=”normal” font=”default” charset=”178″ size=”100%”>هفتمین کنفرانس بین المللی مهندسی صنایع</style></secondary-title></titles><dates><year><style face=”normal” font=”default” charset=”178″ size=”100%”>1389</style></year></dates><pub-location><style face=”normal” font=”default” charset=”178″ size=”100%”>دانشگاه صنعتی اصفهان</style></pub-location><urls></urls></record></Cite></EndNote>[2].
1-8 تعریف مسئلهبا رشد و توسعه‌ی بازار فناوری اطلاعات این موضوع به وضوح مشخص است که مشتریان و توسعه دهندگان از نظر جغرافیایی در سراسر کشور و جهان پراکنده می‌باشند و در نتیجه روش‌های چون ملاقات‌های شخصی در بحث استخراج نیازمندی‌ها تقریباً غیر ممکن است. علاوه بر این، رشد اندازه و پیچیدگی سیستم‌های نرم‌افزاری و همچنین رشد رو به افزایش تعداد ذینفعان، مسئله‌ی مدیریت و هماهنگی استخراج نیازها را در سازمان‌ها و سامانه‌های بزرگ مقیاس روشن می‌سازد PEVuZE5vdGU+PENpdGU+PEF1dGhvcj5DYXN0cm8tSGVycmVyYTwvQXV0aG9yPjxZZWFyPjIwMDg8
L1llYXI+PFJlY051bT4zMzwvUmVjTnVtPjxEaXNwbGF5VGV4dD5bNC02XTwvRGlzcGxheVRleHQ+
PHJlY29yZD48cmVjLW51bWJlcj4zMzwvcmVjLW51bWJlcj48Zm9yZWlnbi1rZXlzPjxrZXkgYXBw
PSJFTiIgZGItaWQ9Incyc3IyZXZ2eTl3c3Q5ZXA5c2Z4ZDl0anAwOXBld2Y1dHgwYSI+MzM8L2tl
eT48L2ZvcmVpZ24ta2V5cz48cmVmLXR5cGUgbmFtZT0iQ29uZmVyZW5jZSBQcm9jZWVkaW5ncyI+
MTA8L3JlZi10eXBlPjxjb250cmlidXRvcnM+PGF1dGhvcnM+PGF1dGhvcj5DYXN0cm8tSGVycmVy
YSwgQ2FybG9zPC9hdXRob3I+PGF1dGhvcj5EdWFuLCBDaHVhbjwvYXV0aG9yPjxhdXRob3I+Q2xl
bGFuZC1IdWFuZywgSmFuZTwvYXV0aG9yPjxhdXRob3I+TW9iYXNoZXIsIEJhbXNoYWQ8L2F1dGhv
cj48L2F1dGhvcnM+PC9jb250cmlidXRvcnM+PHRpdGxlcz48dGl0bGU+VXNpbmcgZGF0YSBtaW5p
bmcgYW5kIHJlY29tbWVuZGVyIHN5c3RlbXMgdG8gZmFjaWxpdGF0ZSBsYXJnZS1zY2FsZSwgb3Bl
biwgYW5kIGluY2x1c2l2ZSByZXF1aXJlbWVudHMgZWxpY2l0YXRpb24gcHJvY2Vzc2VzPC90aXRs
ZT48c2Vjb25kYXJ5LXRpdGxlPkludGVybmF0aW9uYWwgUmVxdWlyZW1lbnRzIEVuZ2luZWVyaW5n
LCAyMDA4LiBSRSZhcG9zOzA4LiAxNnRoIElFRUU8L3NlY29uZGFyeS10aXRsZT48L3RpdGxlcz48
cGFnZXM+MTY1LTE2ODwvcGFnZXM+PGRhdGVzPjx5ZWFyPjIwMDg8L3llYXI+PC9kYXRlcz48cHVi
bGlzaGVyPklFRUU8L3B1Ymxpc2hlcj48aXNibj4wNzY5NTMzMDk0PC9pc2JuPjx1cmxzPjwvdXJs
cz48L3JlY29yZD48L0NpdGU+PENpdGU+PEF1dGhvcj5DYXN0cm8tSGVycmVyYTwvQXV0aG9yPjxZ
ZWFyPjIwMDk8L1llYXI+PFJlY051bT4zNTwvUmVjTnVtPjxyZWNvcmQ+PHJlYy1udW1iZXI+MzU8
L3JlYy1udW1iZXI+PGZvcmVpZ24ta2V5cz48a2V5IGFwcD0iRU4iIGRiLWlkPSJ3MnNyMmV2dnk5
d3N0OWVwOXNmeGQ5dGpwMDlwZXdmNXR4MGEiPjM1PC9rZXk+PC9mb3JlaWduLWtleXM+PHJlZi10
eXBlIG5hbWU9IkNvbmZlcmVuY2UgUHJvY2VlZGluZ3MiPjEwPC9yZWYtdHlwZT48Y29udHJpYnV0
b3JzPjxhdXRob3JzPjxhdXRob3I+Q2FzdHJvLUhlcnJlcmEsIENhcmxvczwvYXV0aG9yPjxhdXRo
b3I+RHVhbiwgQ2h1YW48L2F1dGhvcj48YXV0aG9yPkNsZWxhbmQtSHVhbmcsIEphbmU8L2F1dGhv
cj48YXV0aG9yPk1vYmFzaGVyLCBCYW1zaGFkPC9hdXRob3I+PC9hdXRob3JzPjwvY29udHJpYnV0
b3JzPjx0aXRsZXM+PHRpdGxlPkEgcmVjb21tZW5kZXIgc3lzdGVtIGZvciByZXF1aXJlbWVudHMg
ZWxpY2l0YXRpb24gaW4gbGFyZ2Utc2NhbGUgc29mdHdhcmUgcHJvamVjdHM8L3RpdGxlPjxzZWNv
bmRhcnktdGl0bGU+UHJvY2VlZGluZ3Mgb2YgdGhlIDIwMDkgQUNNIHN5bXBvc2l1bSBvbiBBcHBs
aWVkIENvbXB1dGluZzwvc2Vjb25kYXJ5LXRpdGxlPjwvdGl0bGVzPjxwYWdlcz4xNDE5LTE0MjY8
L3BhZ2VzPjxkYXRlcz48eWVhcj4yMDA5PC95ZWFyPjwvZGF0ZXM+PHB1Ymxpc2hlcj5BQ008L3B1
Ymxpc2hlcj48aXNibj4xNjA1NTgxNjY2PC9pc2JuPjx1cmxzPjwvdXJscz48L3JlY29yZD48L0Np
dGU+PENpdGU+PEF1dGhvcj5DbGVsYW5kLUh1YW5nPC9BdXRob3I+PFllYXI+MjAwODwvWWVhcj48
UmVjTnVtPjM0PC9SZWNOdW0+PHJlY29yZD48cmVjLW51bWJlcj4zNDwvcmVjLW51bWJlcj48Zm9y
ZWlnbi1rZXlzPjxrZXkgYXBwPSJFTiIgZGItaWQ9Incyc3IyZXZ2eTl3c3Q5ZXA5c2Z4ZDl0anAw
OXBld2Y1dHgwYSI+MzQ8L2tleT48L2ZvcmVpZ24ta2V5cz48cmVmLXR5cGUgbmFtZT0iQ29uZmVy
ZW5jZSBQcm9jZWVkaW5ncyI+MTA8L3JlZi10eXBlPjxjb250cmlidXRvcnM+PGF1dGhvcnM+PGF1
dGhvcj5DbGVsYW5kLUh1YW5nLCBKYW5lPC9hdXRob3I+PGF1dGhvcj5Nb2Jhc2hlciwgQmFtc2hh
ZDwvYXV0aG9yPjwvYXV0aG9ycz48L2NvbnRyaWJ1dG9ycz48dGl0bGVzPjx0aXRsZT5Vc2luZyBk
YXRhIG1pbmluZyBhbmQgcmVjb21tZW5kZXIgc3lzdGVtcyB0byBzY2FsZSB1cCB0aGUgcmVxdWly
ZW1lbnRzIHByb2Nlc3M8L3RpdGxlPjxzZWNvbmRhcnktdGl0bGU+UHJvY2VlZGluZ3Mgb2YgdGhl
IDJuZCBpbnRlcm5hdGlvbmFsIHdvcmtzaG9wIG9uIFVsdHJhLWxhcmdlLXNjYWxlIHNvZnR3YXJl
LWludGVuc2l2ZSBzeXN0ZW1zPC9zZWNvbmRhcnktdGl0bGU+PC90aXRsZXM+PHBhZ2VzPjMtNjwv
cGFnZXM+PGRhdGVzPjx5ZWFyPjIwMDg8L3llYXI+PC9kYXRlcz48cHVibGlzaGVyPkFDTTwvcHVi
bGlzaGVyPjxpc2JuPjE2MDU1ODAyNjA8L2lzYm4+PHVybHM+PC91cmxzPjwvcmVjb3JkPjwvQ2l0
ZT48L0VuZE5vdGU+
ADDIN EN.CITE PEVuZE5vdGU+PENpdGU+PEF1dGhvcj5DYXN0cm8tSGVycmVyYTwvQXV0aG9yPjxZZWFyPjIwMDg8
L1llYXI+PFJlY051bT4zMzwvUmVjTnVtPjxEaXNwbGF5VGV4dD5bNC02XTwvRGlzcGxheVRleHQ+
PHJlY29yZD48cmVjLW51bWJlcj4zMzwvcmVjLW51bWJlcj48Zm9yZWlnbi1rZXlzPjxrZXkgYXBw
PSJFTiIgZGItaWQ9Incyc3IyZXZ2eTl3c3Q5ZXA5c2Z4ZDl0anAwOXBld2Y1dHgwYSI+MzM8L2tl
eT48L2ZvcmVpZ24ta2V5cz48cmVmLXR5cGUgbmFtZT0iQ29uZmVyZW5jZSBQcm9jZWVkaW5ncyI+
MTA8L3JlZi10eXBlPjxjb250cmlidXRvcnM+PGF1dGhvcnM+PGF1dGhvcj5DYXN0cm8tSGVycmVy
YSwgQ2FybG9zPC9hdXRob3I+PGF1dGhvcj5EdWFuLCBDaHVhbjwvYXV0aG9yPjxhdXRob3I+Q2xl
bGFuZC1IdWFuZywgSmFuZTwvYXV0aG9yPjxhdXRob3I+TW9iYXNoZXIsIEJhbXNoYWQ8L2F1dGhv
cj48L2F1dGhvcnM+PC9jb250cmlidXRvcnM+PHRpdGxlcz48dGl0bGU+VXNpbmcgZGF0YSBtaW5p
bmcgYW5kIHJlY29tbWVuZGVyIHN5c3RlbXMgdG8gZmFjaWxpdGF0ZSBsYXJnZS1zY2FsZSwgb3Bl
biwgYW5kIGluY2x1c2l2ZSByZXF1aXJlbWVudHMgZWxpY2l0YXRpb24gcHJvY2Vzc2VzPC90aXRs
ZT48c2Vjb25kYXJ5LXRpdGxlPkludGVybmF0aW9uYWwgUmVxdWlyZW1lbnRzIEVuZ2luZWVyaW5n
LCAyMDA4LiBSRSZhcG9zOzA4LiAxNnRoIElFRUU8L3NlY29uZGFyeS10aXRsZT48L3RpdGxlcz48
cGFnZXM+MTY1LTE2ODwvcGFnZXM+PGRhdGVzPjx5ZWFyPjIwMDg8L3llYXI+PC9kYXRlcz48cHVi
bGlzaGVyPklFRUU8L3B1Ymxpc2hlcj48aXNibj4wNzY5NTMzMDk0PC9pc2JuPjx1cmxzPjwvdXJs
cz48L3JlY29yZD48L0NpdGU+PENpdGU+PEF1dGhvcj5DYXN0cm8tSGVycmVyYTwvQXV0aG9yPjxZ
ZWFyPjIwMDk8L1llYXI+PFJlY051bT4zNTwvUmVjTnVtPjxyZWNvcmQ+PHJlYy1udW1iZXI+MzU8
L3JlYy1udW1iZXI+PGZvcmVpZ24ta2V5cz48a2V5IGFwcD0iRU4iIGRiLWlkPSJ3MnNyMmV2dnk5
d3N0OWVwOXNmeGQ5dGpwMDlwZXdmNXR4MGEiPjM1PC9rZXk+PC9mb3JlaWduLWtleXM+PHJlZi10
eXBlIG5hbWU9IkNvbmZlcmVuY2UgUHJvY2VlZGluZ3MiPjEwPC9yZWYtdHlwZT48Y29udHJpYnV0
b3JzPjxhdXRob3JzPjxhdXRob3I+Q2FzdHJvLUhlcnJlcmEsIENhcmxvczwvYXV0aG9yPjxhdXRo
b3I+RHVhbiwgQ2h1YW48L2F1dGhvcj48YXV0aG9yPkNsZWxhbmQtSHVhbmcsIEphbmU8L2F1dGhv
cj48YXV0aG9yPk1vYmFzaGVyLCBCYW1zaGFkPC9hdXRob3I+PC9hdXRob3JzPjwvY29udHJpYnV0
b3JzPjx0aXRsZXM+PHRpdGxlPkEgcmVjb21tZW5kZXIgc3lzdGVtIGZvciByZXF1aXJlbWVudHMg
ZWxpY2l0YXRpb24gaW4gbGFyZ2Utc2NhbGUgc29mdHdhcmUgcHJvamVjdHM8L3RpdGxlPjxzZWNv
bmRhcnktdGl0bGU+UHJvY2VlZGluZ3Mgb2YgdGhlIDIwMDkgQUNNIHN5bXBvc2l1bSBvbiBBcHBs
aWVkIENvbXB1dGluZzwvc2Vjb25kYXJ5LXRpdGxlPjwvdGl0bGVzPjxwYWdlcz4xNDE5LTE0MjY8
L3BhZ2VzPjxkYXRlcz48eWVhcj4yMDA5PC95ZWFyPjwvZGF0ZXM+PHB1Ymxpc2hlcj5BQ008L3B1
Ymxpc2hlcj48aXNibj4xNjA1NTgxNjY2PC9pc2JuPjx1cmxzPjwvdXJscz48L3JlY29yZD48L0Np
dGU+PENpdGU+PEF1dGhvcj5DbGVsYW5kLUh1YW5nPC9BdXRob3I+PFllYXI+MjAwODwvWWVhcj48
UmVjTnVtPjM0PC9SZWNOdW0+PHJlY29yZD48cmVjLW51bWJlcj4zNDwvcmVjLW51bWJlcj48Zm9y
ZWlnbi1rZXlzPjxrZXkgYXBwPSJFTiIgZGItaWQ9Incyc3IyZXZ2eTl3c3Q5ZXA5c2Z4ZDl0anAw
OXBld2Y1dHgwYSI+MzQ8L2tleT48L2ZvcmVpZ24ta2V5cz48cmVmLXR5cGUgbmFtZT0iQ29uZmVy
ZW5jZSBQcm9jZWVkaW5ncyI+MTA8L3JlZi10eXBlPjxjb250cmlidXRvcnM+PGF1dGhvcnM+PGF1
dGhvcj5DbGVsYW5kLUh1YW5nLCBKYW5lPC9hdXRob3I+PGF1dGhvcj5Nb2Jhc2hlciwgQmFtc2hh
ZDwvYXV0aG9yPjwvYXV0aG9ycz48L2NvbnRyaWJ1dG9ycz48dGl0bGVzPjx0aXRsZT5Vc2luZyBk
YXRhIG1pbmluZyBhbmQgcmVjb21tZW5kZXIgc3lzdGVtcyB0byBzY2FsZSB1cCB0aGUgcmVxdWly
ZW1lbnRzIHByb2Nlc3M8L3RpdGxlPjxzZWNvbmRhcnktdGl0bGU+UHJvY2VlZGluZ3Mgb2YgdGhl
IDJuZCBpbnRlcm5hdGlvbmFsIHdvcmtzaG9wIG9uIFVsdHJhLWxhcmdlLXNjYWxlIHNvZnR3YXJl
LWludGVuc2l2ZSBzeXN0ZW1zPC9zZWNvbmRhcnktdGl0bGU+PC90aXRsZXM+PHBhZ2VzPjMtNjwv
cGFnZXM+PGRhdGVzPjx5ZWFyPjIwMDg8L3llYXI+PC9kYXRlcz48cHVibGlzaGVyPkFDTTwvcHVi
bGlzaGVyPjxpc2JuPjE2MDU1ODAyNjA8L2lzYm4+PHVybHM+PC91cmxzPjwvcmVjb3JkPjwvQ2l0
ZT48L0VuZE5vdGU+
ADDIN EN.CITE.DATA [4-6]. در این میان تکنیک‌های سنتی مهندسی نیازمندی‌ها روش‌هایی اقتباس گردیده از مدل‌های متمرکزی هستند که استفاده از این تکنیک‌ها در سامانه‌های بزرگ مقیاس چالش برانگیز و زمانبر و گاهی ناممکن است.
در نتیجه لازم است تکنیک‌ها و یا ابزارهای جدیدی در راستای پشتیبانی از سازمان‌ها و یا سامانه‌های بزرگ مقیاس در استخراج نیازمندی‌ها توسعه داده شوند که در این خصوص رهیافت‌های جدید باید دارای قابلیت مقیاس پذیری بالایی باشند. در این راستا قصد داریم روش‌های پرکاربرد موجود در استخراج نیازمندی‌ها را اعم از روش‌های سنتی، استفاده از ابزارها و روش‌های نوین مورد بررسی و تجزیه و تحلیل قرار داده و مزایا و معایب هر روش را تشریح کنیم. سپس به تکنیک‌های مورد استفاده در افزایش سطح رضایتمندی ذینفعان پرداخته تا بتوانیم در راستای اهداف تحقیق از آنها بهره‌مند گردیم. در آخر با استفاده از تدبیری به ارائه چارچوبی جهت استخراج و اولویت بندی صحیح نیازمندی‌ها در سازمان‌های بزرگ مقیاس بپردازیم.
1-9 فرضیهنکته قابل توجه در بحث تعیین اندازه سازمان یا سامانه این است که معیارهای متفاوت و استانداردی در این مورد ذکر گردیده است. از جمله‌ی این معیارها می‌توان به تعداد خطوط برنامه، زمان، هزینه و غیره اشاره نمود. اما قابل ذکر است در این تحقیق منظور ما از سازمان‌ها و یا سامانه‌های بزرگ مقیاس، آنهایی هستند که تعداد زیادی از ذینفعان را در بر می‌گیرند. ذینفعان افرادی هستند که به هر نحو سطوحی از تأثیرات روی نیازمندی‌های آن سازمان و یا سامانه دارند. از نمونه‌ی این سازمان‌ها می‌توان به مرکز مدیریت شهری 137 شهرداری تهران اشاره نمود که دارای پایگاه داده‌ای شامل میلیون‌ها رکورد از نیازهای ثبت شده مردمی می‌باشد.
1-10 اهداف تحقیقاصلی‌ترین اهدافی که این تحقیق پوشش می‌دهد، عبارتند از:
بررسی مراحل لازم در استخراج نیازمندی‌ها
درک چگونگی برنامه ریزی و تعیین استراتژی استخراج نیازمندی‌ها
بررسی تکنیک‌های مطرح در استخراج نیازمندی‌ها به همراه نقاط ضعف و قوت آنها
ارائه چارچوبی در استخراج و اولویت بندی نیازمندی‌ها در سازمان‌ها و یا سامانه‌های بزرگ مقیاس
ارزیابی چارچوب ارائه شده و بحث و نتیجه گیری
به طور کلی این پایان نامه از پنج فصل تشکیل شده است. در فصل اول مقدمه‌ای بر مهندسی نیازمندی‌ها و اولین و مهم‌ترین فاز آن یعنی استخراج نیازمندی‌ها ارائه خواهد شد. در فصل دوم به ادبیات موضوع و پیشینه تحقیق پرداخته خواهد شد. این تحقیقات شامل پر کاربردترین و رایج‌ترین روش‌های استخراج نیازمندی‌ها در سه گروه 1. روش‌های سنتی، 2. استفاده از ابزارها و 3. روش‌های نوین استخراج نیازمندی‌ها می‌باشد. در این فصل نیز تلاش‌هایی که در جهت افزایش سطح رضایتمندی ذینفعان صورت گرفته مطرح و همچنین در ارتباط با نقاط ضعف و قوت تمامی این روش‌ها بحث خواهد گردید. در فصل سوم به ارائه چارچوب پیشنهادی در ارتباط با استخراج و اولویت بندی نیازمندی‌ها در سازمان‌های بزرگ مقیاس به زبان فارسی مبتنی بر نیازمندی‌های عملیاتی و غیر عملیاتی پرداخته و در فصل چهارم در ارتباط با محاسبات و یافته‌های تحقیق به روش مطالعه میدانی و کتابخانه‌ای بحث خواهد گردید. در فصل آخر یعنی فصل پنجم به نتیجه گیری و پیشنهادات آتی پرداخته خواهد شد. پس از آن در پیوست، منابع و مآخذ و ضمایم همچنین چکیده انگلیسی قابل دسترس است.
431482527749500271780119634000431292054610فصل دوم
00فصل دوم

160655139700ادبیات و پیشینه تحقیق
00ادبیات و پیشینه تحقیق

فصل دومادبیات و پیشینه تحقیق
2-1 مقدمهامروزه میزان داده‌های در دسترس هر پنج سال دو برابر می‌شود و سازمانی تواناست که قادر باشد کمتر از 7% از اطلاعاتش را مدیریت نماید. بر اساس تحقیقات شرکت IBM سازمان‌ها کمتر از 1% از داده‌هایشان را برای تحلیل استفاده می‌نمایند. سازمان‌ها داده‌های تجاری زیادی را در تصرف خود دارند، در حالی که هنوز با فقدان دانش تجاری مواجه هستند. تقسیم بندی مشتریان، افزایش رضایت آنها و یا حتی بدست آوردن سهم بیشتری از بازار نسبت به رقبا با استفاده از ابزارهای داده کاوی از کاربردهای آن می‌باشد ADDIN EN.CITE <EndNote><Cite><Author>باقرزاده</Author><Year>1389</Year><RecNum>42</RecNum><DisplayText>[7]</DisplayText><record><rec-number>42</rec-number><foreign-keys><key app=”EN” db-id=”w2sr2evvy9wst9ep9sfxd9tjp09pewf5tx0a”>42</key></foreign-keys><ref-type name=”Book”>6</ref-type><contributors><authors><author><style face=”normal” font=”default” charset=”178″ size=”100%”>فاطمه باقرزاده</style></author></authors></contributors><titles><title><style face=”normal” font=”default” charset=”178″ size=”100%”>داده کاوی و کشف دانش در </style><style face=”normal” font=”Arial” size=”100%”>Microsoft SQL Server2008</style></title></titles><dates><year><style face=”normal” font=”default” charset=”178″ size=”100%”>1389</style></year></dates><publisher><style face=”normal” font=”default” charset=”178″ size=”100%”>اندیشه سرا</style></publisher><urls></urls></record></Cite></EndNote>[7]. با استفاده از داده کاوی می‌توان به دانشی دست یافت که خود انسان قرن‌ها بعد این دانش را کسب خواهد کرد. در حقیقت داده کاوی در زمینه‌های متعددی از قبیل پزشکی، بورس اوراق بهادار، هواشناسی، بازاریابی، تشخیص کلاه‌برداری‌های بانکی و بیمه‌ای، تجارت الکترونیک و … وجود دارد. خروجی همه‌ی این زمینه‌ها بر این اصل صحه می‌گذارد که انسان به دلایل مختلف اعم از سرعت پردازشی، جهل داده‌ای، چگونگی پردازش و … نمی‌تواند نظم‌های پیچیده موجود در نهان داده‌های حجیم را شناسایی نماید ADDIN EN.CITE <EndNote><Cite><Author>آباده</Author><Year>1391</Year><RecNum>40</RecNum><DisplayText>[8]</DisplayText><record><rec-number>40</rec-number><foreign-keys><key app=”EN” db-id=”w2sr2evvy9wst9ep9sfxd9tjp09pewf5tx0a”>40</key></foreign-keys><ref-type name=”Book”>6</ref-type><contributors><authors><author><style face=”normal” font=”default” charset=”178″ size=”100%”>محمد صنیعی آباده</style></author></authors></contributors><titles><title><style face=”normal” font=”default” charset=”178″ size=”100%”>داده کاوی کاربردی</style></title></titles><dates><year><style face=”normal” font=”default” charset=”178″ size=”100%”>1391</style></year></dates><publisher><style face=”normal” font=”default” charset=”178″ size=”100%”>نیاز دانش</style></publisher><urls></urls></record></Cite></EndNote>[8]. در محیط امروزی، سازمان‌های بسیاری در تلاش هستند که فلج اطلاعات را شکست بدهند. در این راستا داده کاوی سازمانی به عنوان یک ابزاری می‌باشد که مدیران را قادر می‌سازد تا سریع‌تر نسبت به آینده عمل نمایند، فعال باشند نسبت به اینکه واکنش پذیر باشند، بدانند تا اینکه حدس بزنند. پر واضح است که با داشتن این قابلیت، سازمان‌ها قادرند دانش ارزشمندی را از داده‌هایشان بدست آورند ADDIN EN.CITE <EndNote><Cite><Author>شهرابی</Author><Year>1386</Year><RecNum>48</RecNum><DisplayText>[9]</DisplayText><record><rec-number>48</rec-number><foreign-keys><key app=”EN” db-id=”w2sr2evvy9wst9ep9sfxd9tjp09pewf5tx0a”>48</key></foreign-keys><ref-type name=”Conference Paper”>47</ref-type><contributors><authors><author><style face=”normal” font=”default” charset=”178″ size=”100%”>جمال شهرابی</style></author></authors></contributors><titles><title><style face=”normal” font=”default” charset=”178″ size=”100%”>مروری بر مفاهیم، وظایف و فرایند داده کاوی سازمانی</style></title><secondary-title><style face=”normal” font=”default” charset=”178″ size=”100%”>اولین کنفرانس داده کاوی ایران</style></secondary-title></titles><dates><year><style face=”normal” font=”default” charset=”178″ size=”100%”>1386</style></year></dates><pub-location><style face=”normal” font=”default” charset=”178″ size=”100%”>دانشگاه امیر کبیر</style></pub-location><urls></urls></record></Cite></EndNote>[9]. در واقع علم داده کاوی انسان را قادر می‌سازد که حجم عظیمی از داده‌ها را مورد پردازش عمیق قرار دهد و کلیه نظم‌هایی را که در عمق داده وجود دارند، همچون طلا در یک معدن طلا، به صورت دانشی با ارزش کشف کرده و جهت استفاده عرضه نماید ADDIN EN.CITE <EndNote><Cite><Author>آباده</Author><Year>1391</Year><RecNum>40</RecNum><DisplayText>[8]</DisplayText><record><rec-number>40</rec-number><foreign-keys><key app=”EN” db-id=”w2sr2evvy9wst9ep9sfxd9tjp09pewf5tx0a”>40</key></foreign-keys><ref-type name=”Book”>6</ref-type><contributors><authors><author><style face=”normal” font=”default” charset=”178″ size=”100%”>محمد صنیعی آباده</style></author></authors></contributors><titles><title><style face=”normal” font=”default” charset=”178″ size=”100%”>داده کاوی کاربردی</style></title></titles><dates><year><style face=”normal” font=”default” charset=”178″ size=”100%”>1391</style></year></dates><publisher><style face=”normal” font=”default” charset=”178″ size=”100%”>نیاز دانش</style></publisher><urls></urls></record></Cite></EndNote>[8]. در این فصل با مقدمات علم داده کاوی آشنا خواهیم شد و پس از آن به بررسی روش‌ها و تکنیک‌های استخراج نیازمندی‌ها پرداخته و در آخر سعی داریم پس از بررسی نقاط قوت و ضعف این روش‌ها بخصوص در زبان فارسی به تبیین راهکار پیشنهادی خود بپردازیم.
2-2 انگیزه‌های کاوش دادهبا توجه به مطالب مطرح شده، شاید بتوان اولین انگیزه کاوش داده را رشد روز افزون آن دانست. در واقع رشد داده به حدی است که تنها در صورت وجود ابزار مکانیزه برای بررسی آن می‌توان امیدوار به استفاده از آن بود. زیرا در غیر اینصورت همزمان با تحلیل حجم کوچکی داده، حجم بسیار زیادی از همان داده در حال تولید شدن است که هرگز فرصتی برای کاوش آن وجود نخواهد داشت. به علاوه مشکلاتی دیگر که در ادامه اشاره شده‌اند وجود خواهند داشت:
معمولاً دانشی که در داده‌ها وجود دارد خیلی بدیهی، روشن و واضح نیست.
تحلیل‌گران انسانی ممکن است هفته‌ها برای کشف اطلاعات با ارزش از داده وقت صرف کنند و گاهی اوقات ممکن است با صرف زمان زیادی لزوماً موفق هم نشوند.
گاهی اوقات با وجود امکان جمع آوری داده، این کار انجام نمی‌شود. دلیل عدم جمع آوری داده معمولاً عدم وجود دانش برای جمع آوری آن است. اینکه داده سرمایه یک سازمان است خود دانشی مهم و با ارزش است که همیشه وجود ندارد ADDIN EN.CITE <EndNote><Cite><Author>آباده</Author><Year>1391</Year><RecNum>40</RecNum><DisplayText>[8]</DisplayText><record><rec-number>40</rec-number><foreign-keys><key app=”EN” db-id=”w2sr2evvy9wst9ep9sfxd9tjp09pewf5tx0a”>40</key></foreign-keys><ref-type name=”Book”>6</ref-type><contributors><authors><author><style face=”normal” font=”default” charset=”178″ size=”100%”>محمد صنیعی آباده</style></author></authors></contributors><titles><title><style face=”normal” font=”default” charset=”178″ size=”100%”>داده کاوی کاربردی</style></title></titles><dates><year><style face=”normal” font=”default” charset=”178″ size=”100%”>1391</style></year></dates><publisher><style face=”normal” font=”default” charset=”178″ size=”100%”>نیاز دانش</style></publisher><urls></urls></record></Cite></EndNote>[8]!
2-2-1 انگیزه‌های تجاریهنگامیکه می‌خواهیم داده‌ها را از بعد تجاری مورد پردازش قرار دهیم نیاز به داده‌هایی داریم که ماهیت تجاری داشته باشند. به طور کلی سه منبع برای جمع آوری داده‌های تجاری وجود دارند که عبارتند از: داده‌های وب و داده‌های تجارت الکترونیک، خرید و فروش‌های موجود در فروشگاه‌های خواربار فروشی/سوپر مارکت‌های زنجیره‌ای و تراکنش‌های بانکی/تراکنش‌های کارت‌های اعتباری.
به طور کلی منظور از داده‌های وب یا تجارت الکترونیک، داده‌های معمولی مثلاً داده‌های حاصل از جستجوهای معمولی نیست بلکه منظور از این داده‌ها تراکنش‌هایی است که همه روزه در اینترنت انجام شده و ثبت می‌شوند و از آنجایی که این داده‌ها زیاد هستند ثبت آنها وقت زیادی می‌گیرد. تعدادی از این داده‌ها عبارتند از: خرید و فروش بلیط‌های هواپیما، قطار، پرداخت قبوض و …
خرید و فروش‌های موجود در فروشگاه‌های خواربار فروشی/سوپر مارکت‌های زنجیره‌ای نوع مهم دیگری از داده‌های تجاری هستند. منظور از این داده‌ها خرید و فروش‌هایی هستند که همه روزه در فروشگاه‌ها انجام می‌شود و شامل کالاهایی است که در سبد خرید مشتری‌های مختلف صورت می‌گیرد.
تراکنش‌های بانکی/تراکنش‌های کارت‌های اعتباری از دیگر داده‌های تجاری می‌باشند که حجم عظیمی از داده‌ها را به صورت روزانه شامل می‌شوند. منظور از این داده‌ها، داده‌های مربوط به عملیات بانکی است که همه روزه توسط مشتریان مختلفی که به یک بانک مراجعه می‌کنند، انجام شده و ثبت می‌شوند. به عنوان مثال اطلاعات مربوط به اینکه یک مشتری پول به حساب خود واریز کرده، پول از حساب خود برداشت کرده و … در سیستم ثبت می‌شود و از آنها به عنوان داده‌های مربوط به تراکنش‌های بانکی یاد می‌شود. همچنین تراکنش‌های مربوط به کارت‌های اعتباری در این مجموعه داده قرار می‌گیرند، به عنوان مثال هر فردی که کارت‌های خود را وارد سیستم نموده و قصد انجام عملیاتی را دارد اطلاعات مربوط به آن مشتری، کالا(هایی) را که قصد خرید آن(ها) را دارد، زمانی که در حال خرید است، در سیستم ثبت می‌شود و از آنها به عنوان داده‌های مربوط به تراکنش‌های کارت‌های اعتباری استفاده می‌شود.
در واقع هدف اصلی از پردازش داده‌های تجاری دستیابی به سود بیشتر است. به عنوان مثال اگر داده‌هایمان از نوع داده‌های وب یا داده‌های تجارت الکترونیک باشند، می‌توان از نتایج پردازش این داده‌ها در طراحی ساختار صفحات وب و ایجاد تکنولوژی‌هایی که سود آوری بیشتری دارند استفاده کرد. اگر داده‌های مربوط به سبد خرید مشتریان را مورد پردازش قرار دهیم می‌توانیم کالاهایی را که فروششان بیشتر است را شناسایی کنیم و آن کالاها را به میزان بیشتری برای سوپر مارکت تهیه نماییم و یا اینکه می‌توانیم بفهمیم کدام کالاها معمولاً به همراه یکدیگر خریداری می‌شوند و در نتیجه آن کالاها را در چیدمان فروشگاه در کنار هم قرار دهیم تا خرید آنها برای مشتری راحت‌تر شده و مشتری برای خرید اجناس خود کمتر در فروشگاه حرکت کند و به این ترتیب رضایت مشتری بیشتر جلب شود. اگر تراکنش‌های بانکی را پردازش می‌توانیم اعتبار مشتری‌های مختلف را بسنجیم و روی مشتریانی که ارزش سرمایه گذاری دارند سرمایه گذاری کنیم. به عنوان مثال به مشتریانی که اعتبار بالاتری دارند وام بدهیم و به این مشتریان برای سرمایه گذاری اعتماد کنیم.
در حوزه داده کاوی، شاخه علمی که بر روی بهبود سرویس دهی به مشتری تمرکز می‌کند با نام مدیریت ارتباط با مشتری شناخته می‌شود. هدف اصلی در این علم آن است که بتوانیم مشتری‌ها را اعتبار سنجی کنیم و بر اساس آن یک فرایندی را ایجاد کنیم که در این فرایند به آن دسته از مشتریان که اعتبار بیشتری دارند، سرویس‌های بیشتر و به مشتریانی که اعتبار کمتری دارند سرویس کمتری را ارائه بدهیم. هدف در داده کاوی این است که این فرایند اعتبار سنجی به صورت مکانیزه و هوشمند انجام شود ADDIN EN.CITE <EndNote><Cite><Author>آباده</Author><Year>1391</Year><RecNum>40</RecNum><DisplayText>[8]</DisplayText><record><rec-number>40</rec-number><foreign-keys><key app=”EN” db-id=”w2sr2evvy9wst9ep9sfxd9tjp09pewf5tx0a”>40</key></foreign-keys><ref-type name=”Book”>6</ref-type><contributors><authors><author><style face=”normal” font=”default” charset=”178″ size=”100%”>محمد صنیعی آباده</style></author></authors></contributors><titles><title><style face=”normal” font=”default” charset=”178″ size=”100%”>داده کاوی کاربردی</style></title></titles><dates><year><style face=”normal” font=”default” charset=”178″ size=”100%”>1391</style></year></dates><publisher><style face=”normal” font=”default” charset=”178″ size=”100%”>نیاز دانش</style></publisher><urls></urls></record></Cite></EndNote>[8].
2-2-2 انگیزه‌های علمیهنگامیکه می‌خواهیم داده‌ها را از بعد علمی مورد پردازش قرار دهیم نیاز به داده‌هایی داریم که ماهیت علمی داشته باشند. به طور کلی چهار منبع عمده برای جمع آوری داده‌های علمی در حجم‌های بالا وجود دارند که عبارتند از: تصاویر ارسالی از طریق ماهواره‌ها، تصاویر ارسالی از تلسکوپ‌ها، داده‌های دنباله ژنی و داده‌های حاصل از شبیه سازی علمی.
داده‌ها و تصاویر ارسالی از ماهواره‌ها شامل تصاویری می‌باشند که از طریق حسگرهای نصب شده بر روی ماهواره‌ها، همه روزه در حجم بسیار بالا به زمین مخابره می‌شوند. این داده‌ها و تصاویر از طریق سیگنال‌های ماهواره‌ای که در مکانی در مدار زمین قرار دارد، منتقل می‌شوند.
تلسکوپ‌ها نیز همه روزه تصاویری را از زمین می‌گیرند. این تصاویر به صورت روزانه از طریق تلسکوپ‌ها ارسال می‌شوند و شامل اطلاعات بسیار زیادی هستند.
داده‌های دنباله ژنی، حاصل توصیف دنباله ژنی افراد مختلف می‌باشند و یکی از منابع داده‌ای بسیار مشهور با ماهیت علمی هستند. تکنیک‌های میکرو آرایه، داده‌های دنباله ژنی مربوط به یک بافت خاص را استخراج می‌کنند. این تکنیک‌ها با پردازش نوآورانه‌ای که روی بافت خاص از یک شخص (مثلاً کبد، معده، خون و …) انجام می‌دهند می‌توانند یک دنباله ژنی منحصر به آن بافت را پیدا کنند که آن دنباله ژنی حاوی اطلاعات بسیاری است و تعداد زیادی ویژگی ایجاد می‌کند. عموماً این اعداد و ویژگی‌ها در تشخیص بیماری افراد، کمک قابل ملاحظه‌ای می‌کنند.
داده‌های حاصل از شبیه سازی علمی منبع مهم دیگری از داده‌های علمی هستند. منظور از شبیه سازی علمی مدل سازی یک سیستم در ابعاد کوچکتر است. شبیه سازی وقتی مورد استفاده قرار می‌گیرد که ما بتوانیم مکانیزم حاکم بر آن سیستم و محیط را به صورت یک مجموعه از قوانین بدانیم. ما می‌توانیم سیستم‌ها و محیط‌های زیادی را شبیه سازی کنیم و اگر یک محیط شبیه سازی شده داشته باشیم، می‌توانیم آزمایش‌های مختلفی را بر روی آن انجام دهیم و داده‌های زیادی را تولید کنیم که این داده‌ها می‌توانند اطلاعات زیادی را به ما منتقل دهند. به عنوان مثال می‌توانیم بدن یک انسان را شبیه سازی نموده و داروهای مختلف را روی آن امتحان کنیم و نتایج حاصل از آزمایشات را بدست آوریم. بخصوص اگر این آزمایشات هزینه‌های سنگینی داشته باشند، شبیه سازی و نتایج حاصل از آن بسیار با ارزش خواهند بود. شبیه سازی در محیط‌های مختلف متفاوت است. چند نمونه از شبیه سازی عبارتند از: شبیه سازی یک آزمایش هسته‌ای، شبیه سازی زلزله و … به طور کلی این شبیه سازی‌های علمی داده‌های بسیار حجیمی را فراهم می‌کنند.
وقتی داده‌ها از نوع علمی باشند، معمولاً نتیجه مستقیم کاوش داده‌های علمی لزوماً به سود بیشتر منجر نمی‌شود، اما بیشتر اوقات منجر به ایجاد دانش جدید، دستاوردهای جدید و نیز باعث خدمت رسانی بیشتر به افراد و یا کشف حقایق خواهد شد. بنابراین می‌توان نتیجه گرفت که انگیزه اصلی در پردازش داده‌های علمی کمک به بسط و گسترش مرزهای دانش بشری در یک حوزه خاص می‌باشد ADDIN EN.CITE <EndNote><Cite><Author>آباده</Author><Year>1391</Year><RecNum>40</RecNum><DisplayText>[8]</DisplayText><record><rec-number>40</rec-number><foreign-keys><key app=”EN” db-id=”w2sr2evvy9wst9ep9sfxd9tjp09pewf5tx0a”>40</key></foreign-keys><ref-type name=”Book”>6</ref-type><contributors><authors><author><style face=”normal” font=”default” charset=”178″ size=”100%”>محمد صنیعی آباده</style></author></authors></contributors><titles><title><style face=”normal” font=”default” charset=”178″ size=”100%”>داده کاوی کاربردی</style></title></titles><dates><year><style face=”normal” font=”default” charset=”178″ size=”100%”>1391</style></year></dates><publisher><style face=”normal” font=”default” charset=”178″ size=”100%”>نیاز دانش</style></publisher><urls></urls></record></Cite></EndNote>[8].
2-3 چالش‌های داده کاویشاید بتوان مهم‌ترین نقاط ضعف روش‌های داده کاوی را در سه مورد خلاصه نمود: وجود داده، صحت داده و کافی بودن ویژگی‌ها. منظور از وجود داده این است که اصولاً داده‌ای برای کاوش وجود داشته باشد و اینگونه نباشد که داده در محیط مورد کاوش استخراج و یا ثبت نشده باشد. متأسفانه این مشکل در بسیاری از محیط‌های واقعی وجود دارد. صحت داده مبین آن است که داده جمع آوری شده صحیح بوده و نادرستی در آن وجود نداشته باشد. به عنوان مثال نباید جنسیت شخصی با نام “محسن” زن وارد شده باشد و یا اشتباهات دیگری که دلیل وجودی آنها خطا در ورود داده است، رخ دهد. کافی بودن ویژگی‌ها بدین معناست که ویژگی‌های اخذ شده برای هر رکورد یا شئ برای یادگیری مدل و یا کشف نظم حاکم بر داده موثر، مناسب و کافی باشند. به عنوان مثال اگر هدف ما یادگیری یک مدل دسته بندی کننده برای تشخیص بیماری دیابت است، ثبت ویژگی قند خون بسیار مهم است در حالی که ثبت ویژگی میزان تحصیلات اهمیتی ندارد. توجه داشته باشید اگر هر کدام از مشکلات سه‌گانه فوق در داده وجود داشته باشد، هیچ یک از الگوریتم‌های داده کاوی، هر قدر هم که توانا باشند، نخواهند توانست نظم حاکم بر داده را تحت هیچ شرایطی بیابند.
در داده کاوی می‌توان چالش‌ها را به دو گروه اولیه و ثانویه تقسیم نمود. در ادامه به بررسی هر کدام از این دو گروه می‌پردازیم.
2-3-1 چالش‌های اولیهچالش‌های اولیه که انگیزه مهم بکار گیری فرایند داده کاوی به جای روش‌های سنتی تحلیل داده‌ها هستند عبارتند از: حجیم بودن داده‌ها، ابعاد بالای داده‌ها، طبیعت توزیع شده و ناهمگن داده‌ها. در ادامه به بررسی هرکدام از این چالش‌ها می‌پردازیم ADDIN EN.CITE <EndNote><Cite><Author>آباده</Author><Year>1391</Year><RecNum>40</RecNum><DisplayText>[8]</DisplayText><record><rec-number>40</rec-number><foreign-keys><key app=”EN” db-id=”w2sr2evvy9wst9ep9sfxd9tjp09pewf5tx0a”>40</key></foreign-keys><ref-type name=”Book”>6</ref-type><contributors><authors><author><style face=”normal” font=”default” charset=”178″ size=”100%”>محمد صنیعی آباده</style></author></authors></contributors><titles><title><style face=”normal” font=”default” charset=”178″ size=”100%”>داده کاوی کاربردی</style></title></titles><dates><year><style face=”normal” font=”default” charset=”178″ size=”100%”>1391</style></year></dates><publisher><style face=”normal” font=”default” charset=”178″ size=”100%”>نیاز دانش</style></publisher><urls></urls></record></Cite></EndNote>[8].
حجم بالای داده‌ها: الگوریتم‌های داده کاوی با تعداد زیادی رکورد کار می‌کنند و حجم زیادی از داده‌ها را پردازش می‌کنند. به طور کلی هرچه تعداد رکوردهای موجود بیشتر باشد باعث می‌شود روش‌های سنتی نتوانند این رکوردها را پردازش نمایند. اگر تعداد رکوردها کم باشد فرایند تحلیل آنها بسیار ساده است و معمولاً احتیاج به روش‌های داده کاوی نیست. هرچه تعداد رکوردها بیشتر باشد باعث می‌شود علم داده کاوی بتواند کارکرد درخشان‌تری داشته باشد.
ابعاد بالای داده‌ها: منظور از بعد همان فیلد یا ویژگی (خصیصه) می‌باشد. به طور کلی هرچه تعداد ویژگی‌ها بیشتر باشد، باعث خواهد شد که تحلیل داده‌ها مشکل‌تر شود. هرچه تعداد ویژگی‌های موجود در داده‌ها بیشتر باشد، نمی‌توان با استفاده از روش‌های سنتی بین آنها نظمی پیدا کرد. این در حالی است که در اینگونه مواقع الگوریتم‌های داده کاوی می‌توانند اثر بخشی و توان بالقوه‌ای که دارا هستند را نشان بدهند.
طبیعت توزیع شده داده‌ها: به طور کلی طبیعت توزیع شده داده‌ها و وجود داده‌ها در منابع پراکنده باعث می‌شود نتوانیم از روش‌های سنتی برای پردازش داده‌ها استفاده کنیم. در این مواقع به روش‌های داده کاوی نیاز داریم. این روش‌ها باید قادر باشند داده‌هایی را که در مکان‌های مختلف ذخیره شده‌اند، به گونه‌ای مدیریت کنند که دانش نهفته را از نهان این داده‌های پراکنده و توزیع شده استخراج کنند.
طبیعت ناهمگن داده‌ها: در انباره داده‌ای که به عنوان مخزن فرایند داده کاوی عمل می‌کند، انواع مختلفی از ویژگی‌ها وجود دارد. هر ویژگی محدوده مقادیر مشخص و ویژه‌ای اختیار می‌کند. کمینه و بیشینه مقادیر مربوط به بعضی ویژگی‌ها با هم فرق دارند. بعضی ویژگی‌ها حوزه مقداری بسیار وسیع و بعضی دیگر حوزه محدودی دارند. در این مواقع می‌توان از مباحث نرمال سازی برای بخورد با این مشکل استفاده کرد. اما مسائل دیگری در ارتباط با ویژگی‌ها نیز وجود دارد. به عنوان مثال بعضی ویژگی‌ها عددی (صحیح یا حقیقی) هستند، بعضی دودویی، بعضی دیگر اسمی (مانند رنگ چشم) هستند. بعضی از ویژگی‌ها نیز به گونه‌ای هستند که در مورد آنها تنها می‌توان گفت آیا با هم مساوی هستند یا خیر(مانند رنگ چشم)، گونه‌ای دیگر از ویژگی‌ها به این شکل‌اند که در مورد آنها علاوه بر مساوی و نامساوی بودن می‌توان کوچکتر یا بزرگتر بودن آنها را نیز تعیین کرد (مانند سطح تحصیلات)، در مورد برخی دیگر از ویژگی‌ها علاوه بر مساوی و نامساوی بودن، کوچکتری و بزرگتری، می‌توان از عملگرهای جمع و تفریق نیز استفاده نمود ( مانند تاریخ‌های تقویم) و در نهایت در مورد گروهی دیگر از ویژگی‌ها علاوه بر مساوی و نامساوی، کوچکتری و بزرگتری، جمع و تفریق می‌توان عملگرهای ضرب و تقسیم را نیز بکار برد (مانند قد و وزن). در نتیجه به دلیل تنوع بالای ماهیت ویژگی‌ها نمی‌توان از روش‌های سنتی برای پردازش داده‌ها استفاده نمود.
2-3-2 چالش‌های ثانویهچالش‌های ثانویه به آن دسته از چالش‌هایی گفته می‌شود که در قیاس با چالش‌ها اولیه از اهمیت کمتری برخوردارند. البته می‌بایست توجه نمود، این امر بدان معنا نخواهد بود که اهمیت این چالش‌ها پایین است و یا حل مشکلات مربوط به آنها کار ساده و کم تأثیری است. در ادامه به بررسی این چالش‌ها می‌پردازیم ADDIN EN.CITE <EndNote><Cite><Author>آباده</Author><Year>1391</Year><RecNum>40</RecNum><DisplayText>[8]</DisplayText><record><rec-number>40</rec-number><foreign-keys><key app=”EN” db-id=”w2sr2evvy9wst9ep9sfxd9tjp09pewf5tx0a”>40</key></foreign-keys><ref-type name=”Book”>6</ref-type><contributors><authors><author><style face=”normal” font=”default” charset=”178″ size=”100%”>محمد صنیعی آباده</style></author></authors></contributors><titles><title><style face=”normal” font=”default” charset=”178″ size=”100%”>داده کاوی کاربردی</style></title></titles><dates><year><style face=”normal” font=”default” charset=”178″ size=”100%”>1391</style></year></dates><publisher><style face=”normal” font=”default” charset=”178″ size=”100%”>نیاز دانش</style></publisher><urls></urls></record></Cite></EndNote>[8].
کیفیت داده: مربوط به زمانی است که کیفیت داده‌ها پایین است. به عنوان نمونه هنگامی که داده‌های ما شامل نویز، داده پرت، داده گمشده و داده تکرار شده باشد، شاهد پایین آمدن کیفیت داده‌ها خواهیم بود.
عدم مالکیت داده: به دلایل گوناگون مانند توزیع‌شدگی ممکن است نتوانیم کل داده‌ها را یکجا در مالکیت داشته باشیم و فرایند کاوش را روی آنها انجام دهیم.
حفظ حریم شخصی داده‌ها: مربوط به زمانی است که باید با رعایت حریم شخصی، داده‌ها را کاوش نماییم. فرایند کاوش داده می‌بایست به گونه‌ای انجام شود که بتوان بدون دسترسی به همه داده‌ها و با دیدن تنها بخش محدودی از آن فرایند داده کاوی را پیش برد. تفاوت حفظ حریم شخصی داده‌ها با توزیع‌شدگی و عدم مالکیت داده در این است که در توزیع‌شدگی و عدم مالکیت داده ممکن است برای یادگیری مدل از همه داده‌ها استفاده شود ولی در اینجا ممکن است به بخشی از داده‌ها اصلاً دسترسی وجود نداشته باشد، یعنی باید بتوانیم مدل خود را با همان داده‌های در دسترس بسازیم.
داده‌های جریانی: به داده‌های گفته می‌شود که سرعت تولید آنها بالاست به گونه‌ای که فرصت تحلیل آنها و ساخت مدل وجود ندارد چرا که حین انجام عملیات کاوش مرتباً داده‌های جدیدی تولید می‌شوند. بنابراین سیستم باید بصورت برخط باشد تا بتواند خودش را تصحیح کند و قادر باشد مدل بروزی را در اختیار قرار دهد.
2-4 مروری بر کشف دانش و داده کاوی
کشف دانش و داده کاوی یک حوزه جدید میان رشته‌ای و در حال رشد است که حوزه‌های مختلفی همچون پایگاه داده، آمار، یادگیری ماشین و سایر زمینه‌های مرتبط را با هم تلفیق کرده تا اطلاعات و دانش ارزشمند نهفته در حجم بزرگی از داده‌ها را استخراج نماید. با رشد سریع کامپیوتر و استفاده از آن در دو دهه اخیر تقریباً همه سازمان‌ها حجم عظیمی داده در پایگاه داده خود ذخیره کرده‌اند. این سازمان‌ها به فهم این داده‌ها و یا کشف دانش مفید از آنها نیاز دارند ADDIN EN.CITE <EndNote><Cite><Author>شهرابی</Author><Year>1386</Year><RecNum>48</RecNum><DisplayText>[9]</DisplayText><record><rec-number>48</rec-number><foreign-keys><key app=”EN” db-id=”w2sr2evvy9wst9ep9sfxd9tjp09pewf5tx0a”>48</key></foreign-keys><ref-type name=”Conference Paper”>47</ref-type><contributors><authors><author><style face=”normal” font=”default” charset=”178″ size=”100%”>جمال شهرابی</style></author></authors></contributors><titles><title><style face=”normal” font=”default” charset=”178″ size=”100%”>مروری بر مفاهیم، وظایف و فرایند داده کاوی سازمانی</style></title><secondary-title><style face=”normal” font=”default” charset=”178″ size=”100%”>اولین کنفرانس داده کاوی ایران</style></secondary-title></titles><dates><year><style face=”normal” font=”default” charset=”178″ size=”100%”>1386</style></year></dates><pub-location><style face=”normal” font=”default” charset=”178″ size=”100%”>دانشگاه امیر کبیر</style></pub-location><urls></urls></record></Cite></EndNote>[9].
همان‌طور که الکترون‌ها و امواج موضوع اصلی مهندسی برق شدند، داده‌ها، اطلاعات و دانش نیز موضوع اصلی حوزه جدیدی از تحقیق و کاربرد به نام کشف دانش و داده کاوی یا به اختصار KDD هستند ADDIN EN.CITE <EndNote><Cite><Author>غضنفری</Author><Year>1387</Year><RecNum>49</RecNum><DisplayText>[10]</DisplayText><record><rec-number>49</rec-number><foreign-keys><key app=”EN” db-id=”w2sr2evvy9wst9ep9sfxd9tjp09pewf5tx0a”>49</key></foreign-keys><ref-type name=”Book”>6</ref-type><contributors><authors><author><style face=”normal” font=”default” charset=”178″ size=”100%”>مهدی غضنفری</style></author></authors><secondary-authors><author><style face=”normal” font=”default” charset=”178″ size=”100%”>چاپ دوم</style></author></secondary-authors></contributors><titles><title><style face=”normal” font=”default” charset=”178″ size=”100%”>داده کاوی و کشف دانش</style></title></titles><dates><year><style face=”normal” font=”default” charset=”178″ size=”100%”>1387</style></year></dates><pub-location><style face=”normal” font=”default” charset=”178″ size=”100%”>تهران</style></pub-location><publisher><style face=”normal” font=”default” charset=”178″ size=”100%”>دانشگاه علم و صنعت ایران</style></publisher><urls></urls></record></Cite></EndNote>[10].
به طور کلی، داده‌ها رشته‌ای از بیت‌ها (به صورت صفر و یک) یا اعداد و نشانه‌ها و یا اشیاء هستند که وقتی در فرمتی مشخص به یک برنامه ارسال می‌شوند، معنا می‌یابند ولی هنوز تفسیر نشده‌اند. اطلاعات، داده‌ای است که موارد افزونه یا زایدش حذف شده است و به حداقل ممکنی که برای تصمیم گیری لازم است، تقلیل یافته‌اند و حال داده‌ها تفسیر شده‌اند. دانش، اطلاعات تلفیق شده‌ای است که شامل حقایق و روابط میان آنهاست. دانش در واقع به عنوان تصاویر ذهنی ما درک، کشف یا فراگیری شده است. به عبارت دیگر می‌توان دانش را همان داده‌هایی فرض کرد که در بالاترین سطح تعمیم قرار گرفته‌اند ADDIN EN.CITE <EndNote><Cite><Author>غضنفری</Author><Year>1387</Year><RecNum>49</RecNum><DisplayText>[10]</DisplayText><record><rec-number>49</rec-number><foreign-keys><key app=”EN” db-id=”w2sr2evvy9wst9ep9sfxd9tjp09pewf5tx0a”>49</key></foreign-keys><ref-type name=”Book”>6</ref-type><contributors><authors><author><style face=”normal” font=”default” charset=”178″ size=”100%”>مهدی غضنفری</style></author></authors><secondary-authors><author><style face=”normal” font=”default” charset=”178″ size=”100%”>چاپ دوم</style></author></secondary-authors></contributors><titles><title><style face=”normal” font=”default” charset=”178″ size=”100%”>داده کاوی و کشف دانش</style></title></titles><dates><year><style face=”normal” font=”default” charset=”178″ size=”100%”>1387</style></year></dates><pub-location><style face=”normal” font=”default” charset=”178″ size=”100%”>تهران</style></pub-location><publisher><style face=”normal” font=”default” charset=”178″ size=”100%”>دانشگاه علم و صنعت ایران</style></publisher><urls></urls></record></Cite></EndNote>[10].
متخصصانی که از حوزه‌های مختلف به رشد این موضوع جدید کمک می‌کنند، فهم متفاوتی از عبارات کشف دانش و داده کاوی دارند. تعریف مورد نظر در این تحقیق به شرح زیر است:
کشف دانش از پایگاه داده‌ها در واقع فرایند تشخیص الگوها و مدل‌ها موجود در داده‌هاست. الگوها و مدل‌هایی که معتبر، بدیع، بالقوه مفید و کاملاً قابل فهم هستند. داده کاوی مرحله‌ای از فرایند کشف دانش است که با کمک الگوریتم‌های خاص داده کاوی و با کارایی قابل قبول محاسباتی، الگوها یا مدل‌ها را در داده‌ها پیدا می‌کند ADDIN EN.CITE <EndNote><Cite><Author>غضنفری</Author><Year>1387</Year><RecNum>49</RecNum><DisplayText>[10]</DisplayText><record><rec-number>49</rec-number><foreign-keys><key app=”EN” db-id=”w2sr2evvy9wst9ep9sfxd9tjp09pewf5tx0a”>49</key></foreign-keys><ref-type name=”Book”>6</ref-type><contributors><authors><author><style face=”normal” font=”default” charset=”178″ size=”100%”>مهدی غضنفری</style></author></authors><secondary-authors><author><style face=”normal” font=”default” charset=”178″ size=”100%”>چاپ دوم</style></author></secondary-authors></contributors><titles><title><style face=”normal” font=”default” charset=”178″ size=”100%”>داده کاوی و کشف دانش</style></title></titles><dates><year><style face=”normal” font=”default” charset=”178″ size=”100%”>1387</style></year></dates><pub-location><style face=”normal” font=”default” charset=”178″ size=”100%”>تهران</style></pub-location><publisher><style face=”normal” font=”default” charset=”178″ size=”100%”>دانشگاه علم و صنعت ایران</style></publisher><urls></urls></record></Cite></EndNote>[10].
مراحل این فرایند در شکل زیر آمده است:
20878801335405شکل 2-1 فرایند داده کاوی و کشف دانش
00شکل 2-1 فرایند داده کاوی و کشف دانش
-14222948
به عبارت دیگر، هدف کشف دانش و داده کاوی یافتن الگوها و یا مدل‌های جالب موجود در پایگاه داده‌هاست که در میان حجم عظیمی از داده‌ها مخفی هستند.
با توجه به تعریف ارائه شده از کشف دانش، درجه جذابیت یافته‌ها با معیارهای متعددی بیان می‌شود که به شرح زیر می‌باشند:
تصدیق یا گواهی، نشانگر معنی‌دار بودن یک یافته بر حسب یک معیار آماری است. افزونگی، مقدار شباهت یک الگوی کشف شده نسبت به یافته‌های دیگر است و درجه تبعیت آن را از دیگری اندازه می‌گیرد. فایده، ارتباط یافته را با اهداف کاربران بیان می‌کند. بدیع بودن، بیانگر میزان تازگی نسبت به دانش قبلی کاربر یا سیستم است. سادگی، به پیچیدگی نحوی و نمایش یک الگوی کشف شده و نحوه تعمیم آن اشاره دارد ADDIN EN.CITE <EndNote><Cite><Author>غضنفری</Author><Year>1387</Year><RecNum>49</RecNum><DisplayText>[10]</DisplayText><record><rec-number>49</rec-number><foreign-keys><key app=”EN” db-id=”w2sr2evvy9wst9ep9sfxd9tjp09pewf5tx0a”>49</key></foreign-keys><ref-type name=”Book”>6</ref-type><contributors><authors><author><style face=”normal” font=”default” charset=”178″ size=”100%”>مهدی غضنفری</style></author></authors><secondary-authors><author><style face=”normal” font=”default” charset=”178″ size=”100%”>چاپ دوم</style></author></secondary-authors></contributors><titles><title><style face=”normal” font=”default” charset=”178″ size=”100%”>داده کاوی و کشف دانش</style></title></titles><dates><year><style face=”normal” font=”default” charset=”178″ size=”100%”>1387</style></year></dates><pub-location><style face=”normal” font=”default” charset=”178″ size=”100%”>تهران</style></pub-location><publisher><style face=”normal” font=”default” charset=”178″ size=”100%”>دانشگاه علم و صنعت ایران</style></publisher><urls></urls></record></Cite></EndNote>[10].
2-5 مراحل داده کاویفرایند داده کاوی شامل سه مرحله است: آماده سازی داده، یادگیری مدل، ارزیابی و تفسیر مدل. شکل 2-1 در فوق این مراحل سه‌گانه را به همراه زیر مراحل آن نشان می‌دهد. در ادامه به توصیف هر کدام از این مراحل می‌پردازیم ADDIN EN.CITE <EndNote><Cite><Author>آباده</Author><Year>1391</Year><RecNum>40</RecNum><DisplayText>[8]</DisplayText><record><rec-number>40</rec-number><foreign-keys><key app=”EN” db-id=”w2sr2evvy9wst9ep9sfxd9tjp09pewf5tx0a”>40</key></foreign-keys><ref-type name=”Book”>6</ref-type><contributors><authors><author><style face=”normal” font=”default” charset=”178″ size=”100%”>محمد صنیعی آباده</style></author></authors></contributors><titles><title><style face=”normal” font=”default” charset=”178″ size=”100%”>داده کاوی کاربردی</style></title></titles><dates><year><style face=”normal” font=”default” charset=”178″ size=”100%”>1391</style></year></dates><publisher><style face=”normal” font=”default” charset=”178″ size=”100%”>نیاز دانش</style></publisher><urls></urls></record></Cite></EndNote>[8].
آماده سازی داده: اولین و مهم‌ترین مرحله در فرایند داده کاوی آماده سازی داده می‌باشد. هدف در این مرحله تأمین ورودی مناسب برای مرحله حیاتی یادگیری مدل است. در این مرحله داده پردازش نشده از کل منابع داده‌ای موجود (که ممکن است توزیع شده نیز باشند) استخراج شده، سپس در مرحله‌ای مستقل مورد پردازش اولیه قرار می‌گیرد. خروجی در مرحله آماده سازی مدل عبارت است از داده پیش پردازش شده که امکان یادگیری مدل از روی آن وجود دارد.
همان‌گونه که گفته شد اولین گام در مرحله آماده سازی داده استخراج داده از منابع داده‌ای موجود است. در این گام می‌بایست داده‌ها که در منابع مختلفی پراکنده شده‌اند، به صورت متمرکز در یک محل جمع آوری شده و یک انباره داده مرکزی ایجاد شود. دلیل اصلی این گردآوری آن است که در اغلب موارد داده به صورت متمرکز در یک مکان وجود ندارد. به علاوه داده‌ها در بخش‌های مختلف ممکن است در فرمت‌های گوناگونی نیز ذخیره شده باشند. مثلاً ممکن است بخشی از داده‌ها در یک پایگاه داده Oracle و بخش دیگر داده‌ها در یک پایگاه داده SQL Server ذخیره شده باشند. حتی ممکن است بخشی از داده‌ها در چند فایل اکسل یا حتی فایل متنی ذخیره شده باشند. گاهی اوقات داده‌هایی وجود دارند که روی کاغذ نوشته شده‌اند و حتی تایپ نشده‌اند. حال اگر قرار باشد فرایند داده کاوی صورت پذیرد، باید داده‌های موجود در منابع مختلف متحد شده و در یک فرمت مشخص در یک انباره داده مرکزی ذخیره شوند. در غیر اینصورت فرایند داده کاوی هر چقدر هم که هوشمندانه و بی نقص انجام شود، نخواهد توانست دانش با ارزش و درخور توجه تولید نماید.
دومین گام در مرحله آماده سازی داده پیش پردازش داده‌های استخراج شده است. مهم‌ترین رسالت این گام زدودن مشکلات مختلفی که احتمالاً در داده وجود دارند، خواهد بود. این مشکلات در واقع مانع از آن می‌شود که مرحله یادگیری مدل بتواند نظم واقعی را در داده بیابد. در هر حال پس از پایان مرحله آماده سازی داده، مجموعه داده‌ای آماده خواهد شد که فاقد مشکلات جدی و کلیدی است و امکان کشف دانش نهفته در آن با استفاده از مرحله یادگیری مدل وجود دارد. این مرحله در ادامه توصیف می‌شود.
یادگیری مدل: در این مرحله با استفاده از الگوریتم‌های متنوع و با توجه به ماهیت داده، سعی ما بر این است که نظم‌های مختلف موجود در داده را شناسایی نموده و در فرمتی مشخص به عنوان دانش نهفته در داده ارائه کنیم. برای یادگیری مدل می‌بایست روش‌های آن را به درستی شناخت تا بتوان در جای مناسب، روش درست را انتخاب نمود و بکار بست.
روش‌های یادگیری مدل در داده کاوی: مشهورترین روش‌های یادگیری مدل در داده کاوی را در این بخش مورد بررسی قرار می‌دهیم. می‌توان روش‌های مختلف کاوش داده را در دو گروه روش‌های پیش بینی و روش‌های توصیفی طبقه نمود. در ادامه به شرح هر کدام از این دو گروه می‌پردازیم.
روش‌های پیش بینی: این روش‌ها از مقادیر بعضی از ویژگی‌ها برای پیش بینی کردن مقدار یک ویژگی مشخص استفاده می‌کنند. در متون علمی مختلف روش‌های پیش بینی با نام روش‌های با ناظر نیز شناخته می‌شوند. روش‌های دسته بندی ، رگرسیون و تشخیص انحراف سه روش یادگیری مدل در داده کاوی با ماهیت پیش بینی هستند. در ادامه بررسی هر کدام از این روش‌ها می‌پردازیم.
دسته بندی: در الگوریتم‌های دسته بندی مجموعه داده اولیه به دو مجموعه داده با عنوان مجموعه داده‌های آموزشی و مجموعه داده آزمایشی تقسیم می‌شود، با استفاده از مجموعه داده‌های آموزشی مدل ساخته می‌شود و از مجموعه داده آزمایشی برای اعتبار سنجی و محاسبه دقت مدل ساخته شده استفاده می‌شود. هر رکورد شامل یک مجموعه از ویژگی‌هاست. یکی از این ویژگی‌ها، ویژگی دسته نامیده می‌شود. در الگوریتم‌های دسته بندی چون ویژگی دسته مربوط به هر رکورد مشخص است بنابراین جزء الگوریتم‌های با ناظر محسوب می‌شوند. الگوریتم‌های با ناظر شامل دو مرحله با عنوان مرحله آموزش (یادگیری) و مرحله ارزیابی هستند. در مرحله آموزش، مجموعه داده‌های آموزشی به یکی از الگوریتم‌های دسته بندی داده می‌شود تا بر اساس مقادیر سایر ویژگی‌ها برای مقادیر ویژگی دسته، مدل ساخته شود. شکل مدل ساخته شده به نوع الگوریتم یادگیرنده بستگی دارد. به عنوان مثال، اگر الگوریتم یادگیرنده الگوریتم درخت تصمیم باشد مدل ساخته شده یک درخت تصمیم خواهد بود، اگر الگوریتم یادگیرنده یک دسته بند مبتنی بر قانون باشد مدل ساخته شده یک مجموعه قانون خواهد بود. در هر صورت با توجه به الگوریتم یادگیرنده مورد استفاده در مرحله آموزش، مدل ساخته می‌شود. پس از ساخت مدل، در مرحله ارزیابی دقت مدل ساخته شده به کمک مجموعه داده آزمایشی که مدل ساخته شده در مرحله آموزش این مجموعه داده را ندیده است، ارزیابی خواهد شد. از مجموعه داده‌های آزمایشی در مرحله آموزش و ساخت مدل استفاده نمی‌شود.
در ادامه قصد داریم به یکی از کاربردهای دسته بندی بپردازیم:
تشخیص کلاه‌برداری: هدف، پیش بینی موارد کلاه‌برداری در تراکنش‌های کارت‌های اعتباری است. (البته تشخیص کلاه‌برداری لزوماً منحصر به تراکنش‌های کارت‌های اعتباری نبوده و قابل طرح در بسیاری از کاربردهای مالی دیگر نظیر بیمه و بورس می‌باشد). روش کار به اینصورت است که در گذشته نیز تعداد زیادی تراکنش اتفاق افتاده و هرکدام از آنها بررسی شده‌اند و به عنوان یک تراکنش کلاه‌برداری یا یک تراکنش عادی برچسب خورده‌اند. تمام این تراکنش‌ها در سیستم ثبت شده‌اند. حال از اطلاعات مربوط به این تراکنش‌ها استفاده نموده و یک مجموعه رکورد جمع آوری می‌کنیم. در هر رکورد اطلاعات صاحب حساب و کارهایی که در حال انجام آن می‌باشد را به عنوان ویژگی در نظر می‌گیریم. به علاوه یک ویژگی دسته هم تعریف می‌کنیم که شامل دو مقدار کلاه‌برداری و عادی است. هر رکورد یکی از این دو مقدار را به ازای ویژگی دسته خود دارد. به عنوان مثال تعدادی از این ویژگی‌ها عبارتند از: مشتری چه موقع در حال خرید است؟ در حال خرید چه چیزی است؟ آیا هزینه را به موقع پرداخت می‌کند؟ و… این مجموعه رکوردها به دو قسمت مجموعه داده‌های آموزشی و آزمایشی شکسته می‌شوند. الگوریتم یادگیرنده بر اساس مجموعه داده‌های آموزش، مدلی را برای وضعیت‌های کلاه‌برداری و عادی می‌سازد. حال فرد جدیدی که وارد شد و کارت خود را وارد سیستم نمود، ویژگی‌های آن به مدل داده می‌شود و مدل تشخیص می‌دهد که آیا این فرد قصد انجام یک کار کلاه‌بردارانه را دارد یا نیت او انجام یک تراکنش عادی است.
رگرسیون: پیش بینی مقدار یک متغیر پیوسته بر اساس مقادیر سایر متغیرها بر مبنای یک مدل وابستگی خطی یا غیر خطی رگرسیون نامیده می‌شود. رگرسیون در علوم آمار و شبکه‌های عصبی به صورت وسیع مورد مطالعه و بررسی قرار می‌گیرد. در واقع یک بردار x به عنوان ورودی داریم که به یک متغیر خروجی y نگاشت شده است. هدف محاسبه y یا همان F(x) است که از روی تخمین تابع مقدار آن محاسبه می‌شود. در اینجا می‌بایست به ازای یک بردار x ، مقدار دقیق y قابل محاسبه باشد. این کاربرد نیز مانند دسته بندی یک کاربرد از نوع پیش بینی یا با ناظر است. دلیل آن هم کاملاً روشن است، چرا که باید مقدار یک متغیر که در اینجا y نشان داده شده، از روی مقادیر متغیرهای دیگر که آن را با بردار x مشخص می‌کنیم، پیش بینی شود. بنابراین در رگرسیون هم دو مرحله آموزش و آزمایش وجود خواهد داشت. روش‌های موجود در رگرسیون بیشتر مبتنی بر ریاضیات آماری هستند. یک نوع خاصی از رگرسیون، پیش بینی سری‌های زمانی است. در مسائل پیش بینی سری‌های زمانی یکی از متغیرهای اصلی، زمان است. در این مسائل یک مجموعه از xها و yها به صورت یک تابع ریاضی وجود دارند. به عبارت دیگر به ازای هر x فقط و فقط یک y موجود می‌باشد (در غیر اینصورت زمان به عقب بر خواهد گشت). هدف این است که به ازای یک x جدید مقدار y آن را پیش بینی کنیم. مثال‌هایی از رگرسیون عبارتند از:
1. پیش بینی میزان فروش یک محصول جدید بر اساس میزان فروش محصولات گذشته، مشخصات محصولات گذشته و میزان تبلیغات انجام شده بر روی آن
2. پیش بینی سرعت باد به عنوان تابعی از دما، رطوبت و فشار هوا
3. مسائل مربوط به پیش بینی سری‌های زمانی از قبیل: بورس اوراق بهادار، تغییرات جوّی آب و هوا و …
تشخیص انحراف: در مواقعی از این کاربرد استفاده می‌شود که تنها نمونه‌های با یک برچسب یکسان، که معمولاً وضعیت نرمال را نشان می‌دهد، در دسترس باشند و امکان مالکیت بر داده‌ها با تمامی برچسب‌های موجود به دلایل مختلف وجود نداشته باشد. بنابراین چون فقط نمونه‌های دسته نرمال در اختیار است، الگوریتم برای وضعیت نرمال و با توجه به یک آستانه مشخص مدل می‌سازد و هرگونه تخطی از آن آستانه را به عنوان وضعیت غیر نرمال در نظر می‌گیرد و هشدار می‌دهد. یک نمونه از کاربردهای تشخیص انحراف عبارتست از: تشخیص نفوذ به شبکه‌های کامپیوتری.
روش‌های توصیفی: این روش‌ها الگوهای قابل توصیفی را پیدا می‌کنند که روابط حاکم بر داده‌ها را بدون در نظر گرفتن هرگونه برچسب و یا متغیر خروجی تبیین نمایند. در متون علمی مختلف روش‌های توصیفی با نام روش‌های بدون ناظر نیز شناخته می‌شوند. روش‌های خوشه بندی ، کاوش قوانین انجمنی و کشف الگوهای ترتیبی سه روش یادگیری مدل در داده کاوی با ماهیت توصیفی هستند. در ادامه به بررسی هر کدام از این روش‌ها می‌پردازیم.
خوشه بندی: در مسائل خوشه بندی یک مجموعه رکورد داریم که هر کدام یک مجموعه از ویژگی‌ها را دارا هستند. یک معیار مشابهت میان آنها تعریف می‌کنیم. این معیار مشابهت در مسائل مختلف متفاوت است. به عنوان مثال اگر ویژگی‌ها پیوسته باشند می‌توان فاصله اقلیدسی را به عنوان معیار مشابهت در نظر گرفت. به این ترتیب هر رکورد را به صورت یک نقطه در فضای چند بعدی در نظر می‌گیریم. هر بعد، نماینده یکی از ویژگی‌های مسئله است. در مسائل خوشه بندی هیچ‌گونه دسته خاصی وجود ندارد. در واقع ویژگی دسته نداریم و فقط بر اساس معیار شباهت گروه‌بندی و خوشه بندی داده‌ها صورت می‌پذیرد. خوشه بندی به این شکل انجام می‌شود که رکوردهایی که بیشترین شباهت را به یکدیگر دارند (با توجه به معیار شباهت تعریف شده) در یک خوشه قرار می‌گیرند. در نتیجه داده‌های موجود در خوشه‌های متفاوت کمترین شباهت را به یکدیگر خواهند داشت. خروجی الگوریتم‌های خوشه بندی دوباره تحلیل خواهد شد تا در صورت امکان نظمی در خوشه‌ها آشکار شود. نکته مهمی که می‌بایست به آن توجه نمود آن است که خوشه بندی همیشه بر اساس ویژگی‌های ورودی و نمونه‌ها انجام می‌شود. به عنوان مثال در صورت خوشه بندی رکوردهای مربوط به دانشجویان یک دانشکده هر خوشه ممکن است بیانگر رکوردهایی باشد که از جنبه‌های مختلف به یکدیگر شبیه هستند. مثلاً یک وضعیت ممکن است این باشد که دو خوشه بوجود آید که نشانگر دانشجویان زرنگ و تنبل باشند. ممکن است این دو خوشه بیانگر دانشجویان پسر و دختر باشند. هدف در همه الگوریتم‌های خوشه بندی کمینه کردن فاصله درون خوشه‌ای و بیشینه نمودن فاصله بین خوشه‌ای می‌باشد. عملکرد خوب یک الگوریتم خوب خوشه بندی زمانی محرز می‌شود که تا حد امکان خوشه‌ها از یکدیگر دور باشند و به علاوه رکوردهای درون یک خوشه بیشترین شباهت را به یکدیگر دارا باشند. در ادامه به بررسی یکی از کاربردهای خوشه بندی می‌پردازیم:
خوشه بندی اسناد: هدف پیدا کردن گروه‌هایی از اسناد مشابه بر اساس تعداد رخداد کلمات و اصطلاحات مهم موجود در آنها می‌باشد. به عنوان مثال فرض کنید یک مجموعه مقاله داریم. از میان چکیده این مقاله‌ها عبارات و کلمات کلیدی مهم را استخراج می‌کنیم. بنابراین ویژگی‌های ما یک مجموعه از کلمات کلیدی و عبارات مهم هستند که از چکیده مقاله‌ها استخراج می‌شوند. حال تعداد رخداد هر کدام از این کلمات و عبارات را در هر یک از مقاله‌ها پیدا می‌کنیم. در واقع یک مجموعه رکورد جمع آوری می‌نماییم که هر رکورد نماینده یک از مقاله‌ها می‌باشد. هر رکورد مجموعه مشخصی از ویژگی‌ها را دارد که همان کلمات مهم موجود در مقاله‌ها هستند. حال تعداد رخداد هر کدام از این کلمات را در هر یک از مقاله‌ها می‌یابیم و به عنوان مقدار ویژگی‌ها برای هر یک از رکوردها در جدول ثبت می‌نماییم. سپس مجموعه رکوردهای حاصله را به الگوریتم خوشه بندی ارائه می‌کنیم. الگوریتم بر اساس فاصله بین رکوردها (یعنی بر اساس تعداد رخداد کلمات مهم در هر یک از اسناد) آنها را خوشه بندی نموده و تعدادی خوشه ایجاد می‌کند. به عنوان مثال ممکن است چهار خوشه تولید شده باشد، پس از بررسی مشخص خواهد شد اسنادی که در یک خوشه قرار گرفته‌اند مرتبط با چه موضوعاتی هستند. مثلاً ممکن است مشخص شود که تمام مقاله‌های موجود در خوشه نخست سیاسی، مقاله‌های موجود در خوشه دوم ورزشی، مقاله‌های موجود در خوشه سوم مالی و در خوشه آخر مقاله‌های مربوط به بخش فرهنگی وجود دارند. مزیت خوشه بندی اسناد در کاربردهای بازیابی اطلاعات است. یک نمونه دیگر از کاربردهای خوشه بندی اسناد، در تعیین یک خوشه یک سند جدید با توجه به خوشه‌های یافته شده می‌باشد.