Please enter banners and links.
اعتبار سنجی نیازمندیها: در این فاز نیازمندیها برای وجود ابهامات مورد آزمایش و بررسی دقیق قرار میگیرند.
مدیریت نیازمندیها: این فاز مجموعهای از فعالیتها را تعریف میکند که باعث میشوند تیم پروژه بتواند تعیین، کنترل و ردگیری نیازمندیها و تغییرات آنها را در هر زمان مدیریت کند.
این پنج فاز مکانیزم مناسبی جهت درک خواستههای ذینفعان، تحلیل نیازها، تعیین امکان پذیر بودن پروژه، مذاکره در مورد راه حل قابل قبول، تعیین راه حل به صورت شفاف، اعتبار سنجی خصوصیات و مدیریت نیازمندیها در زمان اعمال آنها به سیستم عملیاتی میباشد.
هدف از فاز اول تعیین این موضوع است که چه مسائلی نیاز به حل شدن دارند. در فاز دوم درک ارتباط بین نیازمندیهای گوناگون مشتری و شکل دادن به ارتباطات برای دستیابی به نتیجه موفق انجام میشود. در فاز سوم از روشهایی چون ایجاد یک مدل ملموس از سیستم میتواند به تعیین نیازمندیها کمک کند. در فاز چهارم توسط بازبینی مدل به اعتبار و صحت سنجی نیازهای ثبت شده پرداخته و در فاز آخر به مدیریت این فرایند که شامل تعیین، کنترل و پیگیری نیازها و تغییرات آنها میباشند، میپردازیم.1-3 استخراج نیازمندیهااستخراج نیازمندیها به عنوان اولین و مهمترین فاز از پنج فاز مهندسی نیازمندیها میباشد. هدف استخراج نیازمندیها تعیین این مطلب است که چه مسائلی نیازمند حل شدن هستند. بیشتر سیستمهایی که در صنعت نرم افزار ساخته میشوند نمیتوانند نیازهای کاربران را برآورده کنند. کیفیت نیازمندیها برای موفقیت یک پروژه حیاتی است. استخراج نیازمندیها فاز اول مهندسی نیازمندیها است و نقش مهمی در طول چرخهی عمر توسعهی نرم افزار دارد. این فاز شامل مسائل اجتماعی، ارتباطی و تکنیکی و درگیر بیرون کشیدن نیازمندیهای مشتری است و یکی از فعالیتهای کلیدی و پیچیده محسوب میشود، زیرا در اکثر موارد کاربران از نیازهای خود آگاه نیستند و اختلاف در نقاط دید طرز تفکر و انتظارات بین کاربران و تحلیلگران این کار را مشکل و چالش برانگیز ساخته است. برای پشتیبانی و بهبود فرایند استخراج تکنیکهای زیادی با نقاط ضعف و قدرت متفاوت وجود دارند اما مهندسان نیازمندی همواره برای انتخاب تکنیک مناسب از بین این تکنیکها مشکلاتی دارند. مهمترین دلیل آن این است که یک تکنیک برای همهی موقعیتها مناسب نیست و موقعیت در طول فرایند استخراج تغییر میکند. نقل قولی از فردریک بروکس جواب این سؤال را که “چرا نیازمندیها اینقدر اهمیت دارند” میگوید: سختترین بخش ساخت یک سیستم نرمافزاری تصمیم گیری دقیق در مورد این است که چه چیزی باید ساخته شود. بخشهای دیگر عمل درک نیازمندیها به سختی وضع کردن نیازمندیهای فنی مجزا نیست که شامل همه رابطههای افراد، ماشینها ، و سیستمهای نرم افزاری دیگر است. بخشهای دیگر سیستم حاصل را اینقدر عاجز نمیکنند اگر اشتباه انجام شود. هیچ بخش دیگری سختتر از این نیست که بعداً تصحیح شود. استنباط ، تحلیل ، و خوب نوشتن نیازمندیها سختترین بخشهای مهندسی نرم افزار هستند. به هر حال به نقل قول از کارل ویگرس “اگر شما نیازمندیها را درست نگیرید هیچ اهمیتی نخواهد داشت که شما چیزهای دیگر را چقدر خوب انجام داده باشید”.
1-4 سازمانهای بزرگ مقیاسهمان طور كه از نام سازمانهاي بزرگ مقياس برميآيد، اين نوع از سازمانها، سازمانهايي هستند كه از نظر مقياس و اندازه فراتر از سازمانهاي امروزي هستند. اين «بزرگ مقياس» بودن از هر نظر قابل بررسي است: از نظر افراد درگير در سازمان، دادههاي ذخيره شده، بازيابي شده، دستكاري شده و پالايش شده، ميزان اتصالات و وابستگي بين واحدي مؤلفههای نرمافزاري، عناصر سختافزاري و … .
«مقياس» در سازمانهاي بزرگ مقياس باعث تغيير همه چيز ميشود. اين سازمانها، لزوماً به شكل نامتمركز هستند؛ توسط تعداد زيادي از ذینفعان با نيازهاي متضاد، توسعه و به كار گرفته ميشوند؛ به طور مستمر تكامل پيدا ميكنند؛ از قطعات ناهمگن تشكيل ميشوند؛ افراد تنها كاربران سامانه نيستند، بلكه بخشي از سامانه محسوب ميشوند؛ خرابيهاي نرمافزاري و سختافزاري يك امر كاملاً عادي محسوب ميشوند و نميتوان آنها را يك استثناء در نظر گرفت. همچنين، سامانههاي بزرگ مقياس همزمان مورد استفاده قرار ميگيرند و نياز به روشهاي نوين براي كنترل دارند. اين ويژگيها، لزوم بكارگيري روشهايي را براي استفاده، توليد، استقرار، مديريت، مستندسازي و تكامل سازمانهاي بزرگ مقياس اجتنابناپذير ميسازد ADDIN EN.CITE <EndNote><Cite><RecNum>60</RecNum><DisplayText>[3]</DisplayText><record><rec-number>60</rec-number><foreign-keys><key app=”EN” db-id=”w2sr2evvy9wst9ep9sfxd9tjp09pewf5tx0a”>60</key></foreign-keys><ref-type name=”Web Page”>12</ref-type><contributors></contributors><titles></titles><volume>1392</volume><dates></dates><urls><related-urls><url>http://isa.sbu.ac.ir/uls</url></related-urls></urls></record></Cite></EndNote>[3].
از نمونه این سازمانها میتوان به شهرداری تهران اشاره نمود که دارای مجموعه وسیعی از نیروی انسانی در واحدهای مختلف بوده که هدف آنها جلب رضایت هرچه بیشتر شهروندان میباشد. ارضای نیازمندیهای شهروندان در اولویت وظایف این سازمان قرار داشته و با بوجود آوردن زیرمجموعههایی همچون سامانه مدیریت شهری 137، سامانه نظارت همگانی 1888 و … با دخیل کردن شهروندان در ثبت نظرات، پیشنهادات، خواستهها و نیازهایشان سعی به انجام بهتر این وظیفه بزرگ دارد.
1-5 ویژگیهای سازمانها و سامانههای بزرگ مقیاسسازمانهاي بزرگ مقياس ويژگيهايي دارند كه باعث ميشوند رويكردهاي فعلي و مورد استفاده روشهاي مهندسي نرمافزار نتوانند پاسخگوي توسعه آنها باشند. اين ويژگيها عمدتاً ناشي از «مقياس» اين گونه از سازمانها است. ويژگي اصلي سازمانهاي بزرگ مقياس، اندازه بسيار بزرگ آنها در ابعاد مختلف است. البته ماهيت سامانههاي بزرگ مقياس به مواردي فراتر از «اندازه» آنها برميگردد. در واقع، اندازه باعث ميشود بسياري از مواردي كه در سازمانهاي معمولي غیر مهم يا كم اهميت بودند، تبديل به موارد بااهميت شوند. مشكلات ناشي از مقياس، نيازمند روشهاي جديد حل و تعريف مفاهيم نو براي طراحي، توسعه، كاركرد و تكامل سازمانها است. ميتوان هفت ويژگي را براي سازمانها و یا سامانههای بزرگ مقياس در نظر گرفت. در ادامه، ضمن بيان اين ويژگيها، مشخص ميكنيم چرا هر يك از آنها باعث ميشود كه رويكردهاي فعلي مهندسي نرمافزار در مقابله با آنها ناتوان باشد ADDIN EN.CITE <EndNote><Cite><RecNum>60</RecNum><DisplayText>[3]</DisplayText><record><rec-number>60</rec-number><foreign-keys><key app=”EN” db-id=”w2sr2evvy9wst9ep9sfxd9tjp09pewf5tx0a”>60</key></foreign-keys><ref-type name=”Web Page”>12</ref-type><contributors></contributors><titles></titles><volume>1392</volume><dates></dates><urls><related-urls><url>http://isa.sbu.ac.ir/uls</url></related-urls></urls></record></Cite></EndNote>[3].
كنترل نامتمركز
مقياس سامانههاي بزرگ مقیاس تنها به شكل بسيار محدودي اجازه كنترل مركزي و سلسله مراتبي داده، توسعه، تكامل، و كاركرد را ميدهد. حتي مقدار محدود كنترل سلسله مراتبي كه امروزه در سامانههاي بسيار بزرگ امكانپذير است، در سامانههاي بزرگ مقیاس مورد ترديد است، و در نتيجه مدلهاي متفاوتي را براي كنترل طلب ميكند.
نیازمندیهای ذاتاً متضاد و ناشناخته
مقياس و پيچيدگي مسائلي كه سازمانهاي بزرگ مقياس بايد حل كنند، اغلب ما را به سمت وضعيتي سوق ميدهد كه در آن نيازمنديهاي يك سامانه تا زمان استفاده از آن سامانه ناشناختهاند. حتی، گاهي پس از آن كه سامانه مورد نظر عملياتي شد، درك ما از مسئله دچار تغيير ميشود. در واقع، هر تلاش براي حل مسئله، فهم ما را از آن مسئله بيشتر ميكند و باعث ميشود مسئله جديدي مطرح شده و به تلاشي ديگر براي حل آن نياز باشد. به اين شكل، بسياري از مسائلي كه سامانههاي بزرگ مقياس بايد حل كنند، پايانپذير نيستند. از طرف ديگر، سامانههاي بزرگ مقياس به دليل اندازه و ماهیتشان بايد طيف وسيعي از نيازمنديها را ارضا كنند. هر چقدر دامنه اين نيازمنديها وسيعتر باشد، تنوع و تضاد در بين آنها افزايش مييابد. همچنين، يكپارچگي راهحلها نياز به دانش در حوزههاي مختلف و بين دامنهاي دارد، كه به دست آوردن آن چندان ساده نيست.
تكامل و استقرار مداوم
يكي ديگر از پيامدهاي «اندازه» اين است كه سازمانهاي بزرگ مقياس براي مدت طولاني بايد به ارايه خدمات بپردازند. در واقع، اندازه اين نوع از سازمانها جايگزيني يا از رده خارج شدن آنها را غيرممكن ميسازد. سازمانهاي بزرگ مقياس نيز همانند سامانههاي بسيار بزرگ امروزي به طور مداوم تكامل پيدا ميكنند تا نيازمنديهاي جديد و تغييريافته را برآورده كنند. با اين حال، ما به تكاملي متفاوت از تكامل در سازمانهاي بسيار بزرگ امروزي نياز داريم. هنگامي كه از تكامل يك سامانه صحبت ميكنيم، منظورمان تغييرات هدايتشدهاي است كه بر اساس قواعد و سياستها، به شكل محلي انجام ميشود بدون آن كه يكپارچگي آن سامانه را از بين ببرد. اما، يكپارچگي در سامانههاي بزرگ مقياس توسط گروههاي مختلفي از ذینفعان انجام ميشود. هيچ تضميني وجود ندارد كه اين تغييرات كاملاً قاعدهمند بوده و بر اساس قواعد از پیش تعریف شده انجام پذيرد.
عناصر ناهمگن، ناسازگار و در حال تغيير
اندازه سامانههاي بزرگ مقياس به این معني است كه عناصر آن (همچون سختافزار، نرمافزار، روالها، قواعد، افراد و …) ناهمگن، ناسازگار و در حال تغيير هستند. عناصر نرمافزاري به دليل گوناگون بودن منابع آنها ناهمگن هستند (زبانهاي برنامهسازي متفاوت، سكوهاي مختلف، متدلوژیهای متفاوت و …). از آن جا كه ايجاد نرمافزارها نيز در شرايط متفاوتي (از منظر مكانها، زمانبنديها، فرآيندها، اهداف، ذینفعان و …) انجام شده است، احتمالاً در طراحي، ساخت و بهرهبرداري با يكديگر ناسازگارند. بخشهاي مختلف يك سامانه همواره در حال تغيير هستند. محيط عملياتي تغيير ميكند؛ بخشهاي خراب سختافزار بايد جايگزين شوند؛ نرمافزارها و سختافزارها به روز ميشوند؛ و پيكربندي مؤلفهها اصلاح ميشوند.
از بين رفتن تدريجي مرز بين افراد و سامانه
افراد نه تنها كاربران يك سامانه بزرگ مقياس هستند، بلكه بخشي از رفتار كلي آن نيز محسوب ميشوند. در واقع، مرز بين سامانه و نقشهاي كاربر/ توسعهدهنده به روشني مشخص نيست. يك شهر را در نظر بگيريد. افرادي كه در اين شهر ساكن هستند، ممكن است تغيير و نگهداري آن را نيز به عهده داشته باشند. در واقع يك شخص، نقشهاي متفاوتي دارد. در يك سامانه بزرگ مقياس نيز چنين وضعيتي رخ ميدهد. يك شخص در يک زمان ممکن است كاربر سامانه باشد؛ در وقتي ديگر ممکن است يك نقش نگهداشت را بر عهده گيرد؛ در زماني ديگر ميتواند عملكردهاي سامانه را اضافه و كم يا تصحيح کند. در نظر گرفتن افراد به عنوان بخشي از سامانههاي بزرگ مقياس به اين معني است كه با تغيير تواناييهاي محاسباتي و پيكربندي سازمانها بايد فرآيندها و روالهاي مربوطه جهت كمك به درك افراد در راستاي اهداف و مأموریتهای آنها اصلاح شود، زيرا افراد بخشي از خود سامانه بزرگ مقياس هستند.
خرابيهاي طبيعي
از آن جا كه زيربناي فيزيكي يك سامانه بزرگ مقياس بسيار گسترده است، خرابي سختافزار ديگر يك امر غيرعادي نيست؛ بلكه به طور طبيعي اتفاق ميافتد. همچنين، از آنجا كه مؤلفههای نرمافزاري فراتر از ظرفيتي كه طراحي شدهاند، تحت فشار قرار ميگيرند، رفتار آنها نيز ممكن است نامطلوب باشد؛ كه اين مسئله نيز كاملاً عادي است. فرض كنيد يك پروتكل ارتباطي در هر يك ميليون انتقال فايل يك بار با شكست روبهرو ميشود. اگر انتقال فايل يك ميليون بار در روز اتفاق افتد، به طور متوسط يك شكست در روز خواهيم داشت. در سامانههاي بزرگ مقياس معمولاً بروز خرابي آن قدر متداول است كه در واقع ميتوان گفت خطا «هميشه» رخ ميدهد. با توجه به مقياس چنين سامانههايي، مسئله خرابي بايد به شكل يك مشكل پيوسته در طراحي و ساخت لحاظ شود.
پارادايمهاي جديد براي استفاده و سياستگذاري
به دليل اندازه سامانههاي بزرگ مقياس، افرادي كه مسئول ساخت آنها هستند (احتمالاً مديران، توسعهدهندگان، فروشندگان، و …) نميتوانند به طور قطعي تعريف شوند. نميتوان نيازمنديهاي متغير و غيرقطعي ذینفعان را كنترل كرد. نميتوان نيازمنديها را به شكل متمركز و سراسري نظارت كرد. در حقيقت اندازه سامانههاي بزرگ مقياس باعث بروز يك چالش اساسي براي مديران ميشود. اگر نتوان نيازمنديهاي واقعي ذینفعان را به طور كامل مشخص كرد، چگونه ميتوان فرآيند بستن قرارداد، طراحي و ساخت را كنترل كرد.
1-6 چالشهای سازمانهای بزرگ مقیاسسازمانهاي بزرگ مقياس داراي ويژگيهايي هستند كه باعث ميشوند رويكردهاي (فعلي و مورد استفاده) روشهاي مهندسي نرمافزار نتوانند پاسخگوي نیازهای آنها باشند. اين ويژگيها عمدتاً ناشي از «مقياس» اين گونه از سازمانها است. روشهاي امروزي براي استخراج صحیح نیازمندیها در این سازمانها كافي نيستند. موفقيت سازمانهاي بزرگ مقياس و دستيابي به اهداف و مقاصد اين نوع از سازمانها بستگي به توسعه توانمنديهاي جديد دارد ADDIN EN.CITE <EndNote><Cite><RecNum>60</RecNum><DisplayText>[3]</DisplayText><record><rec-number>60</rec-number><foreign-keys><key app=”EN” db-id=”w2sr2evvy9wst9ep9sfxd9tjp09pewf5tx0a”>60</key></foreign-keys><ref-type name=”Web Page”>12</ref-type><contributors></contributors><titles></titles><volume>1392</volume><dates></dates><urls><related-urls><url>http://isa.sbu.ac.ir/uls</url></related-urls></urls></record></Cite></EndNote>[3]. از نمونه این چالشها میتوان به بحث استخراج و اولویت بندی نیازمندیها در سامانه مدیریت شهری 137 شهرداری تهران اشاره نمود که شامل میلیونها رکورد ثبت شده از خواستهها و نیازهای شهروندان میباشد که استفاده از این حجم عظیم اطلاعات، این سامانه را گاهاً دچار مشکل میکند.
1-7 انگیزهامروزه اهمیت اولین فاز از فازهای مهندسی نیازمندیها بر همگان مشخص گردیده و بارها مشاهده کردیم که نادیده گرفتن یک ذینفع منجر به صدمات جبران ناپذیر و یا حداقل منجر به نادیده شدن گروهی از ذینفعان دیگر گردیده است. در استخراج نیازها، افراد دیدگاهها و نظرات متفاوتی در نیازها و اولویت اجرای آنها دارند و با رشد روز افزون بازار فناوری اطلاعات و بزرگ شدن پروژهها اهمیت و پیچیدگی این موضوع بیشتر میگردد.
انگیزه از جایی شروع میشود که تا ندانیم چه مسائلی نیاز به حل شدن دارند نمیتوانیم به دنبال ارائه راه حلهای آنها باشیم. بنابراین شناسایی و اولویت بندی نیازها موضوعی است که باید در ابتدا مورد توجه قرار گیرد. با توجه به اهمیت استخراج نیازمندیها و مدیریت ارتباط با شهروند، پژوهش قابل توجهی در این زمینه انجام نشده است. اکثر مقالات منتشر شده در این زمینه نیز جنبه نظری و تئوری داشته و تعداد کمی از آنها به صورت کاربردی مفهوم مدیریت ارتباط با شهروند را مورد بررسی قرار دادهاند ADDIN EN.CITE <EndNote><Cite><Author>مینایی</Author><Year>1389</Year><RecNum>59</RecNum><DisplayText>[2]</DisplayText><record><rec-number>59</rec-number><foreign-keys><key app=”EN” db-id=”w2sr2evvy9wst9ep9sfxd9tjp09pewf5tx0a”>59</key></foreign-keys><ref-type name=”Conference Paper”>47</ref-type><contributors><authors><author><style face=”normal” font=”default” charset=”178″ size=”100%”>بهروز مینایی</style></author></authors></contributors><titles><title><style face=”normal” font=”default” charset=”178″ size=”100%”>مدلی جدید برای کشف نیازهای مشتریان بر اساس تئوری </style><style face=”normal” font=”Arial” size=”100%”>RFM </style><style face=”normal” font=”default” charset=”178″ size=”100%”>و تکنیک های داده کاوی</style></title><secondary-title><style face=”normal” font=”default” charset=”178″ size=”100%”>هفتمین کنفرانس بین المللی مهندسی صنایع</style></secondary-title></titles><dates><year><style face=”normal” font=”default” charset=”178″ size=”100%”>1389</style></year></dates><pub-location><style face=”normal” font=”default” charset=”178″ size=”100%”>دانشگاه صنعتی اصفهان</style></pub-location><urls></urls></record></Cite></EndNote>[2].
1-8 تعریف مسئلهبا رشد و توسعهی بازار فناوری اطلاعات این موضوع به وضوح مشخص است که مشتریان و توسعه دهندگان از نظر جغرافیایی در سراسر کشور و جهان پراکنده میباشند و در نتیجه روشهای چون ملاقاتهای شخصی در بحث استخراج نیازمندیها تقریباً غیر ممکن است. علاوه بر این، رشد اندازه و پیچیدگی سیستمهای نرمافزاری و همچنین رشد رو به افزایش تعداد ذینفعان، مسئلهی مدیریت و هماهنگی استخراج نیازها را در سازمانها و سامانههای بزرگ مقیاس روشن میسازد PEVuZE5vdGU+PENpdGU+PEF1dGhvcj5DYXN0cm8tSGVycmVyYTwvQXV0aG9yPjxZZWFyPjIwMDg8
L1llYXI+PFJlY051bT4zMzwvUmVjTnVtPjxEaXNwbGF5VGV4dD5bNC02XTwvRGlzcGxheVRleHQ+
PHJlY29yZD48cmVjLW51bWJlcj4zMzwvcmVjLW51bWJlcj48Zm9yZWlnbi1rZXlzPjxrZXkgYXBw
PSJFTiIgZGItaWQ9Incyc3IyZXZ2eTl3c3Q5ZXA5c2Z4ZDl0anAwOXBld2Y1dHgwYSI+MzM8L2tl
eT48L2ZvcmVpZ24ta2V5cz48cmVmLXR5cGUgbmFtZT0iQ29uZmVyZW5jZSBQcm9jZWVkaW5ncyI+
MTA8L3JlZi10eXBlPjxjb250cmlidXRvcnM+PGF1dGhvcnM+PGF1dGhvcj5DYXN0cm8tSGVycmVy
YSwgQ2FybG9zPC9hdXRob3I+PGF1dGhvcj5EdWFuLCBDaHVhbjwvYXV0aG9yPjxhdXRob3I+Q2xl
bGFuZC1IdWFuZywgSmFuZTwvYXV0aG9yPjxhdXRob3I+TW9iYXNoZXIsIEJhbXNoYWQ8L2F1dGhv
cj48L2F1dGhvcnM+PC9jb250cmlidXRvcnM+PHRpdGxlcz48dGl0bGU+VXNpbmcgZGF0YSBtaW5p
bmcgYW5kIHJlY29tbWVuZGVyIHN5c3RlbXMgdG8gZmFjaWxpdGF0ZSBsYXJnZS1zY2FsZSwgb3Bl
biwgYW5kIGluY2x1c2l2ZSByZXF1aXJlbWVudHMgZWxpY2l0YXRpb24gcHJvY2Vzc2VzPC90aXRs
ZT48c2Vjb25kYXJ5LXRpdGxlPkludGVybmF0aW9uYWwgUmVxdWlyZW1lbnRzIEVuZ2luZWVyaW5n
LCAyMDA4LiBSRSZhcG9zOzA4LiAxNnRoIElFRUU8L3NlY29uZGFyeS10aXRsZT48L3RpdGxlcz48
cGFnZXM+MTY1LTE2ODwvcGFnZXM+PGRhdGVzPjx5ZWFyPjIwMDg8L3llYXI+PC9kYXRlcz48cHVi
bGlzaGVyPklFRUU8L3B1Ymxpc2hlcj48aXNibj4wNzY5NTMzMDk0PC9pc2JuPjx1cmxzPjwvdXJs
cz48L3JlY29yZD48L0NpdGU+PENpdGU+PEF1dGhvcj5DYXN0cm8tSGVycmVyYTwvQXV0aG9yPjxZ
ZWFyPjIwMDk8L1llYXI+PFJlY051bT4zNTwvUmVjTnVtPjxyZWNvcmQ+PHJlYy1udW1iZXI+MzU8
L3JlYy1udW1iZXI+PGZvcmVpZ24ta2V5cz48a2V5IGFwcD0iRU4iIGRiLWlkPSJ3MnNyMmV2dnk5
d3N0OWVwOXNmeGQ5dGpwMDlwZXdmNXR4MGEiPjM1PC9rZXk+PC9mb3JlaWduLWtleXM+PHJlZi10
eXBlIG5hbWU9IkNvbmZlcmVuY2UgUHJvY2VlZGluZ3MiPjEwPC9yZWYtdHlwZT48Y29udHJpYnV0
b3JzPjxhdXRob3JzPjxhdXRob3I+Q2FzdHJvLUhlcnJlcmEsIENhcmxvczwvYXV0aG9yPjxhdXRo
b3I+RHVhbiwgQ2h1YW48L2F1dGhvcj48YXV0aG9yPkNsZWxhbmQtSHVhbmcsIEphbmU8L2F1dGhv
cj48YXV0aG9yPk1vYmFzaGVyLCBCYW1zaGFkPC9hdXRob3I+PC9hdXRob3JzPjwvY29udHJpYnV0
b3JzPjx0aXRsZXM+PHRpdGxlPkEgcmVjb21tZW5kZXIgc3lzdGVtIGZvciByZXF1aXJlbWVudHMg
ZWxpY2l0YXRpb24gaW4gbGFyZ2Utc2NhbGUgc29mdHdhcmUgcHJvamVjdHM8L3RpdGxlPjxzZWNv
bmRhcnktdGl0bGU+UHJvY2VlZGluZ3Mgb2YgdGhlIDIwMDkgQUNNIHN5bXBvc2l1bSBvbiBBcHBs
aWVkIENvbXB1dGluZzwvc2Vjb25kYXJ5LXRpdGxlPjwvdGl0bGVzPjxwYWdlcz4xNDE5LTE0MjY8
L3BhZ2VzPjxkYXRlcz48eWVhcj4yMDA5PC95ZWFyPjwvZGF0ZXM+PHB1Ymxpc2hlcj5BQ008L3B1
Ymxpc2hlcj48aXNibj4xNjA1NTgxNjY2PC9pc2JuPjx1cmxzPjwvdXJscz48L3JlY29yZD48L0Np
dGU+PENpdGU+PEF1dGhvcj5DbGVsYW5kLUh1YW5nPC9BdXRob3I+PFllYXI+MjAwODwvWWVhcj48
UmVjTnVtPjM0PC9SZWNOdW0+PHJlY29yZD48cmVjLW51bWJlcj4zNDwvcmVjLW51bWJlcj48Zm9y
ZWlnbi1rZXlzPjxrZXkgYXBwPSJFTiIgZGItaWQ9Incyc3IyZXZ2eTl3c3Q5ZXA5c2Z4ZDl0anAw
OXBld2Y1dHgwYSI+MzQ8L2tleT48L2ZvcmVpZ24ta2V5cz48cmVmLXR5cGUgbmFtZT0iQ29uZmVy
ZW5jZSBQcm9jZWVkaW5ncyI+MTA8L3JlZi10eXBlPjxjb250cmlidXRvcnM+PGF1dGhvcnM+PGF1
dGhvcj5DbGVsYW5kLUh1YW5nLCBKYW5lPC9hdXRob3I+PGF1dGhvcj5Nb2Jhc2hlciwgQmFtc2hh
ZDwvYXV0aG9yPjwvYXV0aG9ycz48L2NvbnRyaWJ1dG9ycz48dGl0bGVzPjx0aXRsZT5Vc2luZyBk
YXRhIG1pbmluZyBhbmQgcmVjb21tZW5kZXIgc3lzdGVtcyB0byBzY2FsZSB1cCB0aGUgcmVxdWly
ZW1lbnRzIHByb2Nlc3M8L3RpdGxlPjxzZWNvbmRhcnktdGl0bGU+UHJvY2VlZGluZ3Mgb2YgdGhl
IDJuZCBpbnRlcm5hdGlvbmFsIHdvcmtzaG9wIG9uIFVsdHJhLWxhcmdlLXNjYWxlIHNvZnR3YXJl
LWludGVuc2l2ZSBzeXN0ZW1zPC9zZWNvbmRhcnktdGl0bGU+PC90aXRsZXM+PHBhZ2VzPjMtNjwv
cGFnZXM+PGRhdGVzPjx5ZWFyPjIwMDg8L3llYXI+PC9kYXRlcz48cHVibGlzaGVyPkFDTTwvcHVi
bGlzaGVyPjxpc2JuPjE2MDU1ODAyNjA8L2lzYm4+PHVybHM+PC91cmxzPjwvcmVjb3JkPjwvQ2l0
ZT48L0VuZE5vdGU+
ADDIN EN.CITE PEVuZE5vdGU+PENpdGU+PEF1dGhvcj5DYXN0cm8tSGVycmVyYTwvQXV0aG9yPjxZZWFyPjIwMDg8
L1llYXI+PFJlY051bT4zMzwvUmVjTnVtPjxEaXNwbGF5VGV4dD5bNC02XTwvRGlzcGxheVRleHQ+
PHJlY29yZD48cmVjLW51bWJlcj4zMzwvcmVjLW51bWJlcj48Zm9yZWlnbi1rZXlzPjxrZXkgYXBw
PSJFTiIgZGItaWQ9Incyc3IyZXZ2eTl3c3Q5ZXA5c2Z4ZDl0anAwOXBld2Y1dHgwYSI+MzM8L2tl
eT48L2ZvcmVpZ24ta2V5cz48cmVmLXR5cGUgbmFtZT0iQ29uZmVyZW5jZSBQcm9jZWVkaW5ncyI+
MTA8L3JlZi10eXBlPjxjb250cmlidXRvcnM+PGF1dGhvcnM+PGF1dGhvcj5DYXN0cm8tSGVycmVy
YSwgQ2FybG9zPC9hdXRob3I+PGF1dGhvcj5EdWFuLCBDaHVhbjwvYXV0aG9yPjxhdXRob3I+Q2xl
bGFuZC1IdWFuZywgSmFuZTwvYXV0aG9yPjxhdXRob3I+TW9iYXNoZXIsIEJhbXNoYWQ8L2F1dGhv
cj48L2F1dGhvcnM+PC9jb250cmlidXRvcnM+PHRpdGxlcz48dGl0bGU+VXNpbmcgZGF0YSBtaW5p
bmcgYW5kIHJlY29tbWVuZGVyIHN5c3RlbXMgdG8gZmFjaWxpdGF0ZSBsYXJnZS1zY2FsZSwgb3Bl
biwgYW5kIGluY2x1c2l2ZSByZXF1aXJlbWVudHMgZWxpY2l0YXRpb24gcHJvY2Vzc2VzPC90aXRs
ZT48c2Vjb25kYXJ5LXRpdGxlPkludGVybmF0aW9uYWwgUmVxdWlyZW1lbnRzIEVuZ2luZWVyaW5n
LCAyMDA4LiBSRSZhcG9zOzA4LiAxNnRoIElFRUU8L3NlY29uZGFyeS10aXRsZT48L3RpdGxlcz48
cGFnZXM+MTY1LTE2ODwvcGFnZXM+PGRhdGVzPjx5ZWFyPjIwMDg8L3llYXI+PC9kYXRlcz48cHVi
bGlzaGVyPklFRUU8L3B1Ymxpc2hlcj48aXNibj4wNzY5NTMzMDk0PC9pc2JuPjx1cmxzPjwvdXJs
cz48L3JlY29yZD48L0NpdGU+PENpdGU+PEF1dGhvcj5DYXN0cm8tSGVycmVyYTwvQXV0aG9yPjxZ
ZWFyPjIwMDk8L1llYXI+PFJlY051bT4zNTwvUmVjTnVtPjxyZWNvcmQ+PHJlYy1udW1iZXI+MzU8
L3JlYy1udW1iZXI+PGZvcmVpZ24ta2V5cz48a2V5IGFwcD0iRU4iIGRiLWlkPSJ3MnNyMmV2dnk5
d3N0OWVwOXNmeGQ5dGpwMDlwZXdmNXR4MGEiPjM1PC9rZXk+PC9mb3JlaWduLWtleXM+PHJlZi10
eXBlIG5hbWU9IkNvbmZlcmVuY2UgUHJvY2VlZGluZ3MiPjEwPC9yZWYtdHlwZT48Y29udHJpYnV0
b3JzPjxhdXRob3JzPjxhdXRob3I+Q2FzdHJvLUhlcnJlcmEsIENhcmxvczwvYXV0aG9yPjxhdXRo
b3I+RHVhbiwgQ2h1YW48L2F1dGhvcj48YXV0aG9yPkNsZWxhbmQtSHVhbmcsIEphbmU8L2F1dGhv
cj48YXV0aG9yPk1vYmFzaGVyLCBCYW1zaGFkPC9hdXRob3I+PC9hdXRob3JzPjwvY29udHJpYnV0
b3JzPjx0aXRsZXM+PHRpdGxlPkEgcmVjb21tZW5kZXIgc3lzdGVtIGZvciByZXF1aXJlbWVudHMg
ZWxpY2l0YXRpb24gaW4gbGFyZ2Utc2NhbGUgc29mdHdhcmUgcHJvamVjdHM8L3RpdGxlPjxzZWNv
bmRhcnktdGl0bGU+UHJvY2VlZGluZ3Mgb2YgdGhlIDIwMDkgQUNNIHN5bXBvc2l1bSBvbiBBcHBs
aWVkIENvbXB1dGluZzwvc2Vjb25kYXJ5LXRpdGxlPjwvdGl0bGVzPjxwYWdlcz4xNDE5LTE0MjY8
L3BhZ2VzPjxkYXRlcz48eWVhcj4yMDA5PC95ZWFyPjwvZGF0ZXM+PHB1Ymxpc2hlcj5BQ008L3B1
Ymxpc2hlcj48aXNibj4xNjA1NTgxNjY2PC9pc2JuPjx1cmxzPjwvdXJscz48L3JlY29yZD48L0Np
dGU+PENpdGU+PEF1dGhvcj5DbGVsYW5kLUh1YW5nPC9BdXRob3I+PFllYXI+MjAwODwvWWVhcj48
UmVjTnVtPjM0PC9SZWNOdW0+PHJlY29yZD48cmVjLW51bWJlcj4zNDwvcmVjLW51bWJlcj48Zm9y
ZWlnbi1rZXlzPjxrZXkgYXBwPSJFTiIgZGItaWQ9Incyc3IyZXZ2eTl3c3Q5ZXA5c2Z4ZDl0anAw
OXBld2Y1dHgwYSI+MzQ8L2tleT48L2ZvcmVpZ24ta2V5cz48cmVmLXR5cGUgbmFtZT0iQ29uZmVy
ZW5jZSBQcm9jZWVkaW5ncyI+MTA8L3JlZi10eXBlPjxjb250cmlidXRvcnM+PGF1dGhvcnM+PGF1
dGhvcj5DbGVsYW5kLUh1YW5nLCBKYW5lPC9hdXRob3I+PGF1dGhvcj5Nb2Jhc2hlciwgQmFtc2hh
ZDwvYXV0aG9yPjwvYXV0aG9ycz48L2NvbnRyaWJ1dG9ycz48dGl0bGVzPjx0aXRsZT5Vc2luZyBk
YXRhIG1pbmluZyBhbmQgcmVjb21tZW5kZXIgc3lzdGVtcyB0byBzY2FsZSB1cCB0aGUgcmVxdWly
ZW1lbnRzIHByb2Nlc3M8L3RpdGxlPjxzZWNvbmRhcnktdGl0bGU+UHJvY2VlZGluZ3Mgb2YgdGhl
IDJuZCBpbnRlcm5hdGlvbmFsIHdvcmtzaG9wIG9uIFVsdHJhLWxhcmdlLXNjYWxlIHNvZnR3YXJl
LWludGVuc2l2ZSBzeXN0ZW1zPC9zZWNvbmRhcnktdGl0bGU+PC90aXRsZXM+PHBhZ2VzPjMtNjwv
cGFnZXM+PGRhdGVzPjx5ZWFyPjIwMDg8L3llYXI+PC9kYXRlcz48cHVibGlzaGVyPkFDTTwvcHVi
bGlzaGVyPjxpc2JuPjE2MDU1ODAyNjA8L2lzYm4+PHVybHM+PC91cmxzPjwvcmVjb3JkPjwvQ2l0
ZT48L0VuZE5vdGU+
ADDIN EN.CITE.DATA [4-6]. در این میان تکنیکهای سنتی مهندسی نیازمندیها روشهایی اقتباس گردیده از مدلهای متمرکزی هستند که استفاده از این تکنیکها در سامانههای بزرگ مقیاس چالش برانگیز و زمانبر و گاهی ناممکن است.
در نتیجه لازم است تکنیکها و یا ابزارهای جدیدی در راستای پشتیبانی از سازمانها و یا سامانههای بزرگ مقیاس در استخراج نیازمندیها توسعه داده شوند که در این خصوص رهیافتهای جدید باید دارای قابلیت مقیاس پذیری بالایی باشند. در این راستا قصد داریم روشهای پرکاربرد موجود در استخراج نیازمندیها را اعم از روشهای سنتی، استفاده از ابزارها و روشهای نوین مورد بررسی و تجزیه و تحلیل قرار داده و مزایا و معایب هر روش را تشریح کنیم. سپس به تکنیکهای مورد استفاده در افزایش سطح رضایتمندی ذینفعان پرداخته تا بتوانیم در راستای اهداف تحقیق از آنها بهرهمند گردیم. در آخر با استفاده از تدبیری به ارائه چارچوبی جهت استخراج و اولویت بندی صحیح نیازمندیها در سازمانهای بزرگ مقیاس بپردازیم.
1-9 فرضیهنکته قابل توجه در بحث تعیین اندازه سازمان یا سامانه این است که معیارهای متفاوت و استانداردی در این مورد ذکر گردیده است. از جملهی این معیارها میتوان به تعداد خطوط برنامه، زمان، هزینه و غیره اشاره نمود. اما قابل ذکر است در این تحقیق منظور ما از سازمانها و یا سامانههای بزرگ مقیاس، آنهایی هستند که تعداد زیادی از ذینفعان را در بر میگیرند. ذینفعان افرادی هستند که به هر نحو سطوحی از تأثیرات روی نیازمندیهای آن سازمان و یا سامانه دارند. از نمونهی این سازمانها میتوان به مرکز مدیریت شهری 137 شهرداری تهران اشاره نمود که دارای پایگاه دادهای شامل میلیونها رکورد از نیازهای ثبت شده مردمی میباشد.
1-10 اهداف تحقیقاصلیترین اهدافی که این تحقیق پوشش میدهد، عبارتند از:
بررسی مراحل لازم در استخراج نیازمندیها
درک چگونگی برنامه ریزی و تعیین استراتژی استخراج نیازمندیها
بررسی تکنیکهای مطرح در استخراج نیازمندیها به همراه نقاط ضعف و قوت آنها
ارائه چارچوبی در استخراج و اولویت بندی نیازمندیها در سازمانها و یا سامانههای بزرگ مقیاس
ارزیابی چارچوب ارائه شده و بحث و نتیجه گیری
به طور کلی این پایان نامه از پنج فصل تشکیل شده است. در فصل اول مقدمهای بر مهندسی نیازمندیها و اولین و مهمترین فاز آن یعنی استخراج نیازمندیها ارائه خواهد شد. در فصل دوم به ادبیات موضوع و پیشینه تحقیق پرداخته خواهد شد. این تحقیقات شامل پر کاربردترین و رایجترین روشهای استخراج نیازمندیها در سه گروه 1. روشهای سنتی، 2. استفاده از ابزارها و 3. روشهای نوین استخراج نیازمندیها میباشد. در این فصل نیز تلاشهایی که در جهت افزایش سطح رضایتمندی ذینفعان صورت گرفته مطرح و همچنین در ارتباط با نقاط ضعف و قوت تمامی این روشها بحث خواهد گردید. در فصل سوم به ارائه چارچوب پیشنهادی در ارتباط با استخراج و اولویت بندی نیازمندیها در سازمانهای بزرگ مقیاس به زبان فارسی مبتنی بر نیازمندیهای عملیاتی و غیر عملیاتی پرداخته و در فصل چهارم در ارتباط با محاسبات و یافتههای تحقیق به روش مطالعه میدانی و کتابخانهای بحث خواهد گردید. در فصل آخر یعنی فصل پنجم به نتیجه گیری و پیشنهادات آتی پرداخته خواهد شد. پس از آن در پیوست، منابع و مآخذ و ضمایم همچنین چکیده انگلیسی قابل دسترس است.
431482527749500271780119634000431292054610فصل دوم
00فصل دوم
160655139700ادبیات و پیشینه تحقیق
00ادبیات و پیشینه تحقیق
فصل دومادبیات و پیشینه تحقیق
2-1 مقدمهامروزه میزان دادههای در دسترس هر پنج سال دو برابر میشود و سازمانی تواناست که قادر باشد کمتر از 7% از اطلاعاتش را مدیریت نماید. بر اساس تحقیقات شرکت IBM سازمانها کمتر از 1% از دادههایشان را برای تحلیل استفاده مینمایند. سازمانها دادههای تجاری زیادی را در تصرف خود دارند، در حالی که هنوز با فقدان دانش تجاری مواجه هستند. تقسیم بندی مشتریان، افزایش رضایت آنها و یا حتی بدست آوردن سهم بیشتری از بازار نسبت به رقبا با استفاده از ابزارهای داده کاوی از کاربردهای آن میباشد ADDIN EN.CITE <EndNote><Cite><Author>باقرزاده</Author><Year>1389</Year><RecNum>42</RecNum><DisplayText>[7]</DisplayText><record><rec-number>42</rec-number><foreign-keys><key app=”EN” db-id=”w2sr2evvy9wst9ep9sfxd9tjp09pewf5tx0a”>42</key></foreign-keys><ref-type name=”Book”>6</ref-type><contributors><authors><author><style face=”normal” font=”default” charset=”178″ size=”100%”>فاطمه باقرزاده</style></author></authors></contributors><titles><title><style face=”normal” font=”default” charset=”178″ size=”100%”>داده کاوی و کشف دانش در </style><style face=”normal” font=”Arial” size=”100%”>Microsoft SQL Server2008</style></title></titles><dates><year><style face=”normal” font=”default” charset=”178″ size=”100%”>1389</style></year></dates><publisher><style face=”normal” font=”default” charset=”178″ size=”100%”>اندیشه سرا</style></publisher><urls></urls></record></Cite></EndNote>[7]. با استفاده از داده کاوی میتوان به دانشی دست یافت که خود انسان قرنها بعد این دانش را کسب خواهد کرد. در حقیقت داده کاوی در زمینههای متعددی از قبیل پزشکی، بورس اوراق بهادار، هواشناسی، بازاریابی، تشخیص کلاهبرداریهای بانکی و بیمهای، تجارت الکترونیک و … وجود دارد. خروجی همهی این زمینهها بر این اصل صحه میگذارد که انسان به دلایل مختلف اعم از سرعت پردازشی، جهل دادهای، چگونگی پردازش و … نمیتواند نظمهای پیچیده موجود در نهان دادههای حجیم را شناسایی نماید ADDIN EN.CITE <EndNote><Cite><Author>آباده</Author><Year>1391</Year><RecNum>40</RecNum><DisplayText>[8]</DisplayText><record><rec-number>40</rec-number><foreign-keys><key app=”EN” db-id=”w2sr2evvy9wst9ep9sfxd9tjp09pewf5tx0a”>40</key></foreign-keys><ref-type name=”Book”>6</ref-type><contributors><authors><author><style face=”normal” font=”default” charset=”178″ size=”100%”>محمد صنیعی آباده</style></author></authors></contributors><titles><title><style face=”normal” font=”default” charset=”178″ size=”100%”>داده کاوی کاربردی</style></title></titles><dates><year><style face=”normal” font=”default” charset=”178″ size=”100%”>1391</style></year></dates><publisher><style face=”normal” font=”default” charset=”178″ size=”100%”>نیاز دانش</style></publisher><urls></urls></record></Cite></EndNote>[8]. در محیط امروزی، سازمانهای بسیاری در تلاش هستند که فلج اطلاعات را شکست بدهند. در این راستا داده کاوی سازمانی به عنوان یک ابزاری میباشد که مدیران را قادر میسازد تا سریعتر نسبت به آینده عمل نمایند، فعال باشند نسبت به اینکه واکنش پذیر باشند، بدانند تا اینکه حدس بزنند. پر واضح است که با داشتن این قابلیت، سازمانها قادرند دانش ارزشمندی را از دادههایشان بدست آورند ADDIN EN.CITE <EndNote><Cite><Author>شهرابی</Author><Year>1386</Year><RecNum>48</RecNum><DisplayText>[9]</DisplayText><record><rec-number>48</rec-number><foreign-keys><key app=”EN” db-id=”w2sr2evvy9wst9ep9sfxd9tjp09pewf5tx0a”>48</key></foreign-keys><ref-type name=”Conference Paper”>47</ref-type><contributors><authors><author><style face=”normal” font=”default” charset=”178″ size=”100%”>جمال شهرابی</style></author></authors></contributors><titles><title><style face=”normal” font=”default” charset=”178″ size=”100%”>مروری بر مفاهیم، وظایف و فرایند داده کاوی سازمانی</style></title><secondary-title><style face=”normal” font=”default” charset=”178″ size=”100%”>اولین کنفرانس داده کاوی ایران</style></secondary-title></titles><dates><year><style face=”normal” font=”default” charset=”178″ size=”100%”>1386</style></year></dates><pub-location><style face=”normal” font=”default” charset=”178″ size=”100%”>دانشگاه امیر کبیر</style></pub-location><urls></urls></record></Cite></EndNote>[9]. در واقع علم داده کاوی انسان را قادر میسازد که حجم عظیمی از دادهها را مورد پردازش عمیق قرار دهد و کلیه نظمهایی را که در عمق داده وجود دارند، همچون طلا در یک معدن طلا، به صورت دانشی با ارزش کشف کرده و جهت استفاده عرضه نماید ADDIN EN.CITE <EndNote><Cite><Author>آباده</Author><Year>1391</Year><RecNum>40</RecNum><DisplayText>[8]</DisplayText><record><rec-number>40</rec-number><foreign-keys><key app=”EN” db-id=”w2sr2evvy9wst9ep9sfxd9tjp09pewf5tx0a”>40</key></foreign-keys><ref-type name=”Book”>6</ref-type><contributors><authors><author><style face=”normal” font=”default” charset=”178″ size=”100%”>محمد صنیعی آباده</style></author></authors></contributors><titles><title><style face=”normal” font=”default” charset=”178″ size=”100%”>داده کاوی کاربردی</style></title></titles><dates><year><style face=”normal” font=”default” charset=”178″ size=”100%”>1391</style></year></dates><publisher><style face=”normal” font=”default” charset=”178″ size=”100%”>نیاز دانش</style></publisher><urls></urls></record></Cite></EndNote>[8]. در این فصل با مقدمات علم داده کاوی آشنا خواهیم شد و پس از آن به بررسی روشها و تکنیکهای استخراج نیازمندیها پرداخته و در آخر سعی داریم پس از بررسی نقاط قوت و ضعف این روشها بخصوص در زبان فارسی به تبیین راهکار پیشنهادی خود بپردازیم.
2-2 انگیزههای کاوش دادهبا توجه به مطالب مطرح شده، شاید بتوان اولین انگیزه کاوش داده را رشد روز افزون آن دانست. در واقع رشد داده به حدی است که تنها در صورت وجود ابزار مکانیزه برای بررسی آن میتوان امیدوار به استفاده از آن بود. زیرا در غیر اینصورت همزمان با تحلیل حجم کوچکی داده، حجم بسیار زیادی از همان داده در حال تولید شدن است که هرگز فرصتی برای کاوش آن وجود نخواهد داشت. به علاوه مشکلاتی دیگر که در ادامه اشاره شدهاند وجود خواهند داشت:
معمولاً دانشی که در دادهها وجود دارد خیلی بدیهی، روشن و واضح نیست.
تحلیلگران انسانی ممکن است هفتهها برای کشف اطلاعات با ارزش از داده وقت صرف کنند و گاهی اوقات ممکن است با صرف زمان زیادی لزوماً موفق هم نشوند.
گاهی اوقات با وجود امکان جمع آوری داده، این کار انجام نمیشود. دلیل عدم جمع آوری داده معمولاً عدم وجود دانش برای جمع آوری آن است. اینکه داده سرمایه یک سازمان است خود دانشی مهم و با ارزش است که همیشه وجود ندارد ADDIN EN.CITE <EndNote><Cite><Author>آباده</Author><Year>1391</Year><RecNum>40</RecNum><DisplayText>[8]</DisplayText><record><rec-number>40</rec-number><foreign-keys><key app=”EN” db-id=”w2sr2evvy9wst9ep9sfxd9tjp09pewf5tx0a”>40</key></foreign-keys><ref-type name=”Book”>6</ref-type><contributors><authors><author><style face=”normal” font=”default” charset=”178″ size=”100%”>محمد صنیعی آباده</style></author></authors></contributors><titles><title><style face=”normal” font=”default” charset=”178″ size=”100%”>داده کاوی کاربردی</style></title></titles><dates><year><style face=”normal” font=”default” charset=”178″ size=”100%”>1391</style></year></dates><publisher><style face=”normal” font=”default” charset=”178″ size=”100%”>نیاز دانش</style></publisher><urls></urls></record></Cite></EndNote>[8]!
2-2-1 انگیزههای تجاریهنگامیکه میخواهیم دادهها را از بعد تجاری مورد پردازش قرار دهیم نیاز به دادههایی داریم که ماهیت تجاری داشته باشند. به طور کلی سه منبع برای جمع آوری دادههای تجاری وجود دارند که عبارتند از: دادههای وب و دادههای تجارت الکترونیک، خرید و فروشهای موجود در فروشگاههای خواربار فروشی/سوپر مارکتهای زنجیرهای و تراکنشهای بانکی/تراکنشهای کارتهای اعتباری.
به طور کلی منظور از دادههای وب یا تجارت الکترونیک، دادههای معمولی مثلاً دادههای حاصل از جستجوهای معمولی نیست بلکه منظور از این دادهها تراکنشهایی است که همه روزه در اینترنت انجام شده و ثبت میشوند و از آنجایی که این دادهها زیاد هستند ثبت آنها وقت زیادی میگیرد. تعدادی از این دادهها عبارتند از: خرید و فروش بلیطهای هواپیما، قطار، پرداخت قبوض و …
خرید و فروشهای موجود در فروشگاههای خواربار فروشی/سوپر مارکتهای زنجیرهای نوع مهم دیگری از دادههای تجاری هستند. منظور از این دادهها خرید و فروشهایی هستند که همه روزه در فروشگاهها انجام میشود و شامل کالاهایی است که در سبد خرید مشتریهای مختلف صورت میگیرد.
تراکنشهای بانکی/تراکنشهای کارتهای اعتباری از دیگر دادههای تجاری میباشند که حجم عظیمی از دادهها را به صورت روزانه شامل میشوند. منظور از این دادهها، دادههای مربوط به عملیات بانکی است که همه روزه توسط مشتریان مختلفی که به یک بانک مراجعه میکنند، انجام شده و ثبت میشوند. به عنوان مثال اطلاعات مربوط به اینکه یک مشتری پول به حساب خود واریز کرده، پول از حساب خود برداشت کرده و … در سیستم ثبت میشود و از آنها به عنوان دادههای مربوط به تراکنشهای بانکی یاد میشود. همچنین تراکنشهای مربوط به کارتهای اعتباری در این مجموعه داده قرار میگیرند، به عنوان مثال هر فردی که کارتهای خود را وارد سیستم نموده و قصد انجام عملیاتی را دارد اطلاعات مربوط به آن مشتری، کالا(هایی) را که قصد خرید آن(ها) را دارد، زمانی که در حال خرید است، در سیستم ثبت میشود و از آنها به عنوان دادههای مربوط به تراکنشهای کارتهای اعتباری استفاده میشود.
در واقع هدف اصلی از پردازش دادههای تجاری دستیابی به سود بیشتر است. به عنوان مثال اگر دادههایمان از نوع دادههای وب یا دادههای تجارت الکترونیک باشند، میتوان از نتایج پردازش این دادهها در طراحی ساختار صفحات وب و ایجاد تکنولوژیهایی که سود آوری بیشتری دارند استفاده کرد. اگر دادههای مربوط به سبد خرید مشتریان را مورد پردازش قرار دهیم میتوانیم کالاهایی را که فروششان بیشتر است را شناسایی کنیم و آن کالاها را به میزان بیشتری برای سوپر مارکت تهیه نماییم و یا اینکه میتوانیم بفهمیم کدام کالاها معمولاً به همراه یکدیگر خریداری میشوند و در نتیجه آن کالاها را در چیدمان فروشگاه در کنار هم قرار دهیم تا خرید آنها برای مشتری راحتتر شده و مشتری برای خرید اجناس خود کمتر در فروشگاه حرکت کند و به این ترتیب رضایت مشتری بیشتر جلب شود. اگر تراکنشهای بانکی را پردازش میتوانیم اعتبار مشتریهای مختلف را بسنجیم و روی مشتریانی که ارزش سرمایه گذاری دارند سرمایه گذاری کنیم. به عنوان مثال به مشتریانی که اعتبار بالاتری دارند وام بدهیم و به این مشتریان برای سرمایه گذاری اعتماد کنیم.
در حوزه داده کاوی، شاخه علمی که بر روی بهبود سرویس دهی به مشتری تمرکز میکند با نام مدیریت ارتباط با مشتری شناخته میشود. هدف اصلی در این علم آن است که بتوانیم مشتریها را اعتبار سنجی کنیم و بر اساس آن یک فرایندی را ایجاد کنیم که در این فرایند به آن دسته از مشتریان که اعتبار بیشتری دارند، سرویسهای بیشتر و به مشتریانی که اعتبار کمتری دارند سرویس کمتری را ارائه بدهیم. هدف در داده کاوی این است که این فرایند اعتبار سنجی به صورت مکانیزه و هوشمند انجام شود ADDIN EN.CITE <EndNote><Cite><Author>آباده</Author><Year>1391</Year><RecNum>40</RecNum><DisplayText>[8]</DisplayText><record><rec-number>40</rec-number><foreign-keys><key app=”EN” db-id=”w2sr2evvy9wst9ep9sfxd9tjp09pewf5tx0a”>40</key></foreign-keys><ref-type name=”Book”>6</ref-type><contributors><authors><author><style face=”normal” font=”default” charset=”178″ size=”100%”>محمد صنیعی آباده</style></author></authors></contributors><titles><title><style face=”normal” font=”default” charset=”178″ size=”100%”>داده کاوی کاربردی</style></title></titles><dates><year><style face=”normal” font=”default” charset=”178″ size=”100%”>1391</style></year></dates><publisher><style face=”normal” font=”default” charset=”178″ size=”100%”>نیاز دانش</style></publisher><urls></urls></record></Cite></EndNote>[8].
2-2-2 انگیزههای علمیهنگامیکه میخواهیم دادهها را از بعد علمی مورد پردازش قرار دهیم نیاز به دادههایی داریم که ماهیت علمی داشته باشند. به طور کلی چهار منبع عمده برای جمع آوری دادههای علمی در حجمهای بالا وجود دارند که عبارتند از: تصاویر ارسالی از طریق ماهوارهها، تصاویر ارسالی از تلسکوپها، دادههای دنباله ژنی و دادههای حاصل از شبیه سازی علمی.
دادهها و تصاویر ارسالی از ماهوارهها شامل تصاویری میباشند که از طریق حسگرهای نصب شده بر روی ماهوارهها، همه روزه در حجم بسیار بالا به زمین مخابره میشوند. این دادهها و تصاویر از طریق سیگنالهای ماهوارهای که در مکانی در مدار زمین قرار دارد، منتقل میشوند.
تلسکوپها نیز همه روزه تصاویری را از زمین میگیرند. این تصاویر به صورت روزانه از طریق تلسکوپها ارسال میشوند و شامل اطلاعات بسیار زیادی هستند.
دادههای دنباله ژنی، حاصل توصیف دنباله ژنی افراد مختلف میباشند و یکی از منابع دادهای بسیار مشهور با ماهیت علمی هستند. تکنیکهای میکرو آرایه، دادههای دنباله ژنی مربوط به یک بافت خاص را استخراج میکنند. این تکنیکها با پردازش نوآورانهای که روی بافت خاص از یک شخص (مثلاً کبد، معده، خون و …) انجام میدهند میتوانند یک دنباله ژنی منحصر به آن بافت را پیدا کنند که آن دنباله ژنی حاوی اطلاعات بسیاری است و تعداد زیادی ویژگی ایجاد میکند. عموماً این اعداد و ویژگیها در تشخیص بیماری افراد، کمک قابل ملاحظهای میکنند.
دادههای حاصل از شبیه سازی علمی منبع مهم دیگری از دادههای علمی هستند. منظور از شبیه سازی علمی مدل سازی یک سیستم در ابعاد کوچکتر است. شبیه سازی وقتی مورد استفاده قرار میگیرد که ما بتوانیم مکانیزم حاکم بر آن سیستم و محیط را به صورت یک مجموعه از قوانین بدانیم. ما میتوانیم سیستمها و محیطهای زیادی را شبیه سازی کنیم و اگر یک محیط شبیه سازی شده داشته باشیم، میتوانیم آزمایشهای مختلفی را بر روی آن انجام دهیم و دادههای زیادی را تولید کنیم که این دادهها میتوانند اطلاعات زیادی را به ما منتقل دهند. به عنوان مثال میتوانیم بدن یک انسان را شبیه سازی نموده و داروهای مختلف را روی آن امتحان کنیم و نتایج حاصل از آزمایشات را بدست آوریم. بخصوص اگر این آزمایشات هزینههای سنگینی داشته باشند، شبیه سازی و نتایج حاصل از آن بسیار با ارزش خواهند بود. شبیه سازی در محیطهای مختلف متفاوت است. چند نمونه از شبیه سازی عبارتند از: شبیه سازی یک آزمایش هستهای، شبیه سازی زلزله و … به طور کلی این شبیه سازیهای علمی دادههای بسیار حجیمی را فراهم میکنند.
وقتی دادهها از نوع علمی باشند، معمولاً نتیجه مستقیم کاوش دادههای علمی لزوماً به سود بیشتر منجر نمیشود، اما بیشتر اوقات منجر به ایجاد دانش جدید، دستاوردهای جدید و نیز باعث خدمت رسانی بیشتر به افراد و یا کشف حقایق خواهد شد. بنابراین میتوان نتیجه گرفت که انگیزه اصلی در پردازش دادههای علمی کمک به بسط و گسترش مرزهای دانش بشری در یک حوزه خاص میباشد ADDIN EN.CITE <EndNote><Cite><Author>آباده</Author><Year>1391</Year><RecNum>40</RecNum><DisplayText>[8]</DisplayText><record><rec-number>40</rec-number><foreign-keys><key app=”EN” db-id=”w2sr2evvy9wst9ep9sfxd9tjp09pewf5tx0a”>40</key></foreign-keys><ref-type name=”Book”>6</ref-type><contributors><authors><author><style face=”normal” font=”default” charset=”178″ size=”100%”>محمد صنیعی آباده</style></author></authors></contributors><titles><title><style face=”normal” font=”default” charset=”178″ size=”100%”>داده کاوی کاربردی</style></title></titles><dates><year><style face=”normal” font=”default” charset=”178″ size=”100%”>1391</style></year></dates><publisher><style face=”normal” font=”default” charset=”178″ size=”100%”>نیاز دانش</style></publisher><urls></urls></record></Cite></EndNote>[8].
2-3 چالشهای داده کاویشاید بتوان مهمترین نقاط ضعف روشهای داده کاوی را در سه مورد خلاصه نمود: وجود داده، صحت داده و کافی بودن ویژگیها. منظور از وجود داده این است که اصولاً دادهای برای کاوش وجود داشته باشد و اینگونه نباشد که داده در محیط مورد کاوش استخراج و یا ثبت نشده باشد. متأسفانه این مشکل در بسیاری از محیطهای واقعی وجود دارد. صحت داده مبین آن است که داده جمع آوری شده صحیح بوده و نادرستی در آن وجود نداشته باشد. به عنوان مثال نباید جنسیت شخصی با نام “محسن” زن وارد شده باشد و یا اشتباهات دیگری که دلیل وجودی آنها خطا در ورود داده است، رخ دهد. کافی بودن ویژگیها بدین معناست که ویژگیهای اخذ شده برای هر رکورد یا شئ برای یادگیری مدل و یا کشف نظم حاکم بر داده موثر، مناسب و کافی باشند. به عنوان مثال اگر هدف ما یادگیری یک مدل دسته بندی کننده برای تشخیص بیماری دیابت است، ثبت ویژگی قند خون بسیار مهم است در حالی که ثبت ویژگی میزان تحصیلات اهمیتی ندارد. توجه داشته باشید اگر هر کدام از مشکلات سهگانه فوق در داده وجود داشته باشد، هیچ یک از الگوریتمهای داده کاوی، هر قدر هم که توانا باشند، نخواهند توانست نظم حاکم بر داده را تحت هیچ شرایطی بیابند.
در داده کاوی میتوان چالشها را به دو گروه اولیه و ثانویه تقسیم نمود. در ادامه به بررسی هر کدام از این دو گروه میپردازیم.
2-3-1 چالشهای اولیهچالشهای اولیه که انگیزه مهم بکار گیری فرایند داده کاوی به جای روشهای سنتی تحلیل دادهها هستند عبارتند از: حجیم بودن دادهها، ابعاد بالای دادهها، طبیعت توزیع شده و ناهمگن دادهها. در ادامه به بررسی هرکدام از این چالشها میپردازیم ADDIN EN.CITE <EndNote><Cite><Author>آباده</Author><Year>1391</Year><RecNum>40</RecNum><DisplayText>[8]</DisplayText><record><rec-number>40</rec-number><foreign-keys><key app=”EN” db-id=”w2sr2evvy9wst9ep9sfxd9tjp09pewf5tx0a”>40</key></foreign-keys><ref-type name=”Book”>6</ref-type><contributors><authors><author><style face=”normal” font=”default” charset=”178″ size=”100%”>محمد صنیعی آباده</style></author></authors></contributors><titles><title><style face=”normal” font=”default” charset=”178″ size=”100%”>داده کاوی کاربردی</style></title></titles><dates><year><style face=”normal” font=”default” charset=”178″ size=”100%”>1391</style></year></dates><publisher><style face=”normal” font=”default” charset=”178″ size=”100%”>نیاز دانش</style></publisher><urls></urls></record></Cite></EndNote>[8].
حجم بالای دادهها: الگوریتمهای داده کاوی با تعداد زیادی رکورد کار میکنند و حجم زیادی از دادهها را پردازش میکنند. به طور کلی هرچه تعداد رکوردهای موجود بیشتر باشد باعث میشود روشهای سنتی نتوانند این رکوردها را پردازش نمایند. اگر تعداد رکوردها کم باشد فرایند تحلیل آنها بسیار ساده است و معمولاً احتیاج به روشهای داده کاوی نیست. هرچه تعداد رکوردها بیشتر باشد باعث میشود علم داده کاوی بتواند کارکرد درخشانتری داشته باشد.
ابعاد بالای دادهها: منظور از بعد همان فیلد یا ویژگی (خصیصه) میباشد. به طور کلی هرچه تعداد ویژگیها بیشتر باشد، باعث خواهد شد که تحلیل دادهها مشکلتر شود. هرچه تعداد ویژگیهای موجود در دادهها بیشتر باشد، نمیتوان با استفاده از روشهای سنتی بین آنها نظمی پیدا کرد. این در حالی است که در اینگونه مواقع الگوریتمهای داده کاوی میتوانند اثر بخشی و توان بالقوهای که دارا هستند را نشان بدهند.
طبیعت توزیع شده دادهها: به طور کلی طبیعت توزیع شده دادهها و وجود دادهها در منابع پراکنده باعث میشود نتوانیم از روشهای سنتی برای پردازش دادهها استفاده کنیم. در این مواقع به روشهای داده کاوی نیاز داریم. این روشها باید قادر باشند دادههایی را که در مکانهای مختلف ذخیره شدهاند، به گونهای مدیریت کنند که دانش نهفته را از نهان این دادههای پراکنده و توزیع شده استخراج کنند.
طبیعت ناهمگن دادهها: در انباره دادهای که به عنوان مخزن فرایند داده کاوی عمل میکند، انواع مختلفی از ویژگیها وجود دارد. هر ویژگی محدوده مقادیر مشخص و ویژهای اختیار میکند. کمینه و بیشینه مقادیر مربوط به بعضی ویژگیها با هم فرق دارند. بعضی ویژگیها حوزه مقداری بسیار وسیع و بعضی دیگر حوزه محدودی دارند. در این مواقع میتوان از مباحث نرمال سازی برای بخورد با این مشکل استفاده کرد. اما مسائل دیگری در ارتباط با ویژگیها نیز وجود دارد. به عنوان مثال بعضی ویژگیها عددی (صحیح یا حقیقی) هستند، بعضی دودویی، بعضی دیگر اسمی (مانند رنگ چشم) هستند. بعضی از ویژگیها نیز به گونهای هستند که در مورد آنها تنها میتوان گفت آیا با هم مساوی هستند یا خیر(مانند رنگ چشم)، گونهای دیگر از ویژگیها به این شکلاند که در مورد آنها علاوه بر مساوی و نامساوی بودن میتوان کوچکتر یا بزرگتر بودن آنها را نیز تعیین کرد (مانند سطح تحصیلات)، در مورد برخی دیگر از ویژگیها علاوه بر مساوی و نامساوی بودن، کوچکتری و بزرگتری، میتوان از عملگرهای جمع و تفریق نیز استفاده نمود ( مانند تاریخهای تقویم) و در نهایت در مورد گروهی دیگر از ویژگیها علاوه بر مساوی و نامساوی، کوچکتری و بزرگتری، جمع و تفریق میتوان عملگرهای ضرب و تقسیم را نیز بکار برد (مانند قد و وزن). در نتیجه به دلیل تنوع بالای ماهیت ویژگیها نمیتوان از روشهای سنتی برای پردازش دادهها استفاده نمود.
2-3-2 چالشهای ثانویهچالشهای ثانویه به آن دسته از چالشهایی گفته میشود که در قیاس با چالشها اولیه از اهمیت کمتری برخوردارند. البته میبایست توجه نمود، این امر بدان معنا نخواهد بود که اهمیت این چالشها پایین است و یا حل مشکلات مربوط به آنها کار ساده و کم تأثیری است. در ادامه به بررسی این چالشها میپردازیم ADDIN EN.CITE <EndNote><Cite><Author>آباده</Author><Year>1391</Year><RecNum>40</RecNum><DisplayText>[8]</DisplayText><record><rec-number>40</rec-number><foreign-keys><key app=”EN” db-id=”w2sr2evvy9wst9ep9sfxd9tjp09pewf5tx0a”>40</key></foreign-keys><ref-type name=”Book”>6</ref-type><contributors><authors><author><style face=”normal” font=”default” charset=”178″ size=”100%”>محمد صنیعی آباده</style></author></authors></contributors><titles><title><style face=”normal” font=”default” charset=”178″ size=”100%”>داده کاوی کاربردی</style></title></titles><dates><year><style face=”normal” font=”default” charset=”178″ size=”100%”>1391</style></year></dates><publisher><style face=”normal” font=”default” charset=”178″ size=”100%”>نیاز دانش</style></publisher><urls></urls></record></Cite></EndNote>[8].
کیفیت داده: مربوط به زمانی است که کیفیت دادهها پایین است. به عنوان نمونه هنگامی که دادههای ما شامل نویز، داده پرت، داده گمشده و داده تکرار شده باشد، شاهد پایین آمدن کیفیت دادهها خواهیم بود.
عدم مالکیت داده: به دلایل گوناگون مانند توزیعشدگی ممکن است نتوانیم کل دادهها را یکجا در مالکیت داشته باشیم و فرایند کاوش را روی آنها انجام دهیم.
حفظ حریم شخصی دادهها: مربوط به زمانی است که باید با رعایت حریم شخصی، دادهها را کاوش نماییم. فرایند کاوش داده میبایست به گونهای انجام شود که بتوان بدون دسترسی به همه دادهها و با دیدن تنها بخش محدودی از آن فرایند داده کاوی را پیش برد. تفاوت حفظ حریم شخصی دادهها با توزیعشدگی و عدم مالکیت داده در این است که در توزیعشدگی و عدم مالکیت داده ممکن است برای یادگیری مدل از همه دادهها استفاده شود ولی در اینجا ممکن است به بخشی از دادهها اصلاً دسترسی وجود نداشته باشد، یعنی باید بتوانیم مدل خود را با همان دادههای در دسترس بسازیم.
دادههای جریانی: به دادههای گفته میشود که سرعت تولید آنها بالاست به گونهای که فرصت تحلیل آنها و ساخت مدل وجود ندارد چرا که حین انجام عملیات کاوش مرتباً دادههای جدیدی تولید میشوند. بنابراین سیستم باید بصورت برخط باشد تا بتواند خودش را تصحیح کند و قادر باشد مدل بروزی را در اختیار قرار دهد.
2-4 مروری بر کشف دانش و داده کاوی
کشف دانش و داده کاوی یک حوزه جدید میان رشتهای و در حال رشد است که حوزههای مختلفی همچون پایگاه داده، آمار، یادگیری ماشین و سایر زمینههای مرتبط را با هم تلفیق کرده تا اطلاعات و دانش ارزشمند نهفته در حجم بزرگی از دادهها را استخراج نماید. با رشد سریع کامپیوتر و استفاده از آن در دو دهه اخیر تقریباً همه سازمانها حجم عظیمی داده در پایگاه داده خود ذخیره کردهاند. این سازمانها به فهم این دادهها و یا کشف دانش مفید از آنها نیاز دارند ADDIN EN.CITE <EndNote><Cite><Author>شهرابی</Author><Year>1386</Year><RecNum>48</RecNum><DisplayText>[9]</DisplayText><record><rec-number>48</rec-number><foreign-keys><key app=”EN” db-id=”w2sr2evvy9wst9ep9sfxd9tjp09pewf5tx0a”>48</key></foreign-keys><ref-type name=”Conference Paper”>47</ref-type><contributors><authors><author><style face=”normal” font=”default” charset=”178″ size=”100%”>جمال شهرابی</style></author></authors></contributors><titles><title><style face=”normal” font=”default” charset=”178″ size=”100%”>مروری بر مفاهیم، وظایف و فرایند داده کاوی سازمانی</style></title><secondary-title><style face=”normal” font=”default” charset=”178″ size=”100%”>اولین کنفرانس داده کاوی ایران</style></secondary-title></titles><dates><year><style face=”normal” font=”default” charset=”178″ size=”100%”>1386</style></year></dates><pub-location><style face=”normal” font=”default” charset=”178″ size=”100%”>دانشگاه امیر کبیر</style></pub-location><urls></urls></record></Cite></EndNote>[9].
همانطور که الکترونها و امواج موضوع اصلی مهندسی برق شدند، دادهها، اطلاعات و دانش نیز موضوع اصلی حوزه جدیدی از تحقیق و کاربرد به نام کشف دانش و داده کاوی یا به اختصار KDD هستند ADDIN EN.CITE <EndNote><Cite><Author>غضنفری</Author><Year>1387</Year><RecNum>49</RecNum><DisplayText>[10]</DisplayText><record><rec-number>49</rec-number><foreign-keys><key app=”EN” db-id=”w2sr2evvy9wst9ep9sfxd9tjp09pewf5tx0a”>49</key></foreign-keys><ref-type name=”Book”>6</ref-type><contributors><authors><author><style face=”normal” font=”default” charset=”178″ size=”100%”>مهدی غضنفری</style></author></authors><secondary-authors><author><style face=”normal” font=”default” charset=”178″ size=”100%”>چاپ دوم</style></author></secondary-authors></contributors><titles><title><style face=”normal” font=”default” charset=”178″ size=”100%”>داده کاوی و کشف دانش</style></title></titles><dates><year><style face=”normal” font=”default” charset=”178″ size=”100%”>1387</style></year></dates><pub-location><style face=”normal” font=”default” charset=”178″ size=”100%”>تهران</style></pub-location><publisher><style face=”normal” font=”default” charset=”178″ size=”100%”>دانشگاه علم و صنعت ایران</style></publisher><urls></urls></record></Cite></EndNote>[10].
به طور کلی، دادهها رشتهای از بیتها (به صورت صفر و یک) یا اعداد و نشانهها و یا اشیاء هستند که وقتی در فرمتی مشخص به یک برنامه ارسال میشوند، معنا مییابند ولی هنوز تفسیر نشدهاند. اطلاعات، دادهای است که موارد افزونه یا زایدش حذف شده است و به حداقل ممکنی که برای تصمیم گیری لازم است، تقلیل یافتهاند و حال دادهها تفسیر شدهاند. دانش، اطلاعات تلفیق شدهای است که شامل حقایق و روابط میان آنهاست. دانش در واقع به عنوان تصاویر ذهنی ما درک، کشف یا فراگیری شده است. به عبارت دیگر میتوان دانش را همان دادههایی فرض کرد که در بالاترین سطح تعمیم قرار گرفتهاند ADDIN EN.CITE <EndNote><Cite><Author>غضنفری</Author><Year>1387</Year><RecNum>49</RecNum><DisplayText>[10]</DisplayText><record><rec-number>49</rec-number><foreign-keys><key app=”EN” db-id=”w2sr2evvy9wst9ep9sfxd9tjp09pewf5tx0a”>49</key></foreign-keys><ref-type name=”Book”>6</ref-type><contributors><authors><author><style face=”normal” font=”default” charset=”178″ size=”100%”>مهدی غضنفری</style></author></authors><secondary-authors><author><style face=”normal” font=”default” charset=”178″ size=”100%”>چاپ دوم</style></author></secondary-authors></contributors><titles><title><style face=”normal” font=”default” charset=”178″ size=”100%”>داده کاوی و کشف دانش</style></title></titles><dates><year><style face=”normal” font=”default” charset=”178″ size=”100%”>1387</style></year></dates><pub-location><style face=”normal” font=”default” charset=”178″ size=”100%”>تهران</style></pub-location><publisher><style face=”normal” font=”default” charset=”178″ size=”100%”>دانشگاه علم و صنعت ایران</style></publisher><urls></urls></record></Cite></EndNote>[10].
متخصصانی که از حوزههای مختلف به رشد این موضوع جدید کمک میکنند، فهم متفاوتی از عبارات کشف دانش و داده کاوی دارند. تعریف مورد نظر در این تحقیق به شرح زیر است:
کشف دانش از پایگاه دادهها در واقع فرایند تشخیص الگوها و مدلها موجود در دادههاست. الگوها و مدلهایی که معتبر، بدیع، بالقوه مفید و کاملاً قابل فهم هستند. داده کاوی مرحلهای از فرایند کشف دانش است که با کمک الگوریتمهای خاص داده کاوی و با کارایی قابل قبول محاسباتی، الگوها یا مدلها را در دادهها پیدا میکند ADDIN EN.CITE <EndNote><Cite><Author>غضنفری</Author><Year>1387</Year><RecNum>49</RecNum><DisplayText>[10]</DisplayText><record><rec-number>49</rec-number><foreign-keys><key app=”EN” db-id=”w2sr2evvy9wst9ep9sfxd9tjp09pewf5tx0a”>49</key></foreign-keys><ref-type name=”Book”>6</ref-type><contributors><authors><author><style face=”normal” font=”default” charset=”178″ size=”100%”>مهدی غضنفری</style></author></authors><secondary-authors><author><style face=”normal” font=”default” charset=”178″ size=”100%”>چاپ دوم</style></author></secondary-authors></contributors><titles><title><style face=”normal” font=”default” charset=”178″ size=”100%”>داده کاوی و کشف دانش</style></title></titles><dates><year><style face=”normal” font=”default” charset=”178″ size=”100%”>1387</style></year></dates><pub-location><style face=”normal” font=”default” charset=”178″ size=”100%”>تهران</style></pub-location><publisher><style face=”normal” font=”default” charset=”178″ size=”100%”>دانشگاه علم و صنعت ایران</style></publisher><urls></urls></record></Cite></EndNote>[10].
مراحل این فرایند در شکل زیر آمده است:
20878801335405شکل 2-1 فرایند داده کاوی و کشف دانش
00شکل 2-1 فرایند داده کاوی و کشف دانش
-14222948
به عبارت دیگر، هدف کشف دانش و داده کاوی یافتن الگوها و یا مدلهای جالب موجود در پایگاه دادههاست که در میان حجم عظیمی از دادهها مخفی هستند.
با توجه به تعریف ارائه شده از کشف دانش، درجه جذابیت یافتهها با معیارهای متعددی بیان میشود که به شرح زیر میباشند:
تصدیق یا گواهی، نشانگر معنیدار بودن یک یافته بر حسب یک معیار آماری است. افزونگی، مقدار شباهت یک الگوی کشف شده نسبت به یافتههای دیگر است و درجه تبعیت آن را از دیگری اندازه میگیرد. فایده، ارتباط یافته را با اهداف کاربران بیان میکند. بدیع بودن، بیانگر میزان تازگی نسبت به دانش قبلی کاربر یا سیستم است. سادگی، به پیچیدگی نحوی و نمایش یک الگوی کشف شده و نحوه تعمیم آن اشاره دارد ADDIN EN.CITE <EndNote><Cite><Author>غضنفری</Author><Year>1387</Year><RecNum>49</RecNum><DisplayText>[10]</DisplayText><record><rec-number>49</rec-number><foreign-keys><key app=”EN” db-id=”w2sr2evvy9wst9ep9sfxd9tjp09pewf5tx0a”>49</key></foreign-keys><ref-type name=”Book”>6</ref-type><contributors><authors><author><style face=”normal” font=”default” charset=”178″ size=”100%”>مهدی غضنفری</style></author></authors><secondary-authors><author><style face=”normal” font=”default” charset=”178″ size=”100%”>چاپ دوم</style></author></secondary-authors></contributors><titles><title><style face=”normal” font=”default” charset=”178″ size=”100%”>داده کاوی و کشف دانش</style></title></titles><dates><year><style face=”normal” font=”default” charset=”178″ size=”100%”>1387</style></year></dates><pub-location><style face=”normal” font=”default” charset=”178″ size=”100%”>تهران</style></pub-location><publisher><style face=”normal” font=”default” charset=”178″ size=”100%”>دانشگاه علم و صنعت ایران</style></publisher><urls></urls></record></Cite></EndNote>[10].
2-5 مراحل داده کاویفرایند داده کاوی شامل سه مرحله است: آماده سازی داده، یادگیری مدل، ارزیابی و تفسیر مدل. شکل 2-1 در فوق این مراحل سهگانه را به همراه زیر مراحل آن نشان میدهد. در ادامه به توصیف هر کدام از این مراحل میپردازیم ADDIN EN.CITE <EndNote><Cite><Author>آباده</Author><Year>1391</Year><RecNum>40</RecNum><DisplayText>[8]</DisplayText><record><rec-number>40</rec-number><foreign-keys><key app=”EN” db-id=”w2sr2evvy9wst9ep9sfxd9tjp09pewf5tx0a”>40</key></foreign-keys><ref-type name=”Book”>6</ref-type><contributors><authors><author><style face=”normal” font=”default” charset=”178″ size=”100%”>محمد صنیعی آباده</style></author></authors></contributors><titles><title><style face=”normal” font=”default” charset=”178″ size=”100%”>داده کاوی کاربردی</style></title></titles><dates><year><style face=”normal” font=”default” charset=”178″ size=”100%”>1391</style></year></dates><publisher><style face=”normal” font=”default” charset=”178″ size=”100%”>نیاز دانش</style></publisher><urls></urls></record></Cite></EndNote>[8].
آماده سازی داده: اولین و مهمترین مرحله در فرایند داده کاوی آماده سازی داده میباشد. هدف در این مرحله تأمین ورودی مناسب برای مرحله حیاتی یادگیری مدل است. در این مرحله داده پردازش نشده از کل منابع دادهای موجود (که ممکن است توزیع شده نیز باشند) استخراج شده، سپس در مرحلهای مستقل مورد پردازش اولیه قرار میگیرد. خروجی در مرحله آماده سازی مدل عبارت است از داده پیش پردازش شده که امکان یادگیری مدل از روی آن وجود دارد.
همانگونه که گفته شد اولین گام در مرحله آماده سازی داده استخراج داده از منابع دادهای موجود است. در این گام میبایست دادهها که در منابع مختلفی پراکنده شدهاند، به صورت متمرکز در یک محل جمع آوری شده و یک انباره داده مرکزی ایجاد شود. دلیل اصلی این گردآوری آن است که در اغلب موارد داده به صورت متمرکز در یک مکان وجود ندارد. به علاوه دادهها در بخشهای مختلف ممکن است در فرمتهای گوناگونی نیز ذخیره شده باشند. مثلاً ممکن است بخشی از دادهها در یک پایگاه داده Oracle و بخش دیگر دادهها در یک پایگاه داده SQL Server ذخیره شده باشند. حتی ممکن است بخشی از دادهها در چند فایل اکسل یا حتی فایل متنی ذخیره شده باشند. گاهی اوقات دادههایی وجود دارند که روی کاغذ نوشته شدهاند و حتی تایپ نشدهاند. حال اگر قرار باشد فرایند داده کاوی صورت پذیرد، باید دادههای موجود در منابع مختلف متحد شده و در یک فرمت مشخص در یک انباره داده مرکزی ذخیره شوند. در غیر اینصورت فرایند داده کاوی هر چقدر هم که هوشمندانه و بی نقص انجام شود، نخواهد توانست دانش با ارزش و درخور توجه تولید نماید.
دومین گام در مرحله آماده سازی داده پیش پردازش دادههای استخراج شده است. مهمترین رسالت این گام زدودن مشکلات مختلفی که احتمالاً در داده وجود دارند، خواهد بود. این مشکلات در واقع مانع از آن میشود که مرحله یادگیری مدل بتواند نظم واقعی را در داده بیابد. در هر حال پس از پایان مرحله آماده سازی داده، مجموعه دادهای آماده خواهد شد که فاقد مشکلات جدی و کلیدی است و امکان کشف دانش نهفته در آن با استفاده از مرحله یادگیری مدل وجود دارد. این مرحله در ادامه توصیف میشود.
یادگیری مدل: در این مرحله با استفاده از الگوریتمهای متنوع و با توجه به ماهیت داده، سعی ما بر این است که نظمهای مختلف موجود در داده را شناسایی نموده و در فرمتی مشخص به عنوان دانش نهفته در داده ارائه کنیم. برای یادگیری مدل میبایست روشهای آن را به درستی شناخت تا بتوان در جای مناسب، روش درست را انتخاب نمود و بکار بست.
روشهای یادگیری مدل در داده کاوی: مشهورترین روشهای یادگیری مدل در داده کاوی را در این بخش مورد بررسی قرار میدهیم. میتوان روشهای مختلف کاوش داده را در دو گروه روشهای پیش بینی و روشهای توصیفی طبقه نمود. در ادامه به شرح هر کدام از این دو گروه میپردازیم.
روشهای پیش بینی: این روشها از مقادیر بعضی از ویژگیها برای پیش بینی کردن مقدار یک ویژگی مشخص استفاده میکنند. در متون علمی مختلف روشهای پیش بینی با نام روشهای با ناظر نیز شناخته میشوند. روشهای دسته بندی ، رگرسیون و تشخیص انحراف سه روش یادگیری مدل در داده کاوی با ماهیت پیش بینی هستند. در ادامه بررسی هر کدام از این روشها میپردازیم.
دسته بندی: در الگوریتمهای دسته بندی مجموعه داده اولیه به دو مجموعه داده با عنوان مجموعه دادههای آموزشی و مجموعه داده آزمایشی تقسیم میشود، با استفاده از مجموعه دادههای آموزشی مدل ساخته میشود و از مجموعه داده آزمایشی برای اعتبار سنجی و محاسبه دقت مدل ساخته شده استفاده میشود. هر رکورد شامل یک مجموعه از ویژگیهاست. یکی از این ویژگیها، ویژگی دسته نامیده میشود. در الگوریتمهای دسته بندی چون ویژگی دسته مربوط به هر رکورد مشخص است بنابراین جزء الگوریتمهای با ناظر محسوب میشوند. الگوریتمهای با ناظر شامل دو مرحله با عنوان مرحله آموزش (یادگیری) و مرحله ارزیابی هستند. در مرحله آموزش، مجموعه دادههای آموزشی به یکی از الگوریتمهای دسته بندی داده میشود تا بر اساس مقادیر سایر ویژگیها برای مقادیر ویژگی دسته، مدل ساخته شود. شکل مدل ساخته شده به نوع الگوریتم یادگیرنده بستگی دارد. به عنوان مثال، اگر الگوریتم یادگیرنده الگوریتم درخت تصمیم باشد مدل ساخته شده یک درخت تصمیم خواهد بود، اگر الگوریتم یادگیرنده یک دسته بند مبتنی بر قانون باشد مدل ساخته شده یک مجموعه قانون خواهد بود. در هر صورت با توجه به الگوریتم یادگیرنده مورد استفاده در مرحله آموزش، مدل ساخته میشود. پس از ساخت مدل، در مرحله ارزیابی دقت مدل ساخته شده به کمک مجموعه داده آزمایشی که مدل ساخته شده در مرحله آموزش این مجموعه داده را ندیده است، ارزیابی خواهد شد. از مجموعه دادههای آزمایشی در مرحله آموزش و ساخت مدل استفاده نمیشود.
در ادامه قصد داریم به یکی از کاربردهای دسته بندی بپردازیم:
تشخیص کلاهبرداری: هدف، پیش بینی موارد کلاهبرداری در تراکنشهای کارتهای اعتباری است. (البته تشخیص کلاهبرداری لزوماً منحصر به تراکنشهای کارتهای اعتباری نبوده و قابل طرح در بسیاری از کاربردهای مالی دیگر نظیر بیمه و بورس میباشد). روش کار به اینصورت است که در گذشته نیز تعداد زیادی تراکنش اتفاق افتاده و هرکدام از آنها بررسی شدهاند و به عنوان یک تراکنش کلاهبرداری یا یک تراکنش عادی برچسب خوردهاند. تمام این تراکنشها در سیستم ثبت شدهاند. حال از اطلاعات مربوط به این تراکنشها استفاده نموده و یک مجموعه رکورد جمع آوری میکنیم. در هر رکورد اطلاعات صاحب حساب و کارهایی که در حال انجام آن میباشد را به عنوان ویژگی در نظر میگیریم. به علاوه یک ویژگی دسته هم تعریف میکنیم که شامل دو مقدار کلاهبرداری و عادی است. هر رکورد یکی از این دو مقدار را به ازای ویژگی دسته خود دارد. به عنوان مثال تعدادی از این ویژگیها عبارتند از: مشتری چه موقع در حال خرید است؟ در حال خرید چه چیزی است؟ آیا هزینه را به موقع پرداخت میکند؟ و… این مجموعه رکوردها به دو قسمت مجموعه دادههای آموزشی و آزمایشی شکسته میشوند. الگوریتم یادگیرنده بر اساس مجموعه دادههای آموزش، مدلی را برای وضعیتهای کلاهبرداری و عادی میسازد. حال فرد جدیدی که وارد شد و کارت خود را وارد سیستم نمود، ویژگیهای آن به مدل داده میشود و مدل تشخیص میدهد که آیا این فرد قصد انجام یک کار کلاهبردارانه را دارد یا نیت او انجام یک تراکنش عادی است.
رگرسیون: پیش بینی مقدار یک متغیر پیوسته بر اساس مقادیر سایر متغیرها بر مبنای یک مدل وابستگی خطی یا غیر خطی رگرسیون نامیده میشود. رگرسیون در علوم آمار و شبکههای عصبی به صورت وسیع مورد مطالعه و بررسی قرار میگیرد. در واقع یک بردار x به عنوان ورودی داریم که به یک متغیر خروجی y نگاشت شده است. هدف محاسبه y یا همان F(x) است که از روی تخمین تابع مقدار آن محاسبه میشود. در اینجا میبایست به ازای یک بردار x ، مقدار دقیق y قابل محاسبه باشد. این کاربرد نیز مانند دسته بندی یک کاربرد از نوع پیش بینی یا با ناظر است. دلیل آن هم کاملاً روشن است، چرا که باید مقدار یک متغیر که در اینجا y نشان داده شده، از روی مقادیر متغیرهای دیگر که آن را با بردار x مشخص میکنیم، پیش بینی شود. بنابراین در رگرسیون هم دو مرحله آموزش و آزمایش وجود خواهد داشت. روشهای موجود در رگرسیون بیشتر مبتنی بر ریاضیات آماری هستند. یک نوع خاصی از رگرسیون، پیش بینی سریهای زمانی است. در مسائل پیش بینی سریهای زمانی یکی از متغیرهای اصلی، زمان است. در این مسائل یک مجموعه از xها و yها به صورت یک تابع ریاضی وجود دارند. به عبارت دیگر به ازای هر x فقط و فقط یک y موجود میباشد (در غیر اینصورت زمان به عقب بر خواهد گشت). هدف این است که به ازای یک x جدید مقدار y آن را پیش بینی کنیم. مثالهایی از رگرسیون عبارتند از:
1. پیش بینی میزان فروش یک محصول جدید بر اساس میزان فروش محصولات گذشته، مشخصات محصولات گذشته و میزان تبلیغات انجام شده بر روی آن
2. پیش بینی سرعت باد به عنوان تابعی از دما، رطوبت و فشار هوا
3. مسائل مربوط به پیش بینی سریهای زمانی از قبیل: بورس اوراق بهادار، تغییرات جوّی آب و هوا و …
تشخیص انحراف: در مواقعی از این کاربرد استفاده میشود که تنها نمونههای با یک برچسب یکسان، که معمولاً وضعیت نرمال را نشان میدهد، در دسترس باشند و امکان مالکیت بر دادهها با تمامی برچسبهای موجود به دلایل مختلف وجود نداشته باشد. بنابراین چون فقط نمونههای دسته نرمال در اختیار است، الگوریتم برای وضعیت نرمال و با توجه به یک آستانه مشخص مدل میسازد و هرگونه تخطی از آن آستانه را به عنوان وضعیت غیر نرمال در نظر میگیرد و هشدار میدهد. یک نمونه از کاربردهای تشخیص انحراف عبارتست از: تشخیص نفوذ به شبکههای کامپیوتری.
روشهای توصیفی: این روشها الگوهای قابل توصیفی را پیدا میکنند که روابط حاکم بر دادهها را بدون در نظر گرفتن هرگونه برچسب و یا متغیر خروجی تبیین نمایند. در متون علمی مختلف روشهای توصیفی با نام روشهای بدون ناظر نیز شناخته میشوند. روشهای خوشه بندی ، کاوش قوانین انجمنی و کشف الگوهای ترتیبی سه روش یادگیری مدل در داده کاوی با ماهیت توصیفی هستند. در ادامه به بررسی هر کدام از این روشها میپردازیم.
خوشه بندی: در مسائل خوشه بندی یک مجموعه رکورد داریم که هر کدام یک مجموعه از ویژگیها را دارا هستند. یک معیار مشابهت میان آنها تعریف میکنیم. این معیار مشابهت در مسائل مختلف متفاوت است. به عنوان مثال اگر ویژگیها پیوسته باشند میتوان فاصله اقلیدسی را به عنوان معیار مشابهت در نظر گرفت. به این ترتیب هر رکورد را به صورت یک نقطه در فضای چند بعدی در نظر میگیریم. هر بعد، نماینده یکی از ویژگیهای مسئله است. در مسائل خوشه بندی هیچگونه دسته خاصی وجود ندارد. در واقع ویژگی دسته نداریم و فقط بر اساس معیار شباهت گروهبندی و خوشه بندی دادهها صورت میپذیرد. خوشه بندی به این شکل انجام میشود که رکوردهایی که بیشترین شباهت را به یکدیگر دارند (با توجه به معیار شباهت تعریف شده) در یک خوشه قرار میگیرند. در نتیجه دادههای موجود در خوشههای متفاوت کمترین شباهت را به یکدیگر خواهند داشت. خروجی الگوریتمهای خوشه بندی دوباره تحلیل خواهد شد تا در صورت امکان نظمی در خوشهها آشکار شود. نکته مهمی که میبایست به آن توجه نمود آن است که خوشه بندی همیشه بر اساس ویژگیهای ورودی و نمونهها انجام میشود. به عنوان مثال در صورت خوشه بندی رکوردهای مربوط به دانشجویان یک دانشکده هر خوشه ممکن است بیانگر رکوردهایی باشد که از جنبههای مختلف به یکدیگر شبیه هستند. مثلاً یک وضعیت ممکن است این باشد که دو خوشه بوجود آید که نشانگر دانشجویان زرنگ و تنبل باشند. ممکن است این دو خوشه بیانگر دانشجویان پسر و دختر باشند. هدف در همه الگوریتمهای خوشه بندی کمینه کردن فاصله درون خوشهای و بیشینه نمودن فاصله بین خوشهای میباشد. عملکرد خوب یک الگوریتم خوب خوشه بندی زمانی محرز میشود که تا حد امکان خوشهها از یکدیگر دور باشند و به علاوه رکوردهای درون یک خوشه بیشترین شباهت را به یکدیگر دارا باشند. در ادامه به بررسی یکی از کاربردهای خوشه بندی میپردازیم:
خوشه بندی اسناد: هدف پیدا کردن گروههایی از اسناد مشابه بر اساس تعداد رخداد کلمات و اصطلاحات مهم موجود در آنها میباشد. به عنوان مثال فرض کنید یک مجموعه مقاله داریم. از میان چکیده این مقالهها عبارات و کلمات کلیدی مهم را استخراج میکنیم. بنابراین ویژگیهای ما یک مجموعه از کلمات کلیدی و عبارات مهم هستند که از چکیده مقالهها استخراج میشوند. حال تعداد رخداد هر کدام از این کلمات و عبارات را در هر یک از مقالهها پیدا میکنیم. در واقع یک مجموعه رکورد جمع آوری مینماییم که هر رکورد نماینده یک از مقالهها میباشد. هر رکورد مجموعه مشخصی از ویژگیها را دارد که همان کلمات مهم موجود در مقالهها هستند. حال تعداد رخداد هر کدام از این کلمات را در هر یک از مقالهها مییابیم و به عنوان مقدار ویژگیها برای هر یک از رکوردها در جدول ثبت مینماییم. سپس مجموعه رکوردهای حاصله را به الگوریتم خوشه بندی ارائه میکنیم. الگوریتم بر اساس فاصله بین رکوردها (یعنی بر اساس تعداد رخداد کلمات مهم در هر یک از اسناد) آنها را خوشه بندی نموده و تعدادی خوشه ایجاد میکند. به عنوان مثال ممکن است چهار خوشه تولید شده باشد، پس از بررسی مشخص خواهد شد اسنادی که در یک خوشه قرار گرفتهاند مرتبط با چه موضوعاتی هستند. مثلاً ممکن است مشخص شود که تمام مقالههای موجود در خوشه نخست سیاسی، مقالههای موجود در خوشه دوم ورزشی، مقالههای موجود در خوشه سوم مالی و در خوشه آخر مقالههای مربوط به بخش فرهنگی وجود دارند. مزیت خوشه بندی اسناد در کاربردهای بازیابی اطلاعات است. یک نمونه دیگر از کاربردهای خوشه بندی اسناد، در تعیین یک خوشه یک سند جدید با توجه به خوشههای یافته شده میباشد.