انتخاب الگوریتم مناسب در پروژههای دادهکاوی!

یکی از چالشهای مهم در پروژههای دادهکاوی انتخاب الگوریتم مناسب و بهینه بنا به نیازمندیهای مسئله است. در ادامه برخی از مؤلفههای کلیدی جهت انتخاب الگوریتمهای یادگیری ماشین در یک پروژه داده کاوی ذکر خواهد گردید.نسخه ای از این راهنمای انتخاب الگوریتم مناسب در پروژههای دادهکاوی را که در سایت شرکت معتبر تحلیل آماری SAS منتشر شده است در شکل زیر مشاهده میکنید. با کلیک روی آن میتوانید شکل بزرگ تر را مشاهده کنید.

شرکت مهندسی داده هم این راهنما رو به فارسی تبدیل کرده که در شکل زیر میبینید :
۱- هدف تحلیل(متغیرهدف): هدف تحلیل و نوع متغیر هدف(Target) از مهمترین مؤلفههای انتخاب الگوریتم و تکنیک موردنیاز خواهد بود. هر یک از تحلیلهای توصیفی، پیشبینانه و… توسط الگوریتمهای مشخصی پشتیبانی خواهند شد. به صورت کلی بنا به نوع متغیر هدف و تحلیل موردنیاز به الگوریتمهای مختلفی همانند خوشهبندی، طبقهبندی، پیشبینی، کاهش بعد، قوانین انجمنی و… نیاز خواهد شد.
۲-دقت و صحت: در برخی از مسائل که هدف کسب دقت بالاتر میباشد برخی از الگوریتمها همانند SVM، شبکههای عصبی، Random Forest و… به نسبت سایر الگوریتمها پیشنهاد میشود.
۳- سرعت: در مسائلی که هدف سرعت بیشتر در مدلسازی است برخی الگوریتمها همانند Naive Bayes، رگرسیون لوجستیک، رگرسیون خطی، درختهای تصمیمگیری و… عملکرد بهمراتب بهتری نسبت به سایر الگوریتمها دارند.
۴- دادگان نامتوازن: یکی از چالشهای اساسی در پروژههای دادهکاوی وجود دادگان نامتوازن در کلاس متغیر هدف است. جهت مدیریت دادگان نامتوازن روشهای متعددی همانند OverSampling یا UnderSampling وجود دارد اما برخی از الگوریتمها نیز توانایی مدیریت این قبیل دادگان را دارند. از مهمترین الگوریتمهایی که توانایی مدیریت دادگان نامتوازن را دارند میتوان به الگوریتمهای Random Forset, C4.5, C5.0, CART و… اشاره کرد.
پینوشت:
۱- انتخاب یک الگوریتم به سایر مؤلفهها همانند وجود تخصص لازم در تیم تحلیل داده و توانایی پیادهسازی آن، لزوم مشخص بودن یا نبودن قوانین کشفشده همانند روشهای BlackBox در مقابل روشهای Rule Base بستگی دارد.
۲- ارائه راهحلهای کلی معمولاً کارآمد نخواهد بود اما در حوزه الگوریتمهای یادگیری ماشین طبق تجربیات موجود در پروژههای مختلف دو الگوریتم SVM و Random Forest معمولاً دارای نتایج کارآمدتری هستند.
برگرفته از متن اقای محمد رضا محتاط و سایت مهندسی داده