آشنایی با ۱۲ مدل رگرسیون (Regression) و نحوه انتخاب مدل مناسب

برای حل مسائل در حوزه­‌ی هوش مصنوعی تکنیک­‌های فراوانی وجود دارد. یکی از این تکنیک‌­های محبوب رگرسیون (regression) است. از این تکنیک‌ها برای مدل­‌سازی در زمینه داده­‌کاوی مورد استفاده قرار می‌گیرد. متخصصان در هرحوزه­‌ای بایستی با تمام ابزارهایی که در اختیار دارند آشنا باشند. اما به طور متوسط متخصصان تحلیلی با 2 یا 3 نوع ازمدل‌های رگرسیون خطی آشنا هستند.

در اینجا ما به معرفی اجمالی 12 نوع از الگوریتم‌­های رگرسیون (regression) می‌­پردازیم. تحلیلگر بسته به نوع داده‌ها و توزیع آن‌ها بایستی انتخاب کند از کدامیک استفاده کند. تقریبا تمامی این الگوریتم‌ها در کتابخانه‌ی scikit-learn پایتون موجودند. خوب است قبل از شروع با برخی از اصطلاحات در این زمینه آشنا شویم:

 

داده‌های پرت نسبت به سایر داده‌ها
داده‌های پرت نسبت به سایر داده‌ها

 

  1. داده‌ی پرت (Outlier): داده پرت به داده‌ای گفته می­شود که ارزش آن بسیار بیشتر یا کمتر از سایر داده‌ها باشد. به عبارت دیگر اختلاف فاصله آن از سایر داده‌ها بسیار زیاد است.
  2. همخطی چندگانه (Multicollinearity): همخطی چندگانه زمانی رخ می­‌دهد که یک یا چند متغیر مستقل در با یکدیگر همبستگی و ارتباط داشته باشند. به طور مثال همبستگی­‌های موجود در تصویر زیر برابر است با \((X_{1},X_{2})\) و \((X_{2},X_{3})\).
  3. ناهم‌واریانسی (Heteroscedastic): در آمار دنباله‌ای از متغیرهای تصادفی که دارای واریانس‌های متفاوتی باشند، ناهم‌واریانس نامیده می‌شوند. به عبارت دیگر تنوع و واریانس هر یک از متغیر‌های وابسته نسبت به متغیر مستقل متفاوت است.
  4. بیش‌برازش (Overfitting) و زیربرازش (Underfitting): در الگوریتم‌های یادگیری ماشین همواره داده‌ها را به دو دسته یا سه دسته تقسیم می‌کنیم.
    1. دسته اول داده‌های آموزش هستند که سعی می­کنیم با کمک آنها مدل مورد نظر خود را بسازیم.
    2. دسته دوم داد­ه­های تست هستند که با کمک آنها مدل یافته شده در گام قبلی را ارزیابی می­کنیم.
    3. دسته سوم داده­‌ها برای این است که تشخیص دهیم مشکل بیش برازش رخ­ داده است یا خیر.

 

گاهی ممکن است در روش رگرسیون خطی ما الگو و خط مناسبی را برای داده‌­­های آموزشی پیدا نکنیم. در این حالت مشکل زیربرازش رخ­ می­­‌دهد. دربعضی مواقع نیز الگو و خطی که ارائه کرده ایم، فقط به ازای داده­های­ آموزش صحیح است. به عبارت دیگر، مدل به قدری نسبت به داده‌های آموزش حساس می‌شود که دیگر نمی‌تواند داده‌های تست را به درستی پیش‌بینی کند.

 

نمونه‌ای از همخطی چندگانه
نمونه‌ای از همخطی چندگانه

 

مثالی از بیش‌برازش و زیربرازش و تاثیر آن بر مدل Regression
مثالی از بیش‌برازش و زیربرازش و تاثیر آن بر مدل

انواع رگرسیون:

 

خطی (Linear)

ساده‌­ترین شکل رگرسیون است که متغیرهای وابسته آن پیوسته هستند. هنگامی که شما فقط 1 متغیر مستقل و 1 متغیر وابسته دارید ، به آن رگرسیون خطی ساده گفته می‌شود. (در مورد رگرسیون خطی می‌توانید دراین مقاله بخوانید.) وقتی بیش از 1 متغیر مستقل داشته باشید، به آن رگرسیون خطی چندگانه (MLR) گفته می‌شود. برای انتخاب رگرسیون جهت مدل‌سازی باید فرضیاتی وجود داشته باشند که عبارتند از:

  • باید بین متغیرهای مستقل و وابسته رابطه خطی برقرار شود.
  • هیچ داده‌ی ­پرتی وجود نداشته باشد.
  • ناهم­واریانسی وجود نداشته باشد.
  • خطا معمولاً باید با میانگین 0 و واریانس ثابت توزیع شود.
  • عدم وجود چندخطی و همبستگی خودکار.

 

 

 

مدل‌سازی با استفاده از رگرسیون (Regression) خطی
مدل‌سازی با استفاده از رگرسیون خطی

 

چندجمله‌ای (Polynomial)

گاهی اوقات الگوی حاصل از داده‌­های ما یک معادله­‌ی غیرخطی است و استفاده از معادله­‌ی خطی پاسخگوی الگوی مورد نیاز ما نمی‌­باشد. در این حالت می‌توان از رگرسیون چندجمله‌ای استفاده کرد. در این روش متغیر وابسته، که قصد پیش‌بینی آن را پس از مدل‌سازی داریم، رابطه‌ای چند جمله‌ای با متغیر(های) مستقل دارد. این رابطه می‌تواند از درجات 2، 3 و غیره باشد.

رگرسیون (Regression) چند جمله‌ای یرای داده‌های با رابطه‌ی غیرخطی
رگرسیون چند جمله‌ای یرای داده‌های با رابطه‌ی غیرخطی

 

 

لجستیک (Logistic)

در رگرسیون (regression)­ لجستیک متغیر وابسته یک متغیر گسسته‌ی دو مقداری است. بنابراین، هنگامی که داده‌­ها گسسته هستند و یا هم واریانسی در داده­‌ها وجود داشته و یا اینکه خطاها به صورت نرمال توزیع نشده­‌اند، باید رگرسیون­ لجستیک را جایگزین رگرسیون خطی کنیم.

رگرسیون (Regression) لجستیک جهت کلاس‌بندی داده‌ها
رگرسیون لجستیک جهت کلاس‌بندی داده‌ها

 

چندک (Quantile)

در رگرسیون (regression) خطی ما رابطه بین متغیرهای وابسته و متغیرهای مستقل را می­‌یابیم و از میانگین داده­‌ها برای تخمین متغیر مستقل آن استفاده می­کنیم. در مدل رگرسیون­ چندک، برای متغیر ­­مستقل صدک را، که به مقداری گفته می‌شود که درصد خاصی از نمونه‌های متغیر تصادفی کم تر از آن‌ هستند، محاسبه می­کنیم. به عبارت دیگر لازم نیست که همیشه میانگین شرطی را تخمین بزنیم. می‌توانیم میانه یا 0.25 کمی یا مقدار 0.90 را تخمین بزنیم. در این مدل ضرایب رگرسیون تأثیر متغیر مستقل را بر روی یک قطعه مشخص از متغیر وابسته ما تخمین می‌­زنند.

 

لبه (Ridge)

این مدل، جهت جلوگیری از بروز بیش برازش داده‌ها را منظم می‌کند. نظم بخشیدن به داده­‌ها درشرایطی که تعداد زیادی داده و چندخطی داریم مفید است. نظم بخشیدن به داده‌­ها یعنی اضافه کردن یک مقدار جریمه که کمک می­‌کند تا تابع حاصل هموار باشد. هموار بودن تابع به این معنی است که با تغییر کوچک در \(X\) تغییر بزرگی در \(Y\) صورت نمی­‌گیرد. بدین منظور، در رگرسیون لبه، که با نام رگرسیون انقباض نیز شناخته می‌شود، بر مجموع مربعات ضرایب رگرسیون محدودیت می‌افزاییم.

 

لسو (Lasso)

این مدل نیز به کنترل بیش‌برازش کمک می‌کند. در این مدل از تکنیک تنظیم مجدد L1 در عملکرد هدف استفاده می‌شود. توجه داشته باشید که این مدل به نرمال‌سازی نیز احتیاج دارد. رگرسیون لسو می‌تواند انتخاب متغیر داخلی و همچنین کوچک‌سازی پارامترها را انجام دهد. اگر از رگرسیون لبه استفاده کنید می‌توانید تمام متغیرها را در اختیار داشته باشید اما با پارامترهای کوچک شده. از طرف دیگر، رگرسیون لبه از لحاظ محاسباتی نسبت به رگرسیون طناب کارآمدتر است. برای انتخاب بهترین روش مدل رگرسیون بایستی داده‌های مجموعه تست را در نظر بگیرید و متناسب با آن‌ها مدل خود را انتخاب کنید.

 

شبکه الاستیک (Elastic Net)

هنگامی که متغیرهای مستقل از همبستگی بالایی برخوردار هستند، از این نوع رگرسیون استفاده می‌شود. در این رگرسیون ترکیبی از هر دو تنظیم L1 و L2 وجود دارد. مانند دو رگرسیون قبل در اینجا نیز، داده­‌ها بایستی نرمال شوند.

 

مولفه‌های اصلی (Principal Components) یا PCR

این نوع رگرسیون (regression) هنگامی تعداد متغیرهای مستقل بسیار زیاد است مورد استفاده قرار می‌گیرد. کاهش ابعاد، حذف چندرنگی و گرفتن مولفه‌های اصلی از جمله مهمترین کاربردهای این الگوریتم است. این مدل در واقع وقتی استفاده می‌شود که می‌خواهیم از بین تعداد زیادی ویژگی (feature)، ویژگی‌های مهمتر و اصلی‌تر را انتخاب کنیم.

 

حداقل مربعات جزیی (Partial Least Squares) یا PLS

این مدل نیز مانند رگرسیون (regression) مولفه‌های اصلی هنگامی مورد استفاده قرار می‌گیرد که تعداد زیادی متغیر مستقل بسیار همبسته وجود دارد. هر دو روش متغیرهای مستقل جدیدی به نام مؤلفه‌ها ایجاد می‌­کنند که ترکیبی خطی از متغیرهای پیش‌بینی کننده اصلی هستند. اما PCR مولفه‌هایی را برای توضیح تغییرپذیری مشاهده شده در متغیرهای پیش‌بینی کننده ایجاد می­‌کند، بدون اینکه اصلاً متغیر پاسخ را در نظر بگیرد. این در حالی که PLS متغیر وابسته را در نظر می­‌گیرد. بنابراین اغلب به مدل‌هایی منجر می‌­شود که می‌توانند متغیر وابسته را با اجزای کمتری مدل‌سازی کند.

 

ترتیبی (Ordinal)

مدل ترتیبی برای پیش‌بینی مقادیر رتبه‌بندی شده استفاده می‌شود. به عبارت ساده، این نوع مدل زمانی مناسب است که متغیر وابسته ترتیب داشته باشد.

 

پواسون (Poisson)

در آمار ، رگرسیون (regression) پواسون یک فرم مدل خطی تعمیم یافته تحلیل رگرسیون است. از این مدل برای مدل‌سازی داده‌های قابل شمارش و جداول احتمالی استفاده می­‌شود. رگرسیون پواسون فرض می‌­کند متغیر پاسخ \(Y\) دارای توزیع پواسون است. همچنین فرض می‌شود که لگاریتم مقدار مورد انتظار آن را می­‌توان با ترکیبی خطی از پارامترهای ناشناخته مدل­‌سازی کرد. مدل رگرسیون پواسون بعضی اوقات به عنوان یک مدل خطی شناخته می‌­شود. به خصوص هنگامی که از آن برای مدل کردن جداول احتمالی استفاده می­‌شود.

 

دوجمله‌ای منفی (Negative Binomial)

این مدل نیز مانند رگرسیون پواسون مخصوص داده‌های شمارشی و ترتیبی است با این تفاوت که در این رگرسیون فرضی مبنی بر برابر بودن واریانس و میانگین وجود ندارد.

 

شاید برای شما این سوال پیش آمده باشد که چطور باید از بین این تعداد مدل رگرسیون یکی را برای مسئله خود انتخاب کنیم. جواب این سوال در میزان شناخت شما از انواع داده‌ها و توزیع آن‌ها به عنوان مهندس یادگیری ماشین و محقق علوم داده بستگی دارد.
در این مقاله سعی بر این بوده است که خط مشی در مورد مدل‌های مختلف و این که هر کدام برای چه نوع داده‌هایی مناسب هستند فرآهم آورده شود. اما این که داده‌ای که شما قصد مدل‌سازی بر روی آن را دارید به کدامیک از این انواع تعلق دارد به میزان شناخت شما از توزیع‌های مختلف و همچنین توانایی شما در شناسایی الگوی داده‌های از طریق تحلیل آماری بستگی دارد.
ارسال یک پاسخ

آدرس ایمیل شما منتشر نخواهد شد.