برای حل مسائل در حوزهی هوش مصنوعی تکنیکهای فراوانی وجود دارد. یکی از این تکنیکهای محبوب رگرسیون (regression) است. از این تکنیکها برای مدلسازی در زمینه دادهکاوی مورد استفاده قرار میگیرد. متخصصان در هرحوزهای بایستی با تمام ابزارهایی که در اختیار دارند آشنا باشند. اما به طور متوسط متخصصان تحلیلی با 2 یا 3 نوع ازمدلهای رگرسیون خطی آشنا هستند.
در اینجا ما به معرفی اجمالی 12 نوع از الگوریتمهای رگرسیون (regression) میپردازیم. تحلیلگر بسته به نوع دادهها و توزیع آنها بایستی انتخاب کند از کدامیک استفاده کند. تقریبا تمامی این الگوریتمها در کتابخانهی scikit-learn پایتون موجودند. خوب است قبل از شروع با برخی از اصطلاحات در این زمینه آشنا شویم:

- دادهی پرت (Outlier): داده پرت به دادهای گفته میشود که ارزش آن بسیار بیشتر یا کمتر از سایر دادهها باشد. به عبارت دیگر اختلاف فاصله آن از سایر دادهها بسیار زیاد است.
- همخطی چندگانه (Multicollinearity): همخطی چندگانه زمانی رخ میدهد که یک یا چند متغیر مستقل در با یکدیگر همبستگی و ارتباط داشته باشند. به طور مثال همبستگیهای موجود در تصویر زیر برابر است با \((X_{1},X_{2})\) و \((X_{2},X_{3})\).
- ناهمواریانسی (Heteroscedastic): در آمار دنبالهای از متغیرهای تصادفی که دارای واریانسهای متفاوتی باشند، ناهمواریانس نامیده میشوند. به عبارت دیگر تنوع و واریانس هر یک از متغیرهای وابسته نسبت به متغیر مستقل متفاوت است.
- بیشبرازش (Overfitting) و زیربرازش (Underfitting): در الگوریتمهای یادگیری ماشین همواره دادهها را به دو دسته یا سه دسته تقسیم میکنیم.
- دسته اول دادههای آموزش هستند که سعی میکنیم با کمک آنها مدل مورد نظر خود را بسازیم.
- دسته دوم دادههای تست هستند که با کمک آنها مدل یافته شده در گام قبلی را ارزیابی میکنیم.
- دسته سوم دادهها برای این است که تشخیص دهیم مشکل بیش برازش رخ داده است یا خیر.
گاهی ممکن است در روش رگرسیون خطی ما الگو و خط مناسبی را برای دادههای آموزشی پیدا نکنیم. در این حالت مشکل زیربرازش رخ میدهد. دربعضی مواقع نیز الگو و خطی که ارائه کرده ایم، فقط به ازای دادههای آموزش صحیح است. به عبارت دیگر، مدل به قدری نسبت به دادههای آموزش حساس میشود که دیگر نمیتواند دادههای تست را به درستی پیشبینی کند.


انواع رگرسیون:
خطی (Linear)
سادهترین شکل رگرسیون است که متغیرهای وابسته آن پیوسته هستند. هنگامی که شما فقط 1 متغیر مستقل و 1 متغیر وابسته دارید ، به آن رگرسیون خطی ساده گفته میشود. (در مورد رگرسیون خطی میتوانید دراین مقاله بخوانید.) وقتی بیش از 1 متغیر مستقل داشته باشید، به آن رگرسیون خطی چندگانه (MLR) گفته میشود. برای انتخاب رگرسیون جهت مدلسازی باید فرضیاتی وجود داشته باشند که عبارتند از:
- باید بین متغیرهای مستقل و وابسته رابطه خطی برقرار شود.
- هیچ دادهی پرتی وجود نداشته باشد.
- ناهمواریانسی وجود نداشته باشد.
- خطا معمولاً باید با میانگین 0 و واریانس ثابت توزیع شود.
- عدم وجود چندخطی و همبستگی خودکار.

چندجملهای (Polynomial)
گاهی اوقات الگوی حاصل از دادههای ما یک معادلهی غیرخطی است و استفاده از معادلهی خطی پاسخگوی الگوی مورد نیاز ما نمیباشد. در این حالت میتوان از رگرسیون چندجملهای استفاده کرد. در این روش متغیر وابسته، که قصد پیشبینی آن را پس از مدلسازی داریم، رابطهای چند جملهای با متغیر(های) مستقل دارد. این رابطه میتواند از درجات 2، 3 و غیره باشد.

لجستیک (Logistic)
در رگرسیون (regression) لجستیک متغیر وابسته یک متغیر گسستهی دو مقداری است. بنابراین، هنگامی که دادهها گسسته هستند و یا هم واریانسی در دادهها وجود داشته و یا اینکه خطاها به صورت نرمال توزیع نشدهاند، باید رگرسیون لجستیک را جایگزین رگرسیون خطی کنیم.

چندک (Quantile)
در رگرسیون (regression) خطی ما رابطه بین متغیرهای وابسته و متغیرهای مستقل را مییابیم و از میانگین دادهها برای تخمین متغیر مستقل آن استفاده میکنیم. در مدل رگرسیون چندک، برای متغیر مستقل صدک را، که به مقداری گفته میشود که درصد خاصی از نمونههای متغیر تصادفی کم تر از آن هستند، محاسبه میکنیم. به عبارت دیگر لازم نیست که همیشه میانگین شرطی را تخمین بزنیم. میتوانیم میانه یا 0.25 کمی یا مقدار 0.90 را تخمین بزنیم. در این مدل ضرایب رگرسیون تأثیر متغیر مستقل را بر روی یک قطعه مشخص از متغیر وابسته ما تخمین میزنند.
لبه (Ridge)
این مدل، جهت جلوگیری از بروز بیش برازش دادهها را منظم میکند. نظم بخشیدن به دادهها درشرایطی که تعداد زیادی داده و چندخطی داریم مفید است. نظم بخشیدن به دادهها یعنی اضافه کردن یک مقدار جریمه که کمک میکند تا تابع حاصل هموار باشد. هموار بودن تابع به این معنی است که با تغییر کوچک در \(X\) تغییر بزرگی در \(Y\) صورت نمیگیرد. بدین منظور، در رگرسیون لبه، که با نام رگرسیون انقباض نیز شناخته میشود، بر مجموع مربعات ضرایب رگرسیون محدودیت میافزاییم.
لسو (Lasso)
این مدل نیز به کنترل بیشبرازش کمک میکند. در این مدل از تکنیک تنظیم مجدد L1 در عملکرد هدف استفاده میشود. توجه داشته باشید که این مدل به نرمالسازی نیز احتیاج دارد. رگرسیون لسو میتواند انتخاب متغیر داخلی و همچنین کوچکسازی پارامترها را انجام دهد. اگر از رگرسیون لبه استفاده کنید میتوانید تمام متغیرها را در اختیار داشته باشید اما با پارامترهای کوچک شده. از طرف دیگر، رگرسیون لبه از لحاظ محاسباتی نسبت به رگرسیون طناب کارآمدتر است. برای انتخاب بهترین روش مدل رگرسیون بایستی دادههای مجموعه تست را در نظر بگیرید و متناسب با آنها مدل خود را انتخاب کنید.
شبکه الاستیک (Elastic Net)
هنگامی که متغیرهای مستقل از همبستگی بالایی برخوردار هستند، از این نوع رگرسیون استفاده میشود. در این رگرسیون ترکیبی از هر دو تنظیم L1 و L2 وجود دارد. مانند دو رگرسیون قبل در اینجا نیز، دادهها بایستی نرمال شوند.
مولفههای اصلی (Principal Components) یا PCR
این نوع رگرسیون (regression) هنگامی تعداد متغیرهای مستقل بسیار زیاد است مورد استفاده قرار میگیرد. کاهش ابعاد، حذف چندرنگی و گرفتن مولفههای اصلی از جمله مهمترین کاربردهای این الگوریتم است. این مدل در واقع وقتی استفاده میشود که میخواهیم از بین تعداد زیادی ویژگی (feature)، ویژگیهای مهمتر و اصلیتر را انتخاب کنیم.
حداقل مربعات جزیی (Partial Least Squares) یا PLS
این مدل نیز مانند رگرسیون (regression) مولفههای اصلی هنگامی مورد استفاده قرار میگیرد که تعداد زیادی متغیر مستقل بسیار همبسته وجود دارد. هر دو روش متغیرهای مستقل جدیدی به نام مؤلفهها ایجاد میکنند که ترکیبی خطی از متغیرهای پیشبینی کننده اصلی هستند. اما PCR مولفههایی را برای توضیح تغییرپذیری مشاهده شده در متغیرهای پیشبینی کننده ایجاد میکند، بدون اینکه اصلاً متغیر پاسخ را در نظر بگیرد. این در حالی که PLS متغیر وابسته را در نظر میگیرد. بنابراین اغلب به مدلهایی منجر میشود که میتوانند متغیر وابسته را با اجزای کمتری مدلسازی کند.
ترتیبی (Ordinal)
مدل ترتیبی برای پیشبینی مقادیر رتبهبندی شده استفاده میشود. به عبارت ساده، این نوع مدل زمانی مناسب است که متغیر وابسته ترتیب داشته باشد.
پواسون (Poisson)
در آمار ، رگرسیون (regression) پواسون یک فرم مدل خطی تعمیم یافته تحلیل رگرسیون است. از این مدل برای مدلسازی دادههای قابل شمارش و جداول احتمالی استفاده میشود. رگرسیون پواسون فرض میکند متغیر پاسخ \(Y\) دارای توزیع پواسون است. همچنین فرض میشود که لگاریتم مقدار مورد انتظار آن را میتوان با ترکیبی خطی از پارامترهای ناشناخته مدلسازی کرد. مدل رگرسیون پواسون بعضی اوقات به عنوان یک مدل خطی شناخته میشود. به خصوص هنگامی که از آن برای مدل کردن جداول احتمالی استفاده میشود.
دوجملهای منفی (Negative Binomial)
این مدل نیز مانند رگرسیون پواسون مخصوص دادههای شمارشی و ترتیبی است با این تفاوت که در این رگرسیون فرضی مبنی بر برابر بودن واریانس و میانگین وجود ندارد.
در این مقاله سعی بر این بوده است که خط مشی در مورد مدلهای مختلف و این که هر کدام برای چه نوع دادههایی مناسب هستند فرآهم آورده شود. اما این که دادهای که شما قصد مدلسازی بر روی آن را دارید به کدامیک از این انواع تعلق دارد به میزان شناخت شما از توزیعهای مختلف و همچنین توانایی شما در شناسایی الگوی دادههای از طریق تحلیل آماری بستگی دارد.