הקדמה: נרצה להתאים עקום המתאים ביותר לנקודות נתונות. העקום עובר בין ולא בהכרח דרך הנקודות.
מתי:
- בניית מודלים לקשרים בין משתנים - תוצאות ניסוי וכיוב'.
- מערכות משוואות overdetermined.
- נתונים עם שגיאות משמעותיות.
- אינטרפולציה אינה מתאימה - overfitting.
הגדרות:
- נקודות נתונות:
משתנה בלתי תלוי -
משתנה תלוי -
- העקום המתאים ביותר לנקודות הנתונות:
- שגיאת העקום (שארית): -שגיאה
- קריטריון התאמה: least squares (סכום השגיאות הריבועיות המזערי)
ע"י קריטריון זה קובעים מהו העקום המתאים ביותר. עקום מסדר כלשהו שיתן ערך מינימלי של SSR יהיה המתאים ביותר.
- SSR של קו ישר: רגרסיה לינארית.
אמידת קו הרגרסיה
עבור רגרסיה לינארית קריטריון ההתאמה הוא:
הם מקדמי הרגרסיה. כדי למצוא אותם, נגזור ונשווה לאפס:
מתקבלת מערכת משוואות לינאריות עם פתרון יחיד:
הפתרון:
אלה הם האופטימליים.
השגיאה במודל הרגרסיה
שגיאה סטטיסטית - לא נומרית. בעצמם הם חישוב של תוצאות מדגם או ניסוי. תוצאות אלו לכשעצמן אינן מדוייקות באופן מוחלט ולכן קיימת שגיאה סטטיסטית.
סטיית תקן - התפלגות הנקודה סביב הקו.
פיזור רחב יותר של נקודות סביב קו הרגרסיה ייתן סטיית תקן גדולה יותר.
- שגיאת התקן של y.
איכות התאמת העקום
- השגיאה (ככל שיותר קטנה - המודל מתאים טוב יותר)
=> תמיד
- שגיאות נתונים במודל הנאיבי. ( הוא הממוצע)
- ההפרש
כשאר היא השגיאה היחסית בין ההפרש למודל הנאיבי.
ככל ש- גדול יותר - ההתאמה יותר טובה. זה מעיד על כמה המודל שלנו טוב בהשוואה למודל הנאיבי. אם ההתאמה מושלמת אז אם אין קשר בין המשתנה התלוי והמשתנים הבלתי תלויים אז .
רגרסיה במשתנים מרובים
בכתיב מטריציוני:
Least square:
זהו b האופטימלי בכתיב מטריציוני:
סטיית התקן ו- :
אם מוסיפים משתנים אז גם כן משתנה:
התאמת עקומים לא לינאריים
עקום לא לינארי יהיה כזה שהפרמטרים שלו אינם בקשר לינארי.
- לינארית:
- לא לינארית:
- כשאנו מחפשים עקום מתאים ביותר עלינו למצוא את [b] (הפרמטרים) האופטימליים ולכן הפרמטרים הם הנעלמים שלנו ולא המשתנים x, y
.