מאפיין חשוב של כל קבוצה של נתונים הוא השונות בנתונים. בערכות נתונים מסוימות, ערכי הנתונים מרוכזים קרוב מאוד לממוצע; בערכות נתונים אחרות, ערכי הנתונים מפוזרים באופן נרחב יותר מהממוצע. המדד הנפוץ ביותר לשונות, או התפשטות, הוא סטיית התקן, שהיא השורש הריבועי של השונות.
כאשר משתנים בלתי תלויים ותלויים משורטטים בתרשים פיזור, שיפוע הקו הוא ערך המתאר את קצב השינוי בין שני המשתנים. השיפוע אומר לנו כיצד משתנה המשתנה התלוי (y) עבור כל עלייה של יחידה אחת במשתנה הבלתי תלוי (x), בממוצע. יירוט y מתאר את המשתנה התלוי כאשר המשתנה הבלתי תלוי שווה לאפס. ניתן לשרטט קו רגרסיה, או קו בעל התאמה מיטבית, על תרשים פיזור ולהשתמש בו כדי לחזות תוצאות עבור משתני x ו– y בערכת נתונים נתונה או בנתוני מדגם.
ההפרש בין ערך המדגם הנצפה, y, לבין הערך החזוי, ממשוואת הרגרסיה, ידוע כסטייה בלתי מוסברת. ואילו ההפרש בין הערך החזוי
לבין ממוצע המדגם, y̅, נקרא הסטייה המוסברת. ההבדל בין הערך הנצפה, y, לבין ממוצע המדגם, y̅, הוא הסטייה הכוללת.
אם נוסיף את ריבועי הסטיות המוסברות עבור כל נקודות הנתונים, נקבל את השונות המוסברת. באותו אופן, אם נוסיף את הריבועים של הסטיות הבלתי מוסברות עבור כל נקודות הנתונים, נקבל את השונות הבלתי מוסברת. כמו כן, אם נוסיף את הריבועים של סך הסטיות עבור כל נקודות הנתונים, נקבל את השונות הכוללת. חלוקת השונות המוסברת בסטייה הכוללת נותנת לנו את הערך של מקדם הקביעה, r2, המייצג את אחוז השונות במשתנה התלוי y שניתן להסביר על ידי שונות במשתנה הבלתי תלוי x באמצעות קו הרגרסיה.
טקסט זה מעובד מתוך Openstax, מבוא, סטטיסטיקה, סעיף 12, רגרסיה ליניארית ומתאם.
בערכת נתונים לא מתואמת, עבור ערך נתון של x, הערך החזוי הטוב ביותר של y הוא הממוצע.
אם למשתנים יש מתאם ליניארי, ניתן לחזות ערך y על ידי החלפת ערך x במשוואת הרגרסיה.
המרחק האנכי בין ערך y החזוי לבין ממוצע המדגם, y-bar, ידוע כסטייה המוסברת. הקשר בין שני המשתנים יכול להסביר סטייה זו.
המרחק האנכי בין נקודת הנתונים לבין ערך y החזוי ידוע כסטייה בלתי מוסברת או השארית. הקשר בין המשתנים אינו יכול להסביר סטייה זו; זה יכול להיות בגלל מקריות בלבד או מעורבות של משתנים אחרים.
סכום הסטיות הבלתי מוסברות והמוסברות נותן את סך הסטיות.
ריבוע הסטיות וסיכומן עבור כל נקודות הנתונים מניב את כמות השונות הבלתי מוסברת, המוסברת והכוללת.
היחס בין השונות המוסברת לשונות הכוללת הוא ערך הריבוע r, הידוע גם כמקדם הקביעה. הוא מציין את החלק היחסי של השונות בערך y שקו הרגרסיה יכול להסביר.
Related Videos
Correlation and Regression
11.8K צפיות
Correlation and Regression
6.2K צפיות
Correlation and Regression
6.0K צפיות
Correlation and Regression
5.8K צפיות
Correlation and Regression
4.1K צפיות
Correlation and Regression
7.4K צפיות
Correlation and Regression
4.6K צפיות
Correlation and Regression
6.8K צפיות
Correlation and Regression
2.3K צפיות
Correlation and Regression
3.0K צפיות