11.8
בערכת נתונים לא מתואמת, עבור ערך נתון של x, הערך החזוי הטוב ביותר של y הוא הממוצע.
אם למשתנים יש מתאם ליניארי, ניתן לחזות ערך y על ידי החלפת ערך x במשוואת הרגרסיה.
המרחק האנכי בין ערך y החזוי לבין ממוצע המדגם, y-bar, ידוע כסטייה המוסברת. הקשר בין שני המשתנים יכול להסביר סטייה זו.
המרחק האנכי בין נקודת הנתונים לבין ערך y החזוי ידוע כסטייה בלתי מוסברת או השארית. הקשר בין המשתנים אינו יכול להסביר סטייה זו; זה יכול להיות בגלל מקריות בלבד או מעורבות של משתנים אחרים.
סכום הסטיות הבלתי מוסברות והמוסברות נותן את סך הסטיות.
ריבוע הסטיות וסיכומן עבור כל נקודות הנתונים מניב את כמות השונות הבלתי מוסברת, המוסברת והכוללת.
היחס בין השונות המוסברת לשונות הכוללת הוא ערך הריבוע r, הידוע גם כמקדם הקביעה. הוא מציין את החלק היחסי של השונות בערך y שקו הרגרסיה יכול להסביר.
מאפיין חשוב של כל סט נתונים הוא השונות בנתונים. בכמה מערכי נתונים, ערכי הנתונים מרוכזים קרוב לממוצע; בקבוצות נתונים אחרות, ערכי הנתונים מפוזרים באופן נרחב יותר מהממוצע. המדד הנפוץ ביותר לשונות, או התפשטות, הוא סטיית התקן, שהוא השורש הריבועי של השונות.
כאשר משרטטים משתנים בלתי תלויים ותלויים על פיזור, השיפוע של קו הוא ערך המתאר את קצב השינוי בין שני המשתנים. השיפוע אומר לנו כיצד המשתנה התלוי (y) משתנה עבור כל עלייה של יחידה אחת במשתנה הבלתי תלוי (x), בממוצע. חיתוך ה-y מתאר את המשתנה התלוי כאשר המשתנה הבלתי תלוי שווה לאפס. ניתן לשרטט קו רגרסיה, או קו בהתאמה הטובה ביותר, על אזור הפיזור ולהשתמש בו כדי לחזות תוצאות עבור משתני x ו-y במערך נתונים נתון או בנתונים לדוגמה.
ההבדל בין ערך המדגם הנצפה, y, לבין הערך החזוי ,Equation 1 ממשוואת הרגרסיה, ידוע בתור סטייה בלתי מוסברת. בעוד שההפרש בין הערך החזוי לממוצע המדגם, y̅, נקרא הסטייה המוסברת. ההבדל בין הערך הנצפה, y, לבין ממוצע המדגם, y̅, הוא הסטייה הכוללת.
אם נוסיף את הריבועים של הסטיות המוסברות עבור כל נקודות הנתונים, נקבל את השונות המוסברת. באותו אופן, אם נוסיף את הריבועים של הסטיות הבלתי מוסברות עבור כל נקודות הנתונים, נקבל את השונות הבלתי מוסברת. כמו כן, אם נוסיף את הריבועים של סך כל הסטיות עבור כל נקודות הנתונים, נקבל את השונות הכוללת. חלוקת השונות המוסברת בסטייה הכוללת נותן לנו את הערך של מקדם הקביעה, r^2, המייצג את אחוז השונות במשתנה התלוי y שניתן להסביר על ידי שונות במשתנה הבלתי תלוי x באמצעות קו הרגרסיה.
הטקסט הזה מותאם מ- Openstax, Introductory Statistics, Section 12, Linear Regression and Correlation.
בערכת נתונים לא מתואמת, עבור ערך נתון של x, הערך החזוי הטוב ביותר של y הוא הממוצע.
אם למשתנים יש מתאם ליניארי, ניתן לחזות ערך y על ידי החלפת ערך x במשוואת הרגרסיה.
המרחק האנכי בין ערך y החזוי לבין ממוצע המדגם, y-bar, ידוע כסטייה המוסברת. הקשר בין שני המשתנים יכול להסביר סטייה זו.
המרחק האנכי בין נקודת הנתונים לבין ערך y החזוי ידוע כסטייה בלתי מוסברת או השארית. הקשר בין המשתנים אינו יכול להסביר סטייה זו; זה יכול להיות בגלל מקריות בלבד או מעורבות של משתנים אחרים.
סכום הסטיות הבלתי מוסברות והמוסברות נותן את סך הסטיות.
ריבוע הסטיות וסיכומן עבור כל נקודות הנתונים מניב את כמות השונות הבלתי מוסברת, המוסברת והכוללת.
היחס בין השונות המוסברת לשונות הכוללת הוא ערך הריבוע r, הידוע גם כמקדם הקביעה. הוא מציין את החלק היחסי של השונות בערך y שקו הרגרסיה יכול להסביר.
From Chapter 11:
Now Playing
Correlation and Regression
6.5K Views
Correlation and Regression
12.7K Views
Correlation and Regression
8.0K Views
Correlation and Regression
6.7K Views
Correlation and Regression
7.7K Views
Correlation and Regression
5.4K Views
Correlation and Regression
7.4K Views
Correlation and Regression
4.9K Views
Correlation and Regression
2.6K Views
Correlation and Regression
3.6K Views