11.8: וריאציה

Variation
JoVE Core
Statistics
A subscription to JoVE is required to view this content.  Sign in or start your free trial.
JoVE Core Statistics
Variation
Please note that all translations are automatically generated. Click here for the English version.

6,805 Views

01:19 min
April 30, 2023

Overview

מאפיין חשוב של כל קבוצה של נתונים הוא השונות בנתונים. בערכות נתונים מסוימות, ערכי הנתונים מרוכזים קרוב מאוד לממוצע; בערכות נתונים אחרות, ערכי הנתונים מפוזרים באופן נרחב יותר מהממוצע. המדד הנפוץ ביותר לשונות, או התפשטות, הוא סטיית התקן, שהיא השורש הריבועי של השונות.

כאשר משתנים בלתי תלויים ותלויים משורטטים בתרשים פיזור, שיפוע הקו הוא ערך המתאר את קצב השינוי בין שני המשתנים. השיפוע אומר לנו כיצד משתנה המשתנה התלוי (y) עבור כל עלייה של יחידה אחת במשתנה הבלתי תלוי (x), בממוצע. יירוט y מתאר את המשתנה התלוי כאשר המשתנה הבלתי תלוי שווה לאפס. ניתן לשרטט קו רגרסיה, או קו בעל התאמה מיטבית, על תרשים פיזור ולהשתמש בו כדי לחזות תוצאות עבור משתני x ו– y בערכת נתונים נתונה או בנתוני מדגם.

ההפרש בין ערך המדגם הנצפה, y, לבין הערך החזוי,Equation1 ממשוואת הרגרסיה, ידוע כסטייה בלתי מוסברת. ואילו ההפרש בין הערך החזוי לבין ממוצע המדגם, y̅, נקרא הסטייה המוסברת. ההבדל בין הערך הנצפה, y, לבין ממוצע המדגם, , הוא הסטייה הכוללת.

אם נוסיף את ריבועי הסטיות המוסברות עבור כל נקודות הנתונים, נקבל את השונות המוסברת. באותו אופן, אם נוסיף את הריבועים של הסטיות הבלתי מוסברות עבור כל נקודות הנתונים, נקבל את השונות הבלתי מוסברת. כמו כן, אם נוסיף את הריבועים של סך הסטיות עבור כל נקודות הנתונים, נקבל את השונות הכוללת. חלוקת השונות המוסברת בסטייה הכוללת נותנת לנו את הערך של מקדם הקביעה, r2, המייצג את אחוז השונות במשתנה התלוי y שניתן להסביר על ידי שונות במשתנה הבלתי תלוי x באמצעות קו הרגרסיה.

טקסט זה מעובד מתוך Openstax, מבוא, סטטיסטיקה, סעיף 12, רגרסיה ליניארית ומתאם.

Transcript

בערכת נתונים לא מתואמת, עבור ערך נתון של x, הערך החזוי הטוב ביותר של y הוא הממוצע.

אם למשתנים יש מתאם ליניארי, ניתן לחזות ערך y על ידי החלפת ערך x במשוואת הרגרסיה.

המרחק האנכי בין ערך y החזוי לבין ממוצע המדגם, y-bar, ידוע כסטייה המוסברת. הקשר בין שני המשתנים יכול להסביר סטייה זו.

המרחק האנכי בין נקודת הנתונים לבין ערך y החזוי ידוע כסטייה בלתי מוסברת או השארית. הקשר בין המשתנים אינו יכול להסביר סטייה זו; זה יכול להיות בגלל מקריות בלבד או מעורבות של משתנים אחרים.

סכום הסטיות הבלתי מוסברות והמוסברות נותן את סך הסטיות.

ריבוע הסטיות וסיכומן עבור כל נקודות הנתונים מניב את כמות השונות הבלתי מוסברת, המוסברת והכוללת.

היחס בין השונות המוסברת לשונות הכוללת הוא ערך הריבוע r, הידוע גם כמקדם הקביעה. הוא מציין את החלק היחסי של השונות בערך y שקו הרגרסיה יכול להסביר.

Key Terms and definitions​

  • Variation - The spread or deviation of the data values in relation to the mean of the data set.
  • Standard Deviation - The most common measure of variation, and equal to the square root of variance.
  • Regression Line - A predictive line indicating the relation between dependent and independent variables in a scatter plot.
  • Explained and Unexplained Variation - The parts of total variation attributable to and not attributable to the Regression Line, respectively.
  • Coefficient of Determination - Represents percentage of variation in dependent variable that can be explained using the Regression line.

Learning Objectives

  • Define Variation – Understand the spread in a given dataset (e.g., variation)
  • Contrast Explained and Unexplained Variation – Understand the different components of total variation (e.g., Explained and Unexplained Variation).
  • Explore Regression Line – Understanding its role in predicting values (e.g., Regression Line).
  • Explain Coefficient of Determination - Understanding what it represents.
  • Apply in Context – Understand how these concepts come together when analyzing a data set.

Questions that this video will help you answer

  • What is variation and how does it relate to standard deviation?
  • What's the role and significance of Regression Line in a scatter plot?
  • What is the coefficient of determination, and what does it represent?

This video is also useful for

  • Students – Understand how these key terms can help comprehend dataset characteristics
  • Educators – Provides a clearer framework for the teaching of the topic
  • Researchers – Crucial elements for a much broader scientific study or methodology
  • Science Enthusiasts – Offers insights and understandings that can satisfy curiosity towards these topics.