文档介绍:
· 检查两个变量之间的关系
· 检查有无异常值
· 使用不规则的依赖时间变化的数据创建时间序列图
数据说明
一家健康评估公司的研究小组正在寻找一种预测一个人的身体脂肪百分比的方法。直接进行健康测量很困难也很昂贵。该小组希望在他们的模型中包括一个易于测量的预测变量,并且他们正在考虑使用“体重指数 (BMI)”。
解释:BMI 和脂肪数据的散点图显示了两个变量之间的强度很大的正线性关系。体重指数 (BMI) 可能是身体脂肪百分比的一个好的预测变量。
*
各种图图表的作用和用法
*
使用散点图评估两个变量之间的关系的方向、强度和线性:
· 同时趋向于上升的数据值指示正相关性。
· 如果随着一个数据值的降低而另一个数据值升高,则指示负的相关性。
· 关系强度越大,所生成的数据点聚类就越紧密。
· 异常值将落于远离主要点组处。
可以直观地确定关系是直线还是曲线。如果关系是曲线,则您可能需要包括高次项以准确地对弯曲程度建模(请参见多项式回归 )。
当依赖时间变化的数据不是按时间顺序排列,或数据采集区间不规则时,应使用散点图而不是时间序列图。
*
各种图图表的作用和用法
*
典型的矩阵图包含下列元素:
· 散点图 的矩阵
· 矩阵的行和列,每一行和每一列都代表一个单独的变量
· 每个散点图的一个内部 x 和 y 轴尺度
使用矩阵图同时评估多个变量对之间的关系。这一概要可帮助您决定要将哪些变量包括在模型中,以及如何对这些变量建模。查看散点图的阵列,确定哪些变量显示为相互关联。如果一个预测变量与响应变量不相关,您可能希望从模型中排除该预测变量。如果关系是曲线,则您可能需要包括高次项以准确地对弯曲进行建模
矩阵图
解释:BMI 和脂肪数据的散点图显示了两个变量之间的强度很大的正线性关系。此外,数据点形成了一条紧密的直线,说明简单线性模型与数据拟合良好。“体重指数 (BMI)”可能是应包括在模型中的一个很好的变量。另一方面,由加速度计测量的活动没有显示出与身体脂肪百分比的相互关联性。您可能决定从模型中排除“活动”。
*
各种图图表的作用和用法
*
边际图
使用边际图可以:
· 图解两个变量之间的关系
· 评估两个变量的分布
· 检查有无异常值
边际图是在 x 和 y 轴的边际中带有直方图、箱线图或点图的散点图。通过将散点图与这些其他图形之一合并,边际图可以提供比单个图形所能提供更多的信息。散点图突出显示两个变量之间的关系,而边际中的图形突出显示每个变量的分布。
数据说明:由于目标客户在身高和体重方面的变化,一家服装制造商正在考虑更改对服装尺寸的测量方法以及每种尺寸生产的比例。作为其初步研究的一部分,他们测量了 79 名十岁以下女孩(重要客户群)的身高(米)和体重(千克)。
典型的边际图包含下列元素:
· 一个散点图
· 在 x 和 y 轴边际中的直方图、箱线图或点图
通过将散点图与这些其他图形之一合并,边际图可以提供比单个图形更多的信息。
观察散点图以检查两个变量之间关系的方向、强度和线性。边际中的图形突出显示每个变量的分布
在身高和体重数据中,散点图显示两个变量之间有略微弯曲的正关系。身高直方图显示此分布以 米为中心并且对称。体重直方图显示此分布的众数在大约 45 千克处,并且正向