开头便告诉我们从统计视角看案例数据,确定研究的样本、步骤、问题,只研究供暖季的数据,数据处理的两种方式:
第一,计算该时段各站点各变量均值,样本量 35
第二,忽略时间上的差异,视数据为截面数据。优势:有效扩大了样本量(采纳)
研究步骤和问题:
第一步,样本数据的描述统计。
涉及问题:
了解数据缺失状况
基本描述统计
诊断极端值:从统计视角检测 PM2.5 爆表情况
第二步,依据样本,对样本来自的总体参数进行估计和对比。
涉及问题:
估计北京市供暖季 PM2.5(一个总体)的平均值
交通污染对 PM2.5 的影响:对比西直门北(区域)和定陵(区域)供暖季的 PM2.5(两总体)的平均值
第三步,基于样本数据的深入研究
探讨 PM2.5 成因,对比北京四个不同区域(西北、西南、正南、东/东南)PM2.5 总体均值差异
探讨 PM2.5 的空间特征和空气质量的区域划分
探讨 AQI 的全面性问题
接下来针对研究步骤和问题展开讲解,从最基础的直方图、概率密度函数、四分位数等内容到十分经典的假设检验、Bootstrap、多元线性回归、聚类分析、主成分分析都有讲解。
然后为我们带来了第二个案例,基于 HR 的调查研究 IT 员工离职问题,研究离职主要因素并预测是否离职。
因为这里研究的二分类变量与其他变量之间的关系,对二分类的被解释变量不可以直接采用一般多元线性回归分析方法,因此进行改进如下: