文章目录
- 📚数据可视化的基本流程
- 📚数据属性
- 📚基本可视化图表类型
- 🐇数据分析三规则
- 🐇条形图(Bar Chart)
- 🐇饼图(Pie Chart)
- 🐇衡量易变性 (measure variability)
- 🔥range
- 🔥The median
- 🔥Quartiles
- 🔥Interquartile Range
- 🐇盒须图(Boxplot)
- 🐇直方图(Histograms)
- 🐇茎叶显示(Stem and Leaf Displays)
- 📚小结
📚数据可视化的基本流程
- Parameter refinement:参数优化
📚数据属性
- Nominal(标称)
- Ordinal(序数)
- Quantitative(数量)
📚基本可视化图表类型
🐇数据分析三规则
- 显示在原始数据中不明显的方面,使您能够清楚地思考可能隐藏在数据中的模式和关系。
- 显示数据中的重要特征和模式。您还可能看到一些您没有想到的东西:异常的(可能是错误的)数据值或意外的模式。
- 制作一张图片——告诉别人你的数据的最好方法是用一张精心选择的图片。
🐇条形图(Bar Chart)
- 条形图:显示每个类别的计数或相对频率
🐇饼图(Pie Chart)
- 饼图:显示每个类别中整体的比例
🐇衡量易变性 (measure variability)
🔥range
- range = largest - smallest
🔥The median
- a measure of center
🔥Quartiles
- Measuring spread by examining the middle
- Step 1: find the median of all the data (the median divides the data in half)
- Step 2a: find the median of the lower half; this median is Q1;
- Step 2b: find the median of the upper half; this median is Q3.
- when n is odd include the overall median in both halves;
- when n is even do not include the overall median in either half.
🔥Interquartile Range
- Measures spread of middle 50% of the data
🐇盒须图(Boxplot)
- construct box:末端位于Q1和Q3;在框中标记中间的位置(通常用一条线或“+”)
- 围栏通过移动距离1.5(IQR)来确定:
- 上围栏比上四分位数多1.5*IQR
- 下围栏比下四分位数低1.5*IQR
- 注意:围栏只有助于构建箱线图,它们不会出现在最后的箱线图显示中。
- whiskers:从盒子的左右两端画线到极值。
- outliers:极端值
🐇直方图(Histograms)
- 直方图显示了三种一般类型的信息:
- 它提供了数据的近似中心位置的可视化指示。
- 我们可以了解数据中传播或变化的程度。
- 我们可以观察到其分布的形状。
🐇茎叶显示(Stem and Leaf Displays)
- 优点:
- each measurement displayed(显示全面)
- ascending order in each stem row(叶子升序排列)
- relatively simple (data set not too large)(针对数据集不大的情况相对简单)
- 缺点:display becomes unwieldy for large data sets(大数据集不适用)