- 产品
- 产品解决方案
- 行业解决方案
- 案例
- 数据资产入表
- 赋能中心
- 伙伴
- 关于
时间:2022-07-05来源:和你遇见浏览数:160次
数据离散程度的度量,接近 0,离散度小,越大,离散程度也大;极差就是最大最小值之间的差值;一个包含 0 或 100 的数据集,与一个 [0,50,...,50,100] 的极差相同;一种更复杂的离散度的度量方式为方差(variance);因为方差很难理解,是原始值的平方,所以一般习惯使用标准差
1.1描述单个数据集
描述数据集简单的方式就是用列表去描述:num_friends = [100, 99, 41, 25]
对于足够量小的数据集上述描述已经足够明确,但是数据集较大时,该方法既不实用,也不直观,盯着 100 万的数看显然不够直观,就需要用统计学来提取和表达数据的相关特征;第一种方式就是使用 Counter 和 plt.bar 将数量放入直方图中;利用 Counter 统计每一个数字出现的次数; # -*- coding: utf-8 -*-"""Spyder EditorAThis is a temporary script file."""from collections import Counterimport matplotlib.pyplot as pltnum_friends = [100, 55, 99, 24, 24, 55]friend_counts = Counter(num_friends)xs = range(101)ys = [friend_counts[x] for x in xs]plt.bar(xs, ys)plt.axis([, 101, , 5])plt.title("Histogram of Friend Counts")plt.xlabel("# of freinds")plt.ylabel("# of people")plt.show()
1.2中心倾向
通常了解数据中心,一般采用均值;如果有两个数据点,均值就是它们的中间点;当添加更多数据点时,均值也会随之移动;有时候也会对中位数(median)感兴趣,是中间的点值或者中间两个点的均值,取决于数据集是奇数还是偶数;中位数的一个泛化概念是中位数(quantile),标识在排序后的数据中某个百分比位置的值(中位数表示在 50% 位置的数据的值); # -*- coding: utf-8 -*-"""Spyder EditorAThis is a temporary script file."""from typing import Listdef quantile(xs:List[float], p:float) -> float:p_index = int(p * len(xs))return sorted(xs)[p_index]print(quantile([1, 3, 4, 1, 2], 0.25)) #1众数(mode):出现次数最多的一个或多个值; # -*- coding: utf-8 -*-"""Spyder EditorAThis is a temporary script file."""from typing import List,Counterdef mode(xs: List[float]) -> List[float]:"""因为众数可能有多个,所以需要返回一个列表"""counts = Counter(xs)max_counts = max(counts.values())return [x_i for x_i, count in counts.items() if count == max_counts]print(mode([1,2,3,41,1,2])) #[1, 2]1.3离散度
离散度(dispersion):数据离散程度的度量,接近 0,离散度小,越大,离散程度也大;极差就是最大最小值之间的差值;一个包含 0 或 100 的数据集,与一个 [0,50,...,50,100] 的极差相同;一种更复杂的离散度的度量方式为方差(variance);因为方差很难理解,是原始值的平方,所以一般习惯使用标准差;
1.4相关
比如想要看用户在网站上花费的时间与其在该网站上拥有的朋友数量相关;命名一个为 daily_minutes 的列表,该列表中的元素与之前 num_friends 列表的元素对应,以进一步探索关系;协方差:方差的孪生兄弟;方差衡量单个变量对其均值的偏离程度,协方差衡量两个变量对其均值的共同偏离程度;
上一篇:教练式管理工具与技术...
下一篇:智能制造10步走...