StudySmarter -一体化的学习应用程序。
4.8•+11k评级
下载量超过300万次
免费的
你们每个人都填过顾客满意度调查吗?比如有人问你的收入水平如何?那么你就参与了分类数据集合!
首先,让我们快速了解一下什么是分类数据。
分类数据是可以分为不同组的数据,而不是用数字来测量。
所以,分类数据的一些例子是头发的颜色,某人养的宠物的类型,以及最喜欢的食物。另一方面,身高、体重和每天喝咖啡的杯数等数据可以用数字来衡量,因此不是分类数据。
有关分类数据及其用途的更详细解释,请参阅文章分类变量.要了解各种类型的数据以及它们是如何使用的,您可以查看One-Variable data和数据分析.
事实上,分类数据有两种类型,名义数据和序数数据。
名义分类数据就是没有赋值的数据。举个例子,如果你问人们他们住在农村还是城市。“农村”和“城市”只是名义上的范畴。
序数分类数据这些数据可以被赋值,但你不能将这些数字相加。例如,如果你做了一个客户满意度调查,并要求人们在\(1\)到\(5\)的范围内对服务进行评分,这将是有序分类数据。请注意,您不能将\(2\)的满意级别和\(4\)的满意级别加在一起,以获得\(6\)的满意级别!
现在你知道什么是分类数据了,但是它和定量数据有什么不同呢?首先看一下定义会有帮助。
定量数据是一种数据,它表示数据集中有多少东西具有特定的质量。
定量数据通常回答“多少”或“多少”这样的问题。例如,如果你想知道人们在购买手机上花了多少钱,就会收集定量数据。定量数据通常用于比较多组数据。要更完整地讨论定量数据及其用途,请查看以下内容定量变量.
分类数据是定性的,而不是定量的!
那么连续数据呢?这是绝对的吗?让我们来看看连续数据的定义。
连续的数据是根据数字刻度测量的数据,其中数据可以是刻度中的任何数字。
连续数据的一个很好的例子是高度。对于\(4 \,ft.\)和\(5 \,ft.\)之间的任何一个数字,都可能有这个高度的人。一般来说,分类数据不是连续数据。
现在您已经看到了分类数据和其他类型之间的一些比较,让我们看一些分类数据的更多示例。
假设你正在举办一个聚会,你想确保每个人都有甜点可以吃。所以你让人们填写一份调查,告诉你他们最喜欢的甜点,然后你把他们的数据收集到一张像下面这样的表格中。
最喜欢的甜点 | 频率 |
冰淇淋 | \ [4 \) |
蛋糕 | \ [2 \) |
水果 | \ (17 \) |
布丁 | \ (5 \) |
饼干 | \ (10 \) |
表中的数据是分类数据吗?
解决方案
是的。因为数据被划分为类别(最喜欢的甜点),这是分类数据。事实上,这将被认为是有序分类数据。
让我们来看另一个例子。
假设你被要求进行一项调查,以决定人们是否喜欢某种特定的软饮料,并得到以下信息:
这是分类数据吗?
解决方案
是的。你可以把答案分成两类,在这种情况下,“喜欢”和“不喜欢”。这是一个名义分类数据的例子。
让我们再看一个例子。
假设你看到有人做的一项调查,测量了某人居住的地方离市中心有多远,并将其与他们的收入进行了比较。这是分类数据吗?
解决方案
这取决于收集数据时提出的问题。让我们来看看几个调查。
调查1
问题1:你住的地方离市中心有多远?
我住在市中心
我住在离市中心1英里以内的地方,但不在市中心。
我住在离市中心1到5英里的地方。
我住的地方离市中心有5英里多。
问题2:你的收入是多少?
(a)每年少于10 000美元。
(b)每年$10 000至$20 000。
(c)每年超过20 000美元。
调查2
问题1:你住的地方离市中心有多少英里?
问题2:你的年收入是多少?
然后调查1将信息划分为类别。它实际上是收集两种类型的分类数据,这些数据可以一起比较。
另一方面,调查2要求人们提供数字。答案可以是任何正数。所以这次调查是在收集连续的数据。数据没有分类,所以它不是分类数据。
问您如何分析分类数据是合理的。
查看分类数据最常用的两种方法是柱状图和饼状图。
让我们回到关于软饮料的例子,你发现14个人喜欢软饮料,50个人不喜欢。你可以只看回答的总数,然后做一个条形图来显示这些信息。
喜欢和不喜欢柱状图
你也可以用这些数据做一个饼图。
饼状图显示了喜欢或不喜欢苏打水的人的百分比
其中任何一种都可以为您提供数据的可视化比较。有关如何为分类数据构造图表的更多示例,请参见条形图。
如果你回到关于甜点的例子,有一个数据表。上面列出了喜欢每种甜点的人数。这种桌子也叫a频率表.你可以把标题“响应次数”改为“频率”(响应频率的简写),表格会给出完全相同的信息。
最喜欢的甜点 |
频率 |
冰淇淋 |
\ [4 \) |
蛋糕 |
\ [2 \) |
水果 |
\ (17 \) |
布丁 |
\ (5 \) |
饼干 |
\ (10 \) |
让我们看一下更正式的定义。
一个分类频率分布将分类数据组织为频率的表。
实际上,上面的表格可以称为a分类频率分布!
一旦你知道了这一点,就可以很正常地问一些问题,比如“参加派对的人中有多少人喜欢吃水果当甜点?”也就是要求相对频率。
的相对频率类别在数据集中出现的次数与数据集中总次数的比例。
换句话说,相对频率就是该类别的数量除以总响应数。因为这些实际上是百分比,如果你把表中所有的相对频率加起来,你应该得到\(1\)或\(100 \%\)。我们来做个例子。
从甜点选择表中,做一个相对频率的表。
最喜欢的甜点 | 频率 |
冰淇淋 | \ [4 \) |
蛋糕 | \ [2 \) |
水果 | \ (17 \) |
布丁 | \ (5 \) |
饼干 | \ (10 \) |
解决方案
首先,你需要知道有多少人回应了调查。你可以把表格的频率列加起来,所以
\[\mbox{总响应}= 4+2+17+5+10 = 38.\]
然后,通过将频率除以总响应数,可以找到每个类别的相对频率。例如,冰淇淋的相对频率是
\[\mbox{冰淇淋的相对频率}= \frac{4}{38} = 0.105 \]
到小数点后三位。
您可以以完全相同的方式填充表的其余部分。
最喜欢的甜点 | 频率 | 相对频率 |
冰淇淋 | \ [4 \) | \ \ (0.105) |
蛋糕 | \ [2 \) | \ \ (0.053) |
水果 | \ (17 \) | \ \ (0.447) |
布丁 | \ (5 \) | \ \ (0.132) |
饼干 | \ (10 \) | \ \ (0.263) |
注意,如果你把所有的相对频率加起来,你会得到\(1\),所以你知道这些很可能是正确的。这是一个很好的检查,看看你是否在正确的轨道上。
类型的表也可以查看累计相对频率.这只是一种奇特的说法,表示这个表包含了它之前所有相对频率的和。
让我们回到甜点桌上(听起来我们都应该得到一块蛋糕,而不是更多的数学)。第一行的累积相对频率就是第一行的相对频率。第二行的累计相对频率由第一行的相对频率加上第二行的相对频率之和给出。这是累积相对频率的表格。
最喜欢的甜点 |
频率 |
相对频率 |
累计相对频率 |
冰淇淋 |
\ [4 \) |
\ \ (0.105) |
\ \ (0.105) |
蛋糕 |
\ [2 \) |
\ \ (0.053) |
\(0.105 + 0.053 = 0.158\) |
水果 |
\ (17 \) |
\ \ (0.447) |
\(0.447 + 0.158 = 0.605\) |
布丁 |
\ (5 \) |
\ \ (0.132) |
\(0.132 + 0.605 = 0.737\) |
饼干 |
\ (10 \) |
\ \ (0.263) |
\(0.263 + 0.737 = 1\) |
但是如果你有两种分类数据并想要比较它们会发生什么呢?
双向表是一种比较分类数据类型的方法。通过一个例子,这是最容易理解的。让我们回到调查
问题1:你住的地方离市中心有多远?
我住在市中心。
我住在离市中心1英里以内的地方,但不在市中心。
我住在离市中心1到5英里的地方。
我住的地方离市中心有5英里多。
问题2:你的收入是多少?
(a)每年少于10 000美元。
(b)每年$10 000至$20 000。
(c)每年超过20 000美元。
有两个问题,每个问题都是一类分类数据。假设您从调查中得到了以下回答:
人的数量 | 问题1 | 问题2 | 人的数量 | 问题1 | 问题2 |
1 | 一个 | 一个 | 7 | b | c |
2 | 一个 | b | 8 | c | 一个 |
3. | d | 一个 | 9 | 一个 | b |
4 | b | c | 10 | d | c |
5 | c | c | 11 | d | b |
6 | d | 一个 | 12 | b | c |
从这种角度来看,很难看出距离市中心的距离和收入之间是否存在任何关系!所以你可以做一个双向表。它的列是第一个问题的回答,行是第二个问题的回答。空的双向表将是:
城市中心 |
1英里内 |
1至5英里 |
超过5英里 |
|
低于1万美元 |
||||
1万到2万美元 |
||||
超过2万美元 |
表中每个部分的条目是给定的同时具有行答案和列答案的响应的总数。
例如,在上表中,人们对问题1的答案是(a)(城市中心),而对问题2的答案是(b)(1万美元到2万美元之间)。所以在“City Center”和“$10,000 - $20,000”的交汇处应该有一个\(2\)。
城市中心 |
1英里内 |
1至5英里 |
超过5英里 |
|
低于1万美元 |
||||
1万到2万美元 |
2 |
|||
超过2万美元 |
您可以用同样的方法填写表格的其余部分。
城市中心 |
1英里内 |
1至5英里 |
超过5英里 |
|
低于1万美元 |
1 |
0 |
1 |
2 |
1万到2万美元 |
2 |
0 |
0 |
1 |
超过2万美元 |
0 |
3. |
1 |
1 |
现在,人们更容易看到距离市中心的距离和收入之间的联系。请注意,如果您将表中的所有条目加起来,就会得到\(12\),这与调查响应的数量完全相同。你可以像平常一样用柱状图来表示。
收入与城市中心距离的柱状图
要图形化地查看双向表中的数据,您可以做一个分段柱状图.在分段柱状图中,图形的每个柱状图都根据该类型的答案数量划分为百分比。有时分段条形图被称为堆叠柱状图.分段柱状图使我们更容易看到每个类别占总数的百分比。
收入与城市中心距离的堆叠柱状图
使用上面的图表,你可以很快地看到,超过一半的年收入超过2万美元的人住在市中心1英里以内!
分类数据是可以分为不同组的数据,而不是用数字来测量。
条形图或饼图。
分类数据的例子包括头发颜色、某人养的宠物类型和最喜欢的食物。
是的,例如收入划分为不同的区间。
条形图。
用个人计划准时做好充分准备。
用游戏化的测验来测试你的知识。
在创纪录的时间内创建并找到抽认卡。
创造美丽的音符比以往任何时候都快。
把你所有的学习材料放在一个地方。
上传无限的文档并在线保存。
明确自己的学习优势和劣势。
设定个人学习目标,并通过实现目标获得积分。
不要再拖延学习提醒了。
在学习的过程中获得积分,解锁徽章和升级。
完全自动地在笔记中创建抽认卡。
使用我们的模板创建最漂亮的学习材料。
报名做标记和笔记。100%免费。