Data Sampling and Probability

Type
Lecture
先过了一遍课程网站,介绍了各个部分,例如论坛、日历等。
从人口普查介绍了数据是如何获取的,然后引入了抽样。
在抽样这一块,着重介绍了随机抽样,然后简单讲了一下二项分布和多项分布。
这是一节纯PPT的课,

抽样

抽样概念

Population(target population,目标群体): The group that you want to learn something about.
Sampling Frame(抽样框): The list from which the sample is drawn.
  • If you’re sampling people, the sampling frame is the set of all people that could possibly end up in your sample.
Sample: Who you actually end up sampling.
  • A subset of your sampling frame.
notion imagenotion image
举个例子,想要调查参加 本课程的学生对本课程的评价。
目标群体是所有注册该课程的学生,但是我们调查的时候,是从教室上课学生中抽样调查,即样本框是参加这节课的学生。一方面教室的学生不一定注册了本课程,另一方面注册了该课程的不一定参加这节课了。所以样本框 和目标群体不完全重合的。
这种误差不可避免的!
关于 样本框的内容,参见 What is a Sampling Frame? - Statology

抽样案例

1936 Presidential Election
选举之前,某杂志《人文杂志》做了一个抽样调查,预测罗斯福被评选概率为43%,而实际结果为61%。为什么呢?
  • 一方面抽样样本不具有代表性。杂志社抽样调查时样本框为:固定电话号码 + 杂志订阅会员、某乡村俱乐部会员,这些人群大都比较富有,更倾向于投共和党
  • 只有24%的人群填写了调查问卷。
在抽样时一些常见的偏差:
Selection Bias
  • Systematically excluding (or favoring) particular groups.
  • How to avoid: Examine the sampling frame and the method of sampling.
Response Bias
  • People don’t always respond truthfully.
  • How to avoid: Examine the nature of questions and the method of surveying.
Non-response Bias
  • People don’t always respond.
  • How to avoid: Keep your surveys short, and be persistent.
  • People who don’t respond aren’t like the people who do!

概率抽样(随机抽样)

简介

抽样时,尽可能的保证样本能代表目标群体。不要总想着大样本,如果抽样方式错误,那么即使有大样本,也只能是 Big Bad Sample。因此 要质量而不是数量
为什么要随机抽样?一个原因是为了减少偏见,但这并不是主要原因!
  • 随机抽样可以产生对人口特征的有偏见的估计。
    • 例如,如果我们要估计一个人口的最大值。
  • 但是有了随机样本,我们就能够估计出偏差和偶然误差。
    • 我们可以对不确定性进行量化。
从随机抽样方案中抽取的概率样本具有以下特性。
  • 你必须能够提供任何指定的个人集合将出现在样本中的机会。
  • 人口中的所有个体不需要有相同的机会被选中。
  • 你仍然能够测量误差,因为你知道所有的概率。
常见的随机抽样方案:
  • 有放回的随机样本是指在有放回的情况下均匀地随机抽取的样本。这里的随机并不总是意味着 "均匀地随机",但在这个特定的背景下,它确实如此。
  • 简单随机抽样(SRS)是一种不需要放回的均匀随机抽样。
    • 每个个体(和个体的子集)都有相同的机会被选中。
    • 每一对都有与其他每一对相同的机会。
    • 每一个三联体与其他每一个三联体有相同的机会。
    • 以此类推。
例如,班级名册有 1100 名学生按字母顺序排列。随机选择列表中的前 10 名学生之一。现在抽取样本,选取该学生以及之后列出的每 10 名学生(例如学生 8、18、28、38 等)。
这是随机抽样,且每名学生被抽到的概率均为 1/10, 但是这不是简单随机抽样,因为选择(8,18)的机会是1/10;选择(8,9)的机会是0。
 
当目标群体足够大时,有放回抽样和无放回抽样是几乎一样的
数据科学中的一种常见情况。我们有一个巨大的人口。我们只能对相对较少的个体进行采样。 如果人口与样本相比是巨大的,那么有放回的随机抽样和不放回的随机抽样几乎是一样的。
Example: Suppose there are 10,000 people in a population. Exactly 7,500 of them like Snack 1; the other 2,500 like Snack 2.
What is the probability that in a random sample of 20, all people like Snack 1?
  • SRS (Random Sample Without Replacement) :
notion imagenotion image
  • Random Sample With Replacement:

应用:民意调查

对于一个给定的样本,需要采访的实际人数在某种程度上不如平等选择概率原则的合理性重要...…

多项和二项概率分布

简答介绍了一下,如果忘记了,建议看 郑少伟的概率论