假设检验怎么定样本数量

2024-11-02

如何确定假设检验的样本量（sample size）？

在<如何计算假设检验的功效(power)和效应量(effect size)?>一文中,我们讲述了如何根据显著性水平α,效应量和样本容量n,计算功效,以及如何根据显著性水平α,功效和样本容量n,计算效应量.但这两个应用都属于事后检验,也就是说,就算假设检验之后计算出的功效或效应量不理想,我们也没有办法改变.因此,我们最好事先就把我们想要达到的功效和效应量确定好,然后根据显著性水平α,功效和效应量,计算样本容量n.这种事前检验的应用用得比较多. 此外,我们都知道,如果假设检验选取的样本量很小,那么

PCA样本数量少于矩阵维数

%test pcaA=[3,7,1,4,1;5,5,2,1,3;4,2,4,5,3];S=cov(A);T=cov(A');[ds,vs]=eig(S)[dt,vt]=eig(T) 样本数量少于矩阵维数,发现[dt,vt]=eig(S)中非零特征值个数总是等于:样本数量-1 其二,用转置来替代的话,暂没有发现什么规律

R语言-选择样本数量

功效分析:可以帮助在给定置信度的情况下,判断检测到给定效应值时所需的样本量,也可以在给定置信水平的情况下,计算某样本量内可以检测到的给定效应值的概率 1.t检验案例:使用手机和司机反应时间的实验 library(pwr) # n表示样本大小 # d表示标准化均值之差 # sig.level表示显著性水平 # power为功效水平 # type指的是检验类型 # alternative指的是双侧检验还是单侧检验 pwr.t.test(d=.8,sig.level = .05,power = .9

假设检验（Hypothesis Testing）

假设检验(Hypothesis Testing) 1. 什么是假设检验呢? 假设检验又称为统计假设检验,是数理统计中根据一定假设条件由样本推断总体的一种方法. 什么意思呢,举个生活中的例子:买橘子(借用http://www.360doc.com/content/16/0617/08/31718185_568436468.shtml) 当我们去买橘子的时候,无论甜不甜,老板都会说:"挺甜的,不信拿一个尝尝".我们随手拿一个(这就相当于抽样),此时我们对于这些橘子甜或不甜的判断全基于这个橘

Python：SMOTE算法——样本不均衡时候生成新样本的算法

Python:SMOTE算法直接用python的库, imbalanced-learn imbalanced-learn is a python package offering a number of re-sampling techniques commonly used in datasets showing strong between-class imbalance. It is compatible with scikit-learn and is part of scikit-l

100天搞定机器学习|Day16 通过内核技巧实现SVM

实现径向变换用于样本增强《Training Neural Networks with Very Little Data-A Draft》

背景: 做大规模机器学习算法,特别是神经网络最怕什么--没有数据!!没有数据意味着,机器学不会,人工不智能!通常使用样本增强来扩充数据一直都是解决这个问题的一个好方法. 最近的一篇论文<Training Neural Networks with Very Little Data-A Draft>提出了一个新的图像样本增强方法:对图像使用径向变换生成不同"副本",解决样本数量太少难以训练的问题.论文地址:https://arxiv.org/pdf/1708.04347.pdf

样本失衡会对SVM的影响

假设正类样本远多于负类 1.线性可分的情况假设真实数据集如下: 由于负类样本量太少,可能会出现下面这种情况使得分隔超平面偏向负类.严格意义上,这种样本不平衡不是因为样本数量的问题,而是因为边界点发生了变化 2.线性不可分的情况源数据以及理想的超平面情况如下: 很可能由于负类样本太少出现以下这种情况,超平面偏向负类解决不平衡的方案: [SVM对不平衡本身并不十分敏感] [SVM的超平面只与支持向量有关,因此原离决策超平面的数据的多少并不重要] 1.过抽样(随机过抽样) 2.欠抽样(对多数类

Android恶意样本数据集汇总

硕士论文的研究方向为Android恶意应用分类,因此花了一点时间去搜集Android恶意样本.其中一部分来自过去论文的公开数据集,一部分来自社区或平台的样本.现做一个汇总,标明了样本或数据集的采集时间.样本数量.对于论文以及获取方式. List some android malware datasets in academic research.Some of them are still up to date. 我这里有Drebin的数据集,以及VirusTotal(2018.3)的andro

思科恶意加密TLS流检测论文记录——由于样本不均衡，其实做得并不好，神马99.9的准确率都是浮云啊，之所以思科使用DNS和http一个重要假设是DGA和HTTP C&C（正常http会有图片等）。一开始思科使用的逻辑回归，后面17年文章是随机森林。

论文记录:Identifying Encrypted Malware Traffic with Contextual Flow Data from:https://songcoming.github.io/lectures/%E8%AE%BA%E6%96%87%E8%AE%B0%E5%BD%95-Identifying-Encrypted-Malware-Traffic-with-Contextual-Flow-Data.html 0x00 本系列笔记是用来记录论文阅读过程中产生的问题与思考的随

[ML] 解决样本类别分布不均衡的问题

转自:3.4 解决样本类别分布不均衡的问题 | 数据常青藤 (组织排版上稍有修改) 3.4 解决样本类别分布不均衡的问题说明:本文是<Python数据分析与数据化运营>中的“3.4 解决样本类别分布不均衡的问题”. -----------------------------下面是正文内容-------------------------- 所谓的不平衡指的是不同类别的样本量异非常大.样本类别分布不平衡主要出现在分类相关的建模问题上.样本类别分布不均衡从数据规模上可以分为大数据分布不均衡和小数

【深度学习】Focal Loss 与 GHM——解决样本不平衡问题

Focal Loss 与 GHM Focal Loss Focal Loss 的提出主要是为了解决难易样本数量不平衡(注意:这有别于正负样本数量不均衡问题)问题.下面以目标检测应用场景来说明. 一些 one-stage 的目标检测器通常会产生很多数量的 anchor box,但是只有极少数是正样本,导致正负样本数量不均衡.这里假设我们计算分类损失函数为交叉熵公式. 由于在目标检测中,大量的候选目标都是易分样本,这些样本的损失很低,但是由于数量极不平衡,易分样本数量相对来说太多,最终主导了总的损失

为什么ROC曲线不受样本不均衡问题的影响

转自:https://blog.csdn.net/songyunli1111/article/details/82285266 在对分类模型的评价标准中,除了常用的错误率,精确率,召回率和F1度量外,还有两类曲线:ROC曲线和PR曲线,它们都是基于混淆矩阵,在不同分类阈值下两个重要量的关系曲线. 在二分类问题中,分类器将一个实例分类为正样本和负样本,全部分类样本可以用一个混淆矩阵来表示.混淆矩阵有四个分类,如下表: 对于PR曲线,它是精确率(precision,简称P)和召回率(Recall,简

机器学习 - 案例 - 样本不均衡数据分析 - 信用卡诈骗 ( 标准化处理, 数据不均处理, 交叉验证, 评估, Recall值, 混淆矩阵, 阈值 )

案例背景银行评判用户的信用考量规避信用卡诈骗 ▒ 数据数据共有 31 个特征, 为了安全起见数据已经向了模糊化处理无法读出真实信息目标其中数据中的 class 特征标识为是否正常用户 (0 代表正常, 1 代表异常) ▒ 目标本质依旧是一个分类问题, 0/1 的问题判断是否为信用卡诈骗用户而在数据中 class 已经进行标识, 而且这次的样本数据的两项结果是极度的不均衡既正常用户的样本数量是远远大于异常数据的. 不均衡的数据处理方式可以进行下采样, 或者上采样 ▨ 下采样 - 对

R语言与概率统计(二) 假设检验

> ####################5.2 > X<-c(159, 280, 101, 212, 224, 379, 179, 264, + 222, 362, 168, 250, 149, 260, 485, 170) > t.test(X,alternative='greater',mu=225,conf.level = 0.95)#单边检验 One Sample t-test data: X t = 0.66852, df = 15, p-value = 0.257

Python解决数据样本类别分布不均衡问题

所谓不平衡指的是:不同类别的样本数量差异非常大. 数据规模上可以分为大数据分布不均衡和小数据分布不均衡.大数据分布不均衡:例如拥有1000万条记录的数据集中,其中占比50万条的少数分类样本便于属于这种情况.小数据分布不均衡:例如拥有1000条数据样本的数据集中,其中占有10条的少数分类样本便于属于这种情况. 样本类别分布不平衡主要出现在分类问题的建模上.导致样本量少的分类所包含的特征过少,很难从中提取规律:即使得到分类模型,也容易产生过度依赖于有限的数据样本而导致过拟合的问题,当模型应用到新的数

【小白学AI】八种应对样本不均衡的策略

文章来自:微信公众号[机器学习炼丹术] 目录 1 什么是非均衡 2 8种解决办法 2.1 重采样(四种方法) 2.2 调整损失函数 2.3 异常值检测框架 2.4 二分类变成多分类 2.5 EasyEnsemble 1 什么是非均衡分类(classification)问题是数据挖掘领域中非常重要的一类问题,目前有琳琅满目的方法来完成分类.然而在真实的应用环境中,分类器(classifier)扮演的角色通常是识别数据中的"少数派",比如: 银行识别信用卡异常交易记录垃圾邮件识别检测

Bert文本分类实践（三）：处理样本不均衡和提升模型鲁棒性trick

目录写在前面缓解样本不均衡模型层面解决样本不均衡 Focal Loss pytorch代码实现数据层面解决样本不均衡提升模型鲁棒性对抗训练对抗训练pytorch代码实现知识蒸馏防止模型过拟合正则化 L1和L2正则化 Dropout 数据增强 Early stopping 交叉验证 Batch Normalization 选择合适的网络结构多模型融合参考资料写在前面文本分类是nlp中一个非常重要的任务,也是非常适合入坑nlp的第一个完整项目.虽然文本分类看似简单,但

联邦学习：按Dirichlet分布划分Non-IID样本

我们在<Python中的随机采样和概率分布(二)>介绍了如何用Python现有的库对一个概率分布进行采样,其中的dirichlet分布大家一定不会感到陌生.该分布的概率密度函数为 \[P(\bm{x}; \bm{\alpha}) \propto \prod_{i=1}^{k} x_{i}^{\alpha_{i}-1} \\ \bm{x}=(x_1,x_2,...,x_k),\quad x_i > 0 , \quad \sum_{i=1}^k x_i = 1\\ \bm{\alpha} =

利用DP-SSL对少量的标记样本进行有效的半监督学习

作者 | Doreen 01 介绍深度学习之所以能在图像分类.自然语言处理等方面取得巨大成功的原因在于大量的训练数据得到了高质量的标注. 然而在一些极其复杂的场景(例如:无人驾驶)中会产生海量的数据,对这些数据进行标注将会产生大量的时间成本和人工成本. 近些年,研究人员提出了active learning, crowd labeling, distant supervision,semi/weak/self-supervision等方法试图缓解人工标记的工作量.其中,半监督学习 (SSL)是运

联邦学习：按混合分布划分Non-IID样本

我们在博文<联邦学习:按病态独立同分布划分Non-IID样本>中学习了联邦学习开山论文[1]中按照病态独立同分布(Pathological Non-IID)划分样本. 在上一篇博文<联邦学习:按Dirichlet分布划分Non-IID样本>中我们也已经提到了按照Dirichlet分布划分联邦学习Non-IID数据集的一种算法.下面让我们来看按Dirichlet分布划分数据集的另外一种变种,即按混合分布划分Non-IID样本,该方法为论文[2]中首次提出. 该论文提出了一个重要的假设

假设检验怎么定样本数量

热门专题