业界动态
【原】一项对变量进行各种转换的指南, 从低阶到高阶再到更高阶全覆盖!
2024-11-25 10:55

在数据分析中,转换是将一个变量替换为该变量的某个函数的过程,例如将变量x替换为其平方根或对数。更严格地说,转换是一种改变分布或关系形态的替代。

【原】一项对变量进行各种转换的指南, 从低阶到高阶再到更高阶全覆盖!

对于存在离散值或出现左偏或右偏的变量,我们首先想到的是对数化转换,但除此之外,我们还应该考虑一些其他数据转换方式,让变量更倾向于正态分布。
反双曲正弦变换Inverse hyperbolic sine transformation:gen new_y = asinh(y)
立方根转换cube root transformation:gen curt_y = cond(y < 0 , -(-y)^(1/3), y^(1/3))
neglog转换neglog transformation:gen neglog_y = sign(y) * log(1 + abs(y))
Box-cox转换box-cox transformaiton: boxcox

下面简要整理一下数据转换指南(从低阶到高阶再到更高阶),读罢,会让我们对数据的转换有一个更为系统的认识。

下面的内容当然没有涵盖所有文献,甚至在引用文献方面也不算十分丰富。其中两篇对我们理解产生了特别深远影响的文章是 Emerson 和 Stoto (1983) 以及 Emerson (1983)。这些文章背后反映了John Wilder Tukey(1915-2000) 对数据转换价值的持续强调。
本文涵盖以下主题。你可以按顺序阅读,也可以直接跳转到每个部分。
  • 使用转换的原因

  • 最常见转换的回顾

  • 心理评论 - 针对困惑的人

  • 如何在Stata中进行转换

    • 用于比例和百分比的转换

    • 转换作为一个家族

    • 用于既有正值又有负值的变量的转换

1.使用转换的原因
有许多使用转换的理由。这里列举的并不全面。
  1. 方便

  2. 减少偏斜

  3. 等间距

  4. 线性关系

  5. 加法关系

如果只关注一个变量,1、2和3是相关的,而如果关注两个或更多变量,则4和5更为重要。然而,通常实现4和5的转换往往也会实现2和3。
  1. 方便

    一个转换后的比例可能与原比例一样自然,但对于特定目的可能更方便(例如百分比而不是原始数据,正弦而不是度数)。

    一个重要的例子是标准化,通过调整值以适应不同的水平。一般来说:

    标准化后的值 = (value - level) / spread

    标准化后的值具有0-1取值:因此,标准化对于比较以不同单位表示的变量非常有用。通常使用变量的平均值和标准差(sd)来计算标准分数:

    z = (x - x的均值) / x的标准差

    标准化对分布的形状没有影响。

  2. 减少偏斜

    转换可用于减少偏斜。对称或接近对称的分布通常比偏斜分布更容易处理和解释。更具体地说,正态或高斯分布通常被认为是理想的,因为它被许多统计方法所假定。

    要减少右偏斜,可以取平方根、对数或倒数(平方根是最弱的)。这在实践中是最常见的问题。

    要减少左偏斜,可以取平方、立方或更高次幂。

  3. 等间距

    转换可用于产生大致相等的间距,尽管水平存在显著变化,这样的数据更容易处理和解释。每个具有大致相同的spread或变异性的数据集或子集是一种称为同方差性的条件,其对立面被称为异方差性。

  4. 线性关系

    在研究变量之间的关系时,通常更容易考虑大致线性的模式,而不是高度曲线的模式。这在使用线性回归时尤为重要,它等同于将这样的模式拟合到数据中。(在Stata中, 是进行回归的基本命令。)

    例如,将一系列值的对数绘制为时间的函数具有一个性质,即具有恒定变化率(增长或下降)的时期会以直线呈现。

  5. 加法关系

    关系是加法而不是乘法时通常更容易分析。因此:

    y = a + bx

    其中两个项 a 和 bx 相加比

    y = ax^b

    其中两个项 a 和 x^b 相乘更容易处理。加法性是方差分析中的一个重要问题(在Stata中,、 等)。

在实践中,转换通常会奇迹般地同时实现其中几个目标,尤其是减少偏斜,产生几乎相等的间距以及产生几乎线性或加法关系。
2.常见转换方式综述
在初级数据分析中,最常用的转换包括倒数、对数、立方根、平方根和平方。即使没有特别强调,以下讨论假设转换仅在其产生(有限的)实数结果的范围内使用。
倒数将变量x转换为1/x,相反数则将x转换为-1/x。这是一种强力转换,对于改变分布形状具有显著影响。虽然无法应用于零值,但对负值可以使用,前提是所有值都为正时才会得到实际意义的结果。
常见用途包括:
  • 将人口密度(人数/每单位面积)转换为单位面积/每人;

  • 将每位医生服务的人数转换为每人服务的医生数量;

  • 将侵蚀速率转换为侵蚀单位深度所需的时间。

倒数会颠倒具有相同符号的值的顺序,即最大值会变为最小值,依此类推。而负数的倒数会保持相同符号的值的顺序。
对数以10为底的log(x)、以e为底的ln(x),或以2为底的log2(x)表示,是一种对分布形状产生显著影响的强力转换。通常用于减少右偏斜,特别适用于测度变量。无法应用于零或负值。
指数增长或下降可通过取对数变为线性关系:
y = a * exp(bx) 可变为 ln(y) = ln(a) + bx。
对数在形成变量线性关系模型中非常有效。
立方根将变量x转换为x^(1/3),是一种对分布形状产生显著影响的较强转换,但比对数弱。通常用于减少右偏斜,可适用于零和负值。
需要注意,一个体积的立方根具有长度的单位,通常应用于降雨数据。
平方根将变量x转换为x^(1/2) = sqrt(x),对分布形状有中等影响,比对数和立方根弱。通常用于减少右偏斜,也可以应用于零值。
需要注意,一个面积的平方根具有长度的单位,通常应用于计数数据,尤其是如果值大多数比较小。
平方将变量x转换为x^2,对分布形状有中等影响,可用于减少左偏斜。通常用于通过二次函数y = a + b x + c x^2拟合响应变量。
平方通常只在变量为零或正值时才有意义,因为(-x)^2和x^2是相同的。
选择转换的主要标准是它在数据上的实际效果。同时,还需考虑以下两个问题:
  1. 在物理(生物、经济等)层面上,是否合理,尤其在数值很小时或很大时的行为?

  2. 是否能保持尺度和单位的简单和方便?

对转换的主要动机是为了更轻松地描述数据。虽然转换后的刻度可能看起来不那么自然,但这在很大程度上是一种心理上的反对意见。随着对转换的经验增加,这种感觉往往会减弱,因为转换往往效果显著。实际上,许多熟悉的测量刻度实际上是转换后的刻度:分贝、pH值和地震震级的里氏刻度都是对数刻度。
然而,即使在经验丰富的数据分析师中,对于转换也存在争论。有些人经常使用它们,而其他人则很少使用。在这里,我稍微夸张了一些极端或不那么极端的观点,以激发思考或讨论。就我个人而言,我认为所有这些观点都是可以辩护的,或者至少可以理解的。
  • "这似乎有点像作弊。你不喜欢数据的样子,所以决定改变它们。"

  • "我明白这是一个有效的巧妙技巧。但我如何知道这个技巧何时适用于其他数据,或者是否需要另一种技巧,或者是否不需要转换?"

  • "需要转换是因为不能保证世界在所测量的刻度上运行。"

  • "当转换符合对变量行为的科学观点时,转换最合适。"

通常情况下,将结果逆向转换回来通常也是有益的,可以使用反向或逆转换:
  • 倒数:t = 1 / x,逆转换:x = 1 / t

  • 以10为底的对数:t = log10(x),逆转换:x = 10^t

  • 以e为底的对数:t = ln(x),逆转换:x = exp(t)

  • 以2为底的对数:t = log2(x),逆转换:x = 2^t

  • 立方根:t = x^(1/3),逆转换:x = t^3

  • 平方根:t = x^(1/2),逆转换:x = t^2

基本步骤:
  1. 绘制数据的图表,查看数据中的模式与最简单的理想模式的匹配程度。可以尝试使用 或 命令。

  2. 查看数据的覆盖范围。如果范围很小,转换的效果会很小。

  3. 仔细考虑包括零值或负值的数据集。某些转换在数学上不能应用于某些值,通常也没有科学意义。

标准得分(均值为0,标准差为1)可以使用 命令来创建:
. egen stdpopi = std(popi)
基本的转换可以使用 命令创建新变量:
. gen logeener = ln(energy). gen l10ener = log10(energy). gen curtener = energy^(1/3). gen sqrtener = sqrt(energy). gen sqener = energy^2
对于比例或百分比,可以进行相应的转换。
对于负数的立方根需要特别小心。Stata使用通用例程来计算幂,并不会寻找特殊情况。每当负值存在时,计算立方根的更通用的方法是 。
注意仔细处理有关缺失值的消息:除非原始变量中有缺失值,否则它们表示尝试在未定义的情况下应用转换。例如,是否存在零或负值?
在使用变换前创建一个转换后的变量并非总显得必要。许多图形命令允许使用选项 和 。这非常有用,因为图表是使用原始值标记的,但它并不会在内存中留下一个转换后的变量。
其他命令:
  • 、 和 尝试对变量进行多种转换,目的是显示它们产生更接近正态(高斯)分布的程度。在实践中,这样的命令可能会对初级水平的用户有所帮助,但也可能会令人困惑。例如,它们可能建议与你的科学知识相矛盾的转换。

  • 和 是更高级的命令,只有在学习了教科书对其解释后才应使用。Box 和 Cox (1964) 是关键的原始参考文献。

对于一些统计人员来说,关于转换的争论在很大程度上被广义线性模型的出现所回避。在这样的模型中,使用指定的连接函数在转换后的刻度上进行估计,但结果报告在响应变量的原始刻度上。Stata中的命令是 。
比例和百分比的转换(高级)
介于0和1之间的比例或介于0和100之间的百分比通常受益于特殊的转换。最常见的是logit(或逻辑)变换,它是:
对于比例,logit p = log (p / (1 - p))或者对于百分比,logit p = log (p / (100 - p))
其中p是比例或百分比。
这种转换对极小和极大值的处理是对称的,拉出了尾部并将中间部分拉向了0.5或50%。p对logit p的图表因此呈现出一个扁平的S形。严格来说,对于0和1(100%)这两个极端值,logit p无法确定:如果它们在数据中出现,就需要进行一些调整。
对于这种logit变换的一个理由可以用扩散过程(比如识字的传播)来说明。从零到几个百分点的推动可能需要相当长的时间;一旦识字开始传播,其增长会变得更加迅速,然后逐渐减缓;最后的几个百分点可能在转变为识字时非常缓慢,因为我们剩下的是那些孤立的和笨拙的人,他们最不愿接受任何新事物。结果得到的曲线在时间上是一个扁平的S形,通过对识字取对数,它变得更接近线性。更正式地说,同样的想法可能是通过想象采纳(感染等)与那些不采纳的人之间的接触次数成正比来加以证明的,这将呈二次方形上升然后下降。更一般地说,许多关系中的预测值在逻辑上不能小于0或大于1(100%)。使用logit是确保这一点的一种方法:否则模型可能会产生荒谬的预测。
对于比例的情况,仅考虑logit:
logit p = log (p / (1 - p))
可以重写为:
logit p = log p  - log (1 - p)
在这种形式下,它可以看作是一组折叠变换中的一个成员:
p的变换 = 对p进行的某些处理 - 对(1 - p)进行的某些处理。
这种写法突出了对待极高和极低值的对称方式。(如果p很小,1 - p就很大,反之亦然。)logit有时被称为折叠对数。最简单的其他这种转换是折叠根(即平方根):
p的折叠根 = p的平方根  - (1 - p)的平方根。
与平方根和对数一样,折叠根的优点是它可以在不调整数据值为0和1(100%)的情况下应用。折叠根是比logit更弱的变换。在实践中,它使用得要少得多。
在早期文献中(偶尔仍在使用)还有两种用于比例和百分比的变换,分别是角变换和概率变换。角变换是:
反正弦(p的平方根)
或者其正弦值为p的平方根的角。在实践中,它的行为非常类似于:
p^0.41 - (1 - p)^0.41,
进而接近于:
p^0.5 - (1 - p)^0.5,
这又是一种写折叠根的方式(Tukey 1960)。概率变换是一种与正态(高斯)分布有数学联系的变换,它不仅在行为上非常类似于logit,而且在处理上更加繁琐。因此,它现在不太常见,除非在更高级的应用中,它保留了一些优点。
作为一个家族的变换(高级)
之前提到的主要变换,除了对数之外,即倒数、立方根、平方根和平方,都是幂。所涉及的幂是:
立方根     1/3平方根     1/2 平方       2
请注意,解释的顺序不是任意挑选的,而是按照幂的数值顺序排列的。因此,这些变换都是一个家族的成员。此外,与乍看起来的情况相反,对数实际上也属于这个家族。了解这一点对于看待实践中使用的变换不仅仅是一堆技巧,而是一系列不同大小或强度的工具(就像一套螺丝刀或钻头)是很重要的。因此,我们可以在这个序列中填充更多的幂,例如:
倒数平方       -2倒数           -1(得到1)       0 立方根         1/3平方根         1/2 恒等变换       1 平方           2 立方           3 四次方         4
在这里的补充中,恒等变换,比如x^1 = x,实际上可以说是一种没有变换的变换。x对x的图形自然是一条直线,所以幂为1将变换的图形分为向上凸的(小于1的幂)和向上凹的(大于1的幂)。小于1的幂将高值挤在一起并将低值拉开,而大于1的幂则相反。
另一方面,幂为0的变换是退化的,因为它总是产生1作为结果。然而,我们现在将看到,从严格意义上讲,对数x(严格地说,是自然对数或ln x)实际上也属于幂为0的家族。
如果你了解微积分,你将知道以下幂的序列:
..., x^-3, x^-2, x^-1, x^0, x^1, x^2, ...
在除了加法常数之外,有积分,具体来说:
..., -x^-2 / 2, -x^-1, ln x, x, x^2 / 2, x^3 / 3, ...
这个映射可以通过微分来逆转。因此,积分x^(p - 1)将得到x^p / p,除非p为0,在这种情况下它将得到ln x。因此,我们可以定义一个家族:
t_p(x) = x^p     如果 p != 0,       = ln x     如果 p == 0.
在选择幂或对数时从家族中进行选择的想法是一个关键的概念。由此可见,如果变换对于我们的目的和数据来说过于弱或过于强,通常可以选择家族中的另一个成员。

许多关于变换的讨论侧重于稍有不同的家族,出于各种数学和统计原因。在这方面的经典参考文献是Box和Cox(1964),但也请注意Tukey(1957)的早期工作。最常见的情况是,定义被更改为:

t_p(x) = (x^p - 1) / p 如果 p != 0,       = ln x           如果 p == 0.

这个t(x, p)具有各种特性,突显了家族的相似之处。

  1. 当 p -> 0 时,ln x 是其极限,得到 (x^p - 1) / p.

  2. 在 x = 1 时,对所有 p,t_p(x) = 0.

  3. t_p(x) 的第一导数(变化率)如果 p != 0 就是 x^(p - 1),如果 p == 0 就是 1 / x。在 x = 1 时,这总是1。

  4. t_p(x) 的第二导数如果 p != 0 就是 (p - 1) x^(p - 2),如果 p == 0 就是 -1 / x^2。在 x = 1 时,这总是 (p - 1)。

同时涉及正负值的变量的转换(更高级)
大部分关于转换的文献都集中在以下两种相关情况中:所涉及的变量要么严格为正,要么为零或正。如果不符合第一种情况,某些变换将不产生实数结果(特别是对数和倒数);如果不符合第二种情况,那么一些其他变换将不产生实数结果,或者更普遍地说,可能不会有用(特别是平方根或平方)。
然而,在某些情况下,特定的响应变量可以同时为正和负。每当响应是余额、变化、差异或导数时,这种情况很常见。尽管这类变量通常呈现偏斜,但可能需要进行变换的最尴尬特性是尾部(也称为长尾或厚尾),在某种术语中称为高峰度。零通常具有强烈的实质含义,因此我们希望保留负值、零和正值之间的区别(请注意,摄氏或华氏温度在这里实际上并不符合要求,因为它们的零点在统计上是任意的,无论水是否融化或冻结都很重要)。
在这些情况下,对于右偏斜和严格为正的变量,经验可能表明应寻找一种变换,当x为正时,它的行为类似于ln x,当x为负时,它的行为类似于-ln(-x)。这仍然会带来如何处理零的问题。此外,从任何草图中都清楚地看出(用Stata术语来说):
cond(x <= 0, -ln(-x), ln(x))
将是无用的。
一个好点的方法是使用:
-ln(-x + 1)   如果 x <= 0, ln(x + 1)     如果 x > 0.  
这也可以写成:
sign(x) ln(|x| + 1)
其中sign(x)是1(如果x > 0),0(如果x == 0)和-1(如果x < 0)。这个函数通过原点,对于小x(正负),它的行为类似于x,对于大|x|,它的行为类似于sign(x) ln(abs(x))。在x = 0时,梯度在1处最陡,因此相对于原点附近的值,变换会拉回极端值。最近它被称为neglog变换(Whittaker等人,2005年)。早期参考文献是John和Draper(1980年)。在Stata语言中,可以这样写:
cond(x <= 0, -ln(-x + 1), ln(x + 1))
或者neglog transformation
sign(x) * ln(abs(x) + 1)
逆变换是:
cond(t <= 0, 1 - exp(-t), exp(t) - 1)
幂为0以外的一般化是:
- [(-x + 1)^p - 1] / p   如果 x <= 0, [(x + 1)^p - 1] / p   如果 x > 0.
影响既是正数又是负数的变量的偏斜和重尾的转换由Yeo和Johnson(2000年)讨论。
在这个领域的另一个可能性是应用反双曲正弦函数arsinh(也称为arg sinh、sinh^-1和arcsinh)。这是双曲正弦函数的反函数,而双曲正弦函数又被定义为:
sinh(x) = (exp(x) - exp(-x)) / 2.
在Mata中,sinh和arsinh函数可以计算为sinh(x)和asinh(x),在Stata中,可以计算为(exp(x) - exp(-x))/2和ln(x + sqrt(x^2 + 1))。
arsinh函数也会通过原点,并在原点处最陡。对于大|x|,它的行为类似于sign(x) ln(|2x|)。因此,在实践中,neglog(x)和arsinh(x)具有大致相似的效果。另请参阅Johnson(1949年)。
Source: Nicholas J. Cox,Transformations: an introduction

此外,我们再说一下数据的标准化处理方法及Stata代码。
为什么需要进行归一化或标准化处理呢?
因为,有时候因变量Y和自变量X的量纲差距很大,例如,X取值区间为(0,1),Y取值区间为(0,1000),两者的差距很大,可能导致系数过小。
此时,若对数据进行归一化处理,在寻找回归系数的过程就会变得平缓,更容易得到最优解。
一些归一化方法的Stata操作程序如下:

ssc install norm, replace       //安装norm命令

norm x1 x2 x3, by(year) method(zee)   //Standardized Z-score

norm x1 x2 x3, by(year) method(mmx)  //Min-Max Normalization

norm x1 x2 x3, by(year) method(softmax)   //Softmax Normalization

    以上就是本篇文章【【原】一项对变量进行各种转换的指南, 从低阶到高阶再到更高阶全覆盖!】的全部内容了,欢迎阅览 ! 文章地址:http://xiaoguoguo.dbeile.cn/news/1278.html 
     资讯      企业新闻      行情      企业黄页      同类资讯      首页      网站地图      返回首页 多贝乐移动站 http://xiaoguoguo.dbeile.cn/mobile/ , 查看更多   
最新新闻
李子柒归来:沉寂三年依旧顶流,她是如何做到的?
在一个信息瞬息万变的时代,内容创造者的更迭是常态,而李子柒的归来则如同一股清流,击破了这种常态的魔咒。自2021年以来,她在
2025最吃香的男生十大手艺 未来最有潜力的职业
只要使用电脑,就得同各种各样的软件打交道。简单地说,软件工程的主要任务就是开发升级新软件、维护原有软件。在现代社会中,软
2025-2031年的趋势与运行规律分析!
在时间的长河中,我们不知不觉已经来到了2024年8月底,前方等待着我们的,将是全新的2025年乙巳年。根据古老的天干地支的轮转规
2025年运解读:木火通明一年,五行喜火和缺火者终于要转运了!
关注一个专业的占星公众号继续聊2025年年运,上次聊到,明年必然是会被载入史册的一年,乙巳蛇年金水流年正式交接木火流年,木土
让李子柒严重过敏的物质,是你买不到带壳腰果的原因
知名视频博主李子柒复出了。停更三年后,她在11月12日发出回归的首条视频,主题是制作中国非物质文化遗产漆器。据报道,制作过程
李子柒回归,被偷走的那三年
  暌违1217天之后,归来的李子柒仍是顶流。  有很多人曾想复制她的经验以获得成功,但大部分模仿者很快泯然众人,少部分成功
2025金木水火土属什么?佩戴什么好?
2025金木水火土属什么?随着中华文化的博大精深,五行学说作为其中的重要组成部分,一直被人们所研究和应用。在即将到来的2025年
【原创】云岭时评 | 李子柒归来,何以又成顶流
  云岭时评评论员朱婧  11月12日,李子柒更新了:这个大漆视频迟到了四年,漆同柒,我给这幅雕漆隐花的漆器作品取名紫气东来
李子柒回来了!下一步怎么走?
‍‍作者/周文君‍来源/电商报Pro导语:如何重回巅峰,是李子柒不得不面对的问题。李子柒回来了和微念撕破脸再到账号停更,李子
电商创业项目
热门电商创业项目  电子商务,简称电商,是指在互联网(Internet)、内部网(Intranet)和增值网(VAN,Value Added Network)