阳光石油网|石油技术交流|石油人论坛

 找回密码
 欢迎注册
查看: 1148|回复: 6

有关变差函数sill的一个小问题

[复制链接]
  • TA的每日心情
    擦汗
    2021-1-15 15:18
  • 签到天数: 74 天

    [LV.6]常住居民II

    发表于 2016-11-2 09:58:20 | 显示全部楼层 |阅读模式

    马上注册,下载丰富资料,享用更多功能,让你轻松玩转阳光石油论坛。

    您需要 登录 才可以下载或查看,没有账号?欢迎注册

    x
    本帖最后由 Joseph 于 2016-11-2 13:44 编辑

    请教舜哥,最近看一篇介绍变差函数的文章,上面有一段这样的话,我不大明白,其中是这样写的,基台值:当横坐标大于变程时的纵坐标变差值。描述了两个不相干的样本间的差异性。当数据的基台值为1或者比1偏差0.3时,表明数据间有空间趋势性。请问为什么,文章会认为当数据的基台值为1或者比1偏差0.3时,表明数据间有空间趋势性呢?这个空间趋势性该如何理解呢?谢谢

    1.png
  • TA的每日心情
    开心
    2014-1-11 00:20
  • 签到天数: 38 天

    [LV.5]常住居民I

    发表于 2016-11-2 13:55:05 | 显示全部楼层
    本帖最后由 Joseph 于 2016-11-2 14:29 编辑

    这是比较僵化的理解统计学的一个典型罢,我也是挺无语的。

    其实,我也反复说过Variogram就是Variance的变种,只是因为特定的某些数据分布前提下Variance的分布也会被限制在某个范围内,即便Normal Distribution本身并无Variance的数值限制:

    Capture.PNG

    图片来自https://en.wikipedia.org/wiki/Normal_distribution

    我们现在只因为Normal Score这个数据转换过程将数据强制“Normalized”,让转换后数据正态居中,这样的数据已经是相对中心值的相对量,更便于统计方差值。大多数时候可以认为方差超过某个界限就丧失了统计意义,其本源来由是基于下图:

    Normal_distribution_and_scales.png
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2014-1-11 00:20
  • 签到天数: 38 天

    [LV.5]常住居民I

    发表于 2016-11-2 14:40:25 | 显示全部楼层
    加个图折腾了很久。

    我们会忽略变差比较高的数据,认为他们规律性变差是基于这样的Normalization过程,有了中心值和方差的预估和期望。超过限定的值其实在我们样本中就应该是存在的,只是它们的比例也许小于4.5%,我们从本心上也认为再随机抽取一个未知数据,按这样的分布来说越靠近中心值的概率越高,而那4.5%就肯定被抹杀了,我们甚至当它们不可能发生,——顺带说一句题外话,《The Black Swan》这本书其实就是在讲这部分数据的意义——所以剩下的部分我们就认为不同程度上存在可预测的规律性了。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    擦汗
    2021-1-15 15:18
  • 签到天数: 74 天

    [LV.6]常住居民II

     楼主| 发表于 2016-11-2 22:28:44 | 显示全部楼层
    谢谢,请问,我们在实际操作过程,也常常会遇到,基台值大于1,甚至大于1.3的情况,是因为我们没有对数据进行处理(如正态变换)造成的吗?
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2014-1-11 00:20
  • 签到天数: 38 天

    [LV.5]常住居民I

    发表于 2016-11-3 13:35:58 | 显示全部楼层
    十里情怀 发表于 2016-11-2 22:28
    谢谢,请问,我们在实际操作过程,也常常会遇到,基台值大于1,甚至大于1.3的情况,是因为我们没有对数据进 ...

    其实sill没有锁在1上也没什么大不了。只是,可以理解一个潜在问题就是:现在我们搜集的样本经过Normal Score转换以后似乎仍然不是很“聚中”,在未知部分的猜测上来说也可以说是“规律性不强”。但是这种情况一般也是由于数据样本本身较少,我们在筛选数据样本的时候对于数据的使用给了比较高的Tolerance,Tolerance偏高就会带来统计上“噪音”干扰,是比较正常的情况。

    你肯定懂我的意思,只是给不特别喜欢细致研究统计学的同行打个比方:

    这种情况就好像你要统计某个特定区域的人口年龄分布,如果在地铁站赶上高峰时间你可以抽样进行统计,而且因为样本丰富,数据呈现正态分布的可能性本身就很高;但是如果你是下午两点半在一个地铁口进行这样的统计,就可能每个样本都显得弥足珍贵,而且也无法保证样本的分布特征能够覆盖到整个区域的人口年龄构成。然后要是用这样的统计数据去进行规律性总结,那自然好像是“天生正态”的数据样本丰富的版本“规律性强”,而样本零散、每一个都舍不得不用的统计结果“规律性差”。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    擦汗
    2021-1-15 15:18
  • 签到天数: 74 天

    [LV.6]常住居民II

     楼主| 发表于 2016-11-3 14:25:35 | 显示全部楼层
    非常感谢
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2017-2-3 12:24
  • 签到天数: 278 天

    [LV.8]以坛为家I

    发表于 2017-1-12 10:57:14 | 显示全部楼层
    另一个解释是,所有的原始数据放在一块之后不满足二阶平稳假设或内蕴假设。
    分析方法是:选择最前的3-4个点,是局部满足二阶平稳假设或内蕴假设。 让渐进线为1.
    回复 支持 反对

    使用道具 举报

    您需要登录后才可以回帖 登录 | 欢迎注册

    本版积分规则

    QQ|Archiver|手机版|小黑屋|阳光石油网 ( 鲁ICP备2021003870号-1 )

    GMT+8, 2025-1-9 06:23 , Processed in 0.069148 second(s), 22 queries .

    Powered by Discuz! X3.4 Licensed

    Copyright © 2001-2021, Tencent Cloud.

    快速回复 返回顶部 返回列表