阳光石油网|石油技术交流|石油人论坛

 找回密码
 欢迎注册
楼主: Joseph

[Petrel使用技巧] 闲扯地质统计学

  [复制链接]
  • TA的每日心情
    奋斗
    2023-5-17 09:51
  • 签到天数: 542 天

    [LV.9]以坛为家II

    发表于 2013-12-26 12:13:19 | 显示全部楼层

    早晨一来上班,就看您的帖子了,呵呵,期待您的进展呀~~~
    花送错了么,哈哈
  • TA的每日心情
    开心
    2014-1-11 00:20
  • 签到天数: 38 天

    [LV.5]常住居民I

     楼主| 发表于 2013-12-26 13:58:39 | 显示全部楼层
    本帖最后由 Joseph 于 2013-12-26 14:18 编辑

    这段断断续续的文字立题要“闲扯”,所以说起算法这个具体而微的东西就真是有些伤脑筋了,所以我现在必需选择讲故事。

    如果诸位喜欢看历史,则比较容易知道,其实地质统计学的理论化是法国的一个矿业大学的马特隆教授根据南非矿业工程师克里格的硕士毕业论文中一个插值算法而扩充出来的。克里格先生自己在做类似我们这样的Sw平面分布图的时候遭遇了一点尴尬,就是常规的插值方式无法满足他的专业需求,他希望借助于增加一个复杂的加权体系来完善这个插值过程。马特隆教授发现了这个应用性研究的意义重大,他在这种朴素的应用研究上提出了非常具有理论指导意义的“区域化变量(regionalized variable)”概念。

    Capture.PNG     Capture.PNG
    左:Georges François Paul Marie Matheron 1988 (December 2, 1930 – August 7, 2000)   
    右:Danie Gerhardus Krige 2012 (26 August 1919 – 3 March 2013)

    注:对于克里金(Kriging)算法感兴趣的同学可以参考:http://en.wikipedia.org/wiki/Kriging(英文)或者购买相关教程。

    “区域化变量”现在的定义中最为关键的其实就是它是多维度空间分布的(并不限于真实的物理空间,举例来说,地质统计学也渗透回统计学应用而在经济学方向有借用,某些商品的价格就被设定为“区域化变量”),所以可以从数学角度理解为多种不相干因素共同限制的有限发展的变量。当然,狭义上来说,我们的油藏分布的空间形态,孔隙度、渗透率、饱和度场的分布都可以用这个概念涵盖。

    马特隆教授认为,地质统计学就是研究“区域化变量”的一门科学。同时他对于变量的规定就是 z=z(x),简化来说,z是其自身在x维度的分布。

    如果说,我们对于这个分布能够进行实际测量(取样)则会有m(x),而同时我们从数据统计来说会对于该测量实据位置存在一个所谓数学期望E(z(x))。很多人一绕到数学期望就开始云里雾里的说不清了。我们先不谈那些可能复杂化的数学本身,而是试图让你理解得更轻松一点儿。什么意思呢?就好比说我们现在有一个“线性回归曲线”也叫z(x),是通过如下分布获得:

    Capture.PNG

    根据某种经验和我们的统计(并非地质统计)我们可以获得 DT vs RT的线性关系如图上红线所示,如果我们简单应用该线性函数,那么所谓的E(AC(x))就是非常明确的红线上的具体位置了。当然我们知道统计回归函数反馈结果会有一定的偏差度,但是我们在没有实测的时候无从判断具体准确的偏差度。克里格先生说,我们可以根据现在数据的分布估算出偏差度,只要把数据的偏差度也计算进来我们对于预测就更容易把控一些。这是一个非常有趣而且大胆的转向:从这个假设开始,我们的插值算法不再追求测量点本身的最小预测误差,而是希望更多测量点上获得平摊预测误差最小。正是这个特点也导致了马特隆教授把这个算法能够升级为我们现在的整个统计学理论的数学基础。

    我们再重复一遍:在克里格先生设计的算法中,他大胆的设想了我们无从避免从回归曲线预测值到真实实测值之间的误差问题,于是他设想我们可以通过后续的多个实测值的总体误差最小期望的角度来设计我们的算法。他的思想,即地质统计学的核心思想,不追求单个预测点的精确,而是从现有的数据资料来判断未来预测误差的整体规模,希望未来的多个预测点的整体误差不至于超过现在的数据分析水平。

    这个可以技术上实际操作的算法需要随后的多次应用来保证算法对于误差的控制。可惜的是,我们中国现在的技术期望过高于集中在单点的预测的精度,而没有更加理解到克里格先生,或者说马特隆教授对于这门科学的贡献的精髓!我个人认为这两位对于科学认识体系的理解和掌握都比现在我们经常看到的追问你“那个是对的?那个是好的?”这样的领导要高出很多,他们理解到了我们认知体系中的误差,而且希望能在预测过程中考虑到误差分布不至于过分歧异。反过来来说,我们很多决策者虽然实际负担着决策风险,但是他们根本不愿意或者没有能力看到在我们这个行业中势必存在的认识风险。我给博克斯的话再追加一句:“总体上来说,所有的模型都是错的,但是有些是有用的,——所以知道有用的模型存在的认识偏差是极其重要的!”我在工作中经常看到因为“好的”经验而盲目推广而导致的决策灾难,我作为一个一线工作人员只能对此扼腕叹息,全无办法!

    对此算法感兴趣的同学可以仔细阅读算法中的推导,看看他们是如何细致现存数据预测评估误差的分布的,他们的算法在这个事情上花费的精力之重其实远远超过了预测值本身。如果你能看到这一点,你才算是地质统计学入门了,你也才会在更深入的多个实现问题和不确定性问题上不至于被很多培训教材教得如同窜进了一个“术语丛林”。
  • TA的每日心情
    奋斗
    2022-9-8 08:23
  • 签到天数: 413 天

    [LV.9]以坛为家II

    发表于 2013-12-26 19:41:12 | 显示全部楼层
    Joseph 发表于 2013-12-22 15:43
    就着773377朋友开宗明义的一句话,我们接下来推荐那些真正希望在地质建模领域有深入理解的同行能够在阅读了 ...

    Introduction to Probability Models, Tenth Edition.pdf

    Introduction to Probability Models, Tenth Edition.pdf

    3.28 MB, 下载次数: 353

    评分

    参与人数 1阳光币 +30 贡献 +10 收起 理由
    Joseph + 30 + 10 精品资料,感谢分享

    查看全部评分

  • TA的每日心情
    奋斗
    2017-12-5 11:08
  • 签到天数: 193 天

    [LV.7]常住居民III

    发表于 2013-12-26 21:57:16 | 显示全部楼层
    好贴好贴!!!!!
  • TA的每日心情
    开心
    2014-1-11 00:20
  • 签到天数: 38 天

    [LV.5]常住居民I

     楼主| 发表于 2013-12-27 23:59:21 | 显示全部楼层
    随手找到的一个角色要求发在这里,不是要诸位去马上申请,而是仔细对比一下我们对于一个开发地质师的职业需要和西方一个开发地质师的职业需要之间的差异。有时候,换换角度来看看自己的角色你才知道为什么你会有所欠缺。

    Untitled.png
    Untitled 1.png

  • TA的每日心情
    开心
    2014-1-11 00:20
  • 签到天数: 38 天

    [LV.5]常住居民I

     楼主| 发表于 2013-12-28 11:32:31 | 显示全部楼层
    本帖最后由 Joseph 于 2013-12-28 12:06 编辑

    继续闲扯,Kriging插值算法的条件其实还是蛮苛刻的,甚至有点不讲理了。

    你看Kriging算法的课程的时候老师都会说到一个关键的词“最优线性无偏估值(BLUE, Best linear unbiased estimator)”。有一个麻烦就出在了我们中文语言的模糊性上,这里说的“最优”、“无偏”常常会刺激到很多人的神经,有人甚至过于热衷于这样的名词而宣布他通过Kriging插值在后续预测验证中获得了比原来好得不得了的成功。
    Capture.PNG
    例文:(为免引发争议已经删除链接,读者可自行搜索)(这样的论文在中国有很多,但是如果仔细看看它用于对比的平面图件或者三维模型,行家大致也能看出更多的问题在于插值算法的参数设置不合理,而非算法本身问题。)如果一种算法明显优于其它算法,那么在现在的时代变迁中其它算法就会被淘汰,而不会再刻意保留在我们的商业化软件中。如果你不懂数学,你也可以从经济学角度来理解这个事情:如果土豆对于中国人民来说是优势的蔬菜,那么种植其它蔬菜的量就会显著减少,而再花费高昂代价从国外引进其它蔬菜的几率则更低。

    [作者附言:题外话,我对于各种技术或是保险理财产品等宣传资料都从经济学模型的角度来评判,因为自己实在没有那样的精力再学习各种可能用于我们石油行业或者我们现实生活的数学原理了。我一般都把推广时间长度、收益率和风险作为最终评价标准。就技术而言,石油行业中某项技术的收益率高于地震而风险低于地震,那么我需要查对它的推广长度,如果Sales跟我说这些技术的使用已经有十几年时间则我认为他至少在这三项中有一项说了谎话。因为这个资本横行的时代,没有一种超高收益低风险的东西能够被埋没十几年。]

    其实,基本符合BLUE设定的Kriging并不是一个卓越的算法,而是众多算法中的一种罢了。它真正引起我们这些现场工作者瞩目的地方不在于算法的某个点预测精度有所提高,而是在于多个点平均预测误差有所降低。

    其实这个unbiased estimator是针对的bias of estimator来说的。是统计学中经常使用的用于表征数学期望与实际测量值之间偏差的。换言之,
    bias of estimator = E(z(x)) - m(x) = E[z(x) - m(x)],那么所谓unbias就是要让这个公式的结果为  0 ,而所谓的“Best linear unbiased estimator”中的“best”是要说线形估算的时候方差最小的意思,即E[((z(x)-E(z(x)))^2],又写作Var(x),这个函数要等于0。这个“最优(best)”乃是相对于其它基本线性回归算法而言。而这个定理(theorem)有一个更加响亮的名字“高斯-马尔科夫定理”。喜欢数学又不喜欢看整本概率模型分析类书籍的同学烦请参考:http://en.wikipedia.org/wiki/Best_linear_unbiased_estimator(英文)

    一般来说,
    Var(x) = E[((z(x)-E(z(x)))^2] = 0
    仍然显得苛刻,所以Var(x)又被简化为E[z(x)^2] - (E[z(x)])^2,即取函数的平方的数学期望与函数数学期望的平方之差,并最终因为BLUE假定这两者等值。

    如果“数学期望”这个函数表达你暂时理解起来比较难受,我们先说它的一个最通俗也最常用的实现:平均数。你大致先按照这样的理解来阅读这一段稍微稍微涉及到数学的段落也许会好受一点点。




  • TA的每日心情
    开心
    2014-1-11 00:20
  • 签到天数: 38 天

    [LV.5]常住居民I

     楼主| 发表于 2013-12-28 16:24:31 | 显示全部楼层

    自己的速度标定老是出现点儿偏差,顺手搜索统计调查的时候看到一个吸引眼球的东西:
    http://lady.163.com/special/2010sense6/

    前言更说:“在本期专题中,我们将公布9358位70后19499位80后7328位90后网友关于第三者问题的投票结果...且比较有趣的是,在对待第三者的问题上,80后更符合传统价值观,而70后、90后的态度则更为接近。”

    能这么堂而皇之的滥用“统计学”可真算是中国国民教育的耻辱柱!

    问题:区区4万样本如何能够代表整个人群的态度?仅限网络采集,怎么保证样本不出现重复?怎样估算样本中的内容属于真实表达的概率?
    你一定会奇怪我怎么可以把社会调查问卷放在这个筐里来讨论了罢。呵呵。别着急,我们没有跑题儿。地质统计学中最严重的问题就跟现在你看到的这个情况有非常非常高的类似——样本覆盖率问题。

    很多同行要不就是上来赶紧就动手开始模型细节的设计,要么就是一竿子彻底否定了统计的必要性。其实,任何的跟油田相关的技术工作都需要对于我们手头儿的信息进行一番必要的鉴别与整理,然后方可进行下一步的操作。

    我也先举一个看书看到的社会统计学的实例。美国为了能够统计到大麻吸食率,作了一个电话调查问卷,但是考虑到人们普遍会对调查员直接问询:“你吸食大麻吗?”的问题不好正面回答,他们的统计学者于是设计了一个问卷如同这样的:
    你需要先投掷硬币选择下列问题中的一个来回答,回答的时候不需要声明你是对哪个问题作出的回答。
    硬币正面:你经常吃早餐吗?
    硬币反面:你经常吸食大麻吗?

    根据“大数定律”,如果样本足够多,只要把回答是的概率跟投硬币获得反面的概率相乘就可以得到最接近于问卷需要的结果了。

    那么,对于我们现在的非社会性问题,我们仍然要面临一个采样的问题。为什么会有很多地质家最终放弃了静态模型来描述他们的地下思维?除了对于数字化技术本身的不信任以外,对于我们采样效率的评估是一个很需要我们反思的点。很多年轻人学习建模,一上来就开始积极的按照操作手册跑流程,等到流程跑顺就把操作手册对应到实际工区去跑。但是,如果你去问问老地质家们,他们就会制止你这样的行为。为什么?因为首先需要考虑的是你的井的代表性的问题。

    就好比我现在工作的这个气田,大约20口井,绝大部分井都钻遇气层,而气层的分布范围却可以从下第三系底(现在地质学界已经更名叫做古近系了,我这儿是沿用本油田的工作习惯)一直到下侏罗统、三叠系都有。如果简单的做一个模型来说就只是把三套地层统计出孔隙度规律然后在构造高部位填充上气就够了。但是这里的情况远非这么简单。第一、从地质分层表来看,下第三系到下侏罗统之间就有中上侏罗统和整个白垩系的缺失,按照现在所知的情况来看这个区域在此期间遭受了非常严重的剥蚀,最后是下第三系地层直接覆盖在了三叠系或者下侏罗统上。而真正烃类注入成藏则是下第三系构造已经确定以后了。我们看到侏罗系和三叠系的气藏能够成藏都是因为这些地层的砂岩直接接触到下第三系的储层所致。所以如果在侏罗系和三叠系自己形成独立气藏的可能性就比较小,也未能真正形成统一的气水或者气油界面。那么我们的问题就来了:我的气田普遍最初考虑的都是浅层部分,所以没有考虑过在侏罗系的采样效率问题,不仅仅是有些没有最后钻穿,就是对于气层甚至都没有取岩芯。在这样严重剥蚀的地层中,如果不钻穿地层,我们做气层对比的工作就很难展开,进而可以说这部分测井资料的利用率也就下降了,这个部分的模型的可信度也就下降了,这个部分的储量估算的不确定性大大增加了,最后我们的决策风险也就大大提高了。

    如果不考虑这些具体的地质问题,直接讨论数据统计就不叫地质统计学了。但是如果仅仅考虑到地质问题,而没有意识到数据的局限性以及局限性带来的危害,我们同样会在后续的工作中遇到一些无法预计的风险。当然,无论勘探还是开发,风险都伴随利益而存在。中国人当年为了摘掉“贫油”帽子而用员工来搅拌钻井泥浆的行为虽然仍然是官方宣传的方向,但是已经不再具有实际操作性。那么我相信,再过一些年代,我们保留的某些习惯性认识也将因为整个行业的提升而发生改变。很多同学也许仍然在接受高等教育,有些同行才刚刚起步。我昨晚特意贴上一张国外油公司(这是一家丹麦公司,上市的,在很多区域都有区块在生产)招聘高级开发地质师的工作要求,也是希望各位能够有个参照,也许等到你变成一个高级地质师的时候我们的油公司也在这样水平的要求它旗下的员工了。

    今天没有继续写算法的问题,而是插播了一下关于因为不了解统计学而错用统计学的讨论。过两天我的基本工作告一段落,我会继续算法的说明。

    同时,非常欢迎同行和同学就相关的题目畅所欲言。本版块的宗旨就是开辟个空间让同行们可以更加宽松的讨论。

    该用户从未签到

    发表于 2013-12-29 20:46:08 | 显示全部楼层
    Joseph 发表于 2013-12-25 07:57
    所以,我们一直以为统计学是数学的分支,是概率论的延续;而早在18世纪,西方人已经明确了统计学是类似经济学、社会学、数学、物理学、化学等基础学科之一。(其实,很多时候,统计学甚至是其它基础学科的基础。你看看后文会特别容易理解。) ...

    说句题外话。最近刚自己学了些《实分析》,对数学的基础有了个完全不同的认识。统计学只能是数学的分支,而不可能和数学占据同样的地位。没有数学打底,统计学连自然数都数不清楚,更别说计算了。
    比如说,数学解决的问题是:

    什么是自然数?它有什么性质?为什么2不等于4?
    什么是加法?为什么加法交换律、结合律是成立的?
    什么是负数和减法?为什么减法是可以实现的?为什么加减乘除的定义都是成功的?
    为什么在两个自然数a和b中,a>b,a<b和a=b必居其一?
    ……

    别笑!这些看起来“显而易见”的命题,其实并不那么显而易见。在证明中很容易陷入先入为主的循环论证。
    回复 支持 1 反对 0

    使用道具 举报

  • TA的每日心情
    开心
    2014-1-11 00:20
  • 签到天数: 38 天

    [LV.5]常住居民I

     楼主| 发表于 2013-12-30 00:22:51 | 显示全部楼层
    773377 发表于 2013-12-29 20:46
    说句题外话。最近刚自己学了些《实分析》,对数学的基础有了个完全不同的认识。统计学只能是数学的分支, ...

    首先,恭喜你对于知识体系有了更深入的理解。也非常希望你能把这些理解跟这里正在学习的同行分享。

    我承认对于统计学是否可以作为一个基础学科(Fundamental science)存在争议,而我是赞成它作为一个基础学科的一派。不过你对于基础学科的否定的逻辑并不正确:基础学科并非完全可以脱离其它学科独立的知识体系,如若“连自然数都数不清楚,更别说计算了”作为评判体系来看,经济学、物理学也都会被解构了。事实上是这样,“自然数”和“计算”是数学研究的现象,而并非数学所独占。从这样的逻辑再做类推会得出没有物理学的“原子”作为基础,化学就会遭遇元素连物质基础都被抽空的尴尬。


    一般把Statistics归入Fundamental science并非因为它“学科独立”,而是因为它构成了很多其它学科的基础,比如物理学、化学、生物学、社会学、经济学等领域都有极其依靠统计学的部分。下图截取自Wikipedia:
    Untitled.png



    还是非常感谢你的建议,不过我只能推荐做地质建模的同行在行有余力的时候把基础数学学到这么深入的程度。对你的求知与求索精神钦佩不已!

    该用户从未签到

    发表于 2013-12-30 09:46:54 | 显示全部楼层
    Joseph 发表于 2013-12-30 00:22
    首先,恭喜你对于知识体系有了更深入的理解。也非常希望你能把这些理解跟这里正在学习的同行分享。

    我 ...

    我只是偶尔翻一下别的书,并不是刻意要去研究。好读书不求甚解算是个缺点不是优点吧。其实我对什么都不会下很大力气去研究,知其然不知其所以然,能从老板那里把工资骗来就行了。
    您需要登录后才可以回帖 登录 | 欢迎注册

    本版积分规则

    QQ|Archiver|手机版|小黑屋|阳光石油网 ( 鲁ICP备2021003870号-1 )

    GMT+8, 2025-1-4 01:42 , Processed in 0.063501 second(s), 21 queries .

    Powered by Discuz! X3.4 Licensed

    Copyright © 2001-2021, Tencent Cloud.

    快速回复 返回顶部 返回列表