數(shù)據(jù)學習背后的數(shù)學原理

作者：: 安徽新天源建設咨詢有限公司
最后修訂：: 2020-09-29 09:50:10

摘要：

數(shù)據(jù)學習背后的數(shù)學原理

張靖笙

由于工作需要和虛榮心驅使，我慢慢接受并且享受人家對我大數(shù)據(jù)專家的稱呼，雖然這么多年一線數(shù)據(jù)工作經(jīng)驗也壯了我這個膽，但在數(shù)學面前還是情不自禁要打起了哆嗦。我也專門寫過文章論述過數(shù)據(jù)和數(shù)學的關系，但這并不能掩蓋我數(shù)學認知上的膚淺。

同樣，數(shù)據(jù)學習也是根植于豐厚的數(shù)學土壤，如果今天我們看到各種人工智能大數(shù)據(jù)應用的如火如荼，其實是各種深厚應用數(shù)學的開花結果，本質上，數(shù)據(jù)學習和數(shù)學是一體的，套用我所喜愛的冰山模型來比喻，數(shù)學是整個冰山，數(shù)據(jù)學習僅僅是冰山水面上露出來的那一個角，如果沒有水底過千倍的體量支撐，這一個角也顯露不出來，說句題外話，我不想用金字塔來形容此山，因為數(shù)據(jù)學習無論如何都沒資格座在山頂。

提出數(shù)據(jù)學習的概念，我套用了機器學習的定義，當然機器學習背后仍然是幾乎令人望而卻步的高深數(shù)學，但在人工智能越演越烈的今天，我們每個人都要學會和眾多的人工智能“生命”和諧相處，就不可避免地要了解人工智能的“心思”，可以說今天我們每個人都是被數(shù)字智能時代倒逼著學習數(shù)據(jù)，也要硬著頭皮面對那些當初高懸在象牙塔尖的數(shù)學。

像我這種天生腦子并不靈光的學生，當初學生時代的數(shù)學雖然不算太差，但肯定不會太好，于是能給我留下對數(shù)學的學生記憶，是從華南理工大學（當時還叫華南理工學院）一年級開始的對計算機產(chǎn)生濃厚興趣之時。雖然那時的我對計算機尚且無知到把微機主板里面的大電容誤認為是硬盤，但也不可阻擋我摸著石頭過河學習各種編程知識，這個遙遠的記憶和數(shù)據(jù)學習距離不是一般的遠，卻和數(shù)學的距離無比地近。

當年大學一年級我玩的是華南理工大學27號樓微機房的286，編程語言是BasicA(后面加個A表示的是高級),而27號樓微機房在當時顯出神圣光芒之處，那里的286和BasicA居然是可以支持圖像模式編程的，而且分辨率在當時的電腦來說還不算低，這和我高中時期走馬觀花接觸過的字符界面老蘋果微機簡直是天壤之別，于是那個微機房磁鐵一樣吸引了包括本人在內的很多華工男愣頭青，有些人在那里玩那個美國的阿帕奇直升機戰(zhàn)斗游戲，這在當時絕對是被膜拜的高科技。

本人卻在華工圖書館找到了一本當年著名的沙老師編寫的《Basic高級編程》教材，里面有大量的教導如何用BasicA作圖的內容，特別是那種三維幾何圖形的透視旋轉操作程序，我依葫蘆畫瓢輸入書本中的程序在屏幕中浮現(xiàn)出了各種簡單圖形，比如立方體之類，按下按鈕旋轉不同角度觀察其變化，這讓我感覺非常興奮，于是結合自己當時所讀的船舶工程專業(yè)，立下了要搞計算機輔助設計(CAD)的志向，轉行金融信息化是后話。

坦白說，早期寫程序還是很挑戰(zhàn)智商的，不像今天的程序員已經(jīng)有豐富的組件、模板、SDK、API、函數(shù)等資源可供調用，我們當時要處理非常多的邏輯細節(jié)，從數(shù)據(jù)如何被輸入，到在內存如何存儲和加工，再到屏幕如何顯示和畫圖，越生動出彩的程序越要對其數(shù)據(jù)結構和算法邏輯做精心的設計，所以當我們這些早年的碼牛們終于爬到了匯編和C語言，大部分人的選擇就是果斷地放棄原來的Basic，可偏偏后者才是計算機高級語言。

由此可以看到，在算法為王的年代，我們的數(shù)據(jù)處理也就是記憶、理解這種淺表學習的水平，連決策支持的應用層次都還觸及不到，當然這不代表沒有應用數(shù)學，只是大多數(shù)還就只是用到中小學的數(shù)學知識，常用的包括代數(shù)、函數(shù)、數(shù)組、排列組合、矩陣計算等等，當然我要搞CAD繪圖也需要用包括三角函數(shù)之類的解析幾何知識。

后來我在計算機方面的學習始終離不開數(shù)學應用的深入，雖然我的數(shù)學應用總是點到解決了當時的問題就打住了，但還是緩慢地取得一些進步。對此我有一些體會，以前呢我們解數(shù)學題也就是為了測驗或者考試，好像都是一些純智力的燒腦難題，我這種腦子不靈光的人常常被一些題目難住了，那種看著都認識的數(shù)學符號卻無從下手的感覺的確有些難受，內心那種敬而遠之的感覺是揮之不去的。而當我開始搞計算機程序的時候，那個心情是很不一樣的，我們總是千方百計地想辦法把自己編的程序弄得更好使，于是心甘情愿去惡補程序所涉及的數(shù)學原理也就甘之如飴了，從這點我的感受是，兒童編程在激發(fā)小孩的數(shù)學思維方面應該是有科學作用的，只是我小孩現(xiàn)在才小學一年級，我不急于讓她去弄計算機程序，雖然她從五歲起已經(jīng)在玩Scratch，而在蘋果版本的ScratchJr她完全可以自己編寫一些故事化的程序。

大家都知道我有多年的商業(yè)智能數(shù)據(jù)應用開發(fā)經(jīng)驗，之前分享過點滴經(jīng)驗。既然是商業(yè)智能就不能不用數(shù)據(jù)來支持管理層的決策需求，所以我的數(shù)據(jù)學習也進化到應用和分析的學習層級，應用還是屬于淺表學習，分析已經(jīng)摸到了深度學習的邊邊。對于這兩者，我統(tǒng)一在商業(yè)智能旗下分析其背后的數(shù)學原理。

這個商業(yè)智能首先要解決的第一個問題，是如何轉化數(shù)據(jù)為信息的問題。剛才提到的記憶、理解這樣淺表數(shù)據(jù)學習應用不贅述了，商業(yè)智能里面有一個很常用的OLAP數(shù)據(jù)多維分析應用。

先給大家補補OLAP這個技術的淵源。上世紀60年代，關系數(shù)據(jù)庫之父E.F.Codd提出了關系模型，促進了聯(lián)機事務處理(OLTP)的發(fā)展(數(shù)據(jù)以二維表格的形式存儲)。1993年，E.F.Codd提出了OLAP概念，認為OLTP已不能滿足終端用戶對數(shù)據(jù)庫查詢分析的需要，SQL對大型數(shù)據(jù)庫進行的簡單查詢也不能滿足終端用戶分析的要求。用戶的決策分析需要對關系數(shù)據(jù)庫進行大量計算才能得到結果，而查詢的結果并不能滿足決策者提出的需求。因此，E.F.Codd提出了多維數(shù)據(jù)庫和多維分析的概念，即OLAP。OLAP的目標是滿足決策支持或多維環(huán)境特定的查詢和報表需求，它的技術核心是“維”這個概念，因此OLAP也可以說是多維數(shù)據(jù)分析工具的集合。

多維分析是一種數(shù)據(jù)分析過程，在此過程中，將數(shù)據(jù)分成兩類：維度（dimensions)和度量(metrics/measurements)。維度和度量的概念都出自于圖論(graph theory)，維度指能夠描述某個空間中所有點的最少坐標(coordinate)數(shù)，即空間基數(shù)；度量指的是無向圖中頂點(vertices)間的距離,這個維度撐起來的坐標空間，這個空間中每個頂點均可有對應的取值，這種數(shù)據(jù)模型業(yè)界簡稱為OLAP cube(立方體)。

在多維分析領域，維度一般包括字段值為字符類或者字段基數(shù)值較少且作為約束條件的離散數(shù)值類型；而度量一般包括基數(shù)值較大且可以參與運算的數(shù)值類字段，一般也稱為指標。

OLAP cube數(shù)學描述如下：如果用X、Y、Z代表OLAP cube的三軸，通過定義函數(shù)關系 F:( X,Y，Z)->W，W則表示每一個(X，Y，Z)元組所映射的數(shù)據(jù)集合，每個元組我們稱為OLAP cube的一個單元（cell），我們也可以簡單把OLAP cube理解為計算機程序里面常用的數(shù)據(jù)結構，多維數(shù)組，這個X、Y、Z就是數(shù)組的下標值，而W就是數(shù)組中存儲的值，于是F:( X,Y，Z)->W就是從這個數(shù)組中讀出下標為X、Y、Z的數(shù)組單元中存儲的值W。

因此OLAP cube可以簡單描述為“多維數(shù)據(jù)集”。cube，我們可以想象為數(shù)據(jù)指標根據(jù)多維度封裝成的一個立方體結構（以三維空間為例，如果維度數(shù)超過3，我們則稱為“Hypercube”），OLAP cube的數(shù)學原理我就點到這算了，我們更關心的是其用途。

我們在平時工作中，會遇到各種問題，在分析問題的時候，同樣的現(xiàn)象，我們會從多個角度去分析考慮，并且有時候我們還會從幾個角度綜合起來進行分析。這就是OLAP分析最基本的概念：從多個觀察角度的靈活組合來觀察數(shù)據(jù)，從而發(fā)現(xiàn)數(shù)據(jù)內在規(guī)律。

OLAP將數(shù)據(jù)分為兩種特征，一種為表現(xiàn)特征，比如一個銷售分析模型中的銷售額、毛利等；還有一種為角度特征，比如銷售分析中的時間周期、產(chǎn)品類型、銷售模式、銷售區(qū)域等。前者是被觀察的對象，OLAP術語稱之為“度量數(shù)據(jù)”，后者為觀察視角，OLAP術語稱之為“維數(shù)據(jù)”。

有了OLAP cube這個數(shù)據(jù)煉丹神器，很多原來白開水一樣的數(shù)據(jù)結合不同的觀察角度，就可以化腐朽為神奇讓管理者看到很多問題成因的端倪，比如把一個產(chǎn)品的銷售業(yè)績從時間地區(qū)等維度做個比較分析，我們可以從數(shù)據(jù)中學習到這個產(chǎn)品在什么時間什么地方比較好賣，那管理層就可以針對旺季熱點決定投入更多的業(yè)務資源。

再往上走，數(shù)據(jù)應用就走到評價和創(chuàng)造這樣的深度學習程度，拋開還有爭議的創(chuàng)造，評價背后所需要的數(shù)學支撐體系是非常之深厚的，最近我們粵港澳應用數(shù)學中心為廣州市越秀金融局搞的數(shù)字普惠金融指數(shù)研究課題，可以體現(xiàn)應用數(shù)學在指導民間金融行業(yè)監(jiān)管工作中廣闊的應用前景。

在金融評價體系中，由于金融服務的大范圍覆蓋面，業(yè)務的多樣性，高度的數(shù)字化水平等等，我們會發(fā)現(xiàn)很難用簡單的統(tǒng)計指標準確測量當前的普惠金融產(chǎn)業(yè)發(fā)展水平，許多直接測量的表層數(shù)據(jù)都難以揭示產(chǎn)業(yè)發(fā)展內在規(guī)律和必然趨勢，要獲得這些洞察能力，我們必須通過多個復合指標的定量分析方法，例如這個課題研究團隊所推薦的因子分析法、熵值法、神經(jīng)網(wǎng)絡深度學習方法、無監(jiān)督的自編碼深度學習模型等等。

可能很多人會問，一個問題需要用這么多高深的數(shù)學方法嗎？解決問題具體要用到什么數(shù)學方法其實是由問題的性質所決定的。數(shù)據(jù)深度學習所需要解決的問題，都是需要把握根本矛盾和本質規(guī)律才能有效指導我們工作實踐的問題。

剛才我提到，數(shù)據(jù)淺表學習解決的是從數(shù)據(jù)中獲得我們決策所需要信息的問題，比如剛才說的，我們做銷售總監(jiān)的人需要知道貨賣得怎么樣，進一步也就是需要知道什么時候賣得怎么樣。這些問題都是知其然（事實）的層面就可以直接求是（判斷和決策）的了，一般人也不具備沃爾瑪研究那些類似啤酒和尿布高頻出現(xiàn)的組合關系背后原因等問題的水平和能力，所以大部分都是人云亦云，隨波逐流。

而為什么真理常常掌握在少數(shù)人手上？因為這些人擁有一般人缺乏的獨立思考、探究質疑、愛琢磨事理規(guī)律的思維習慣。恩格斯說：數(shù)學是研究數(shù)量關系與空間形式的一門科學，對于我們所要解決的現(xiàn)實世界的問題中的，問題背后都有無限聯(lián)系的宇宙背景，對事物的關鍵因素沒有抽象和簡化就無法被我們所認知和研究，所以所有的數(shù)學方法都不可避免存在其適用性和局限性，我們要解決具體問題，根據(jù)問題性質要從知其然進入到知其所以然的境界，必然是需要多種數(shù)學方法和工具的綜合運用。

于是，支撐數(shù)據(jù)深度學習的必然是更多應用數(shù)學前沿的基礎理論研究成果，今天我國的產(chǎn)業(yè)發(fā)展要從低端制造簡單加工轉型升級到智能制造品質創(chuàng)造，必然會遇到很多前所未見的挑戰(zhàn)和困難，在當今世界大勢，我們也很難再如當初向世界科技第一強國copy2China(復制到中國)，人家已經(jīng)開始卡我們科技發(fā)展的脖子了，我們要解決這些卡脖子問題，唯有從應用數(shù)學基礎研究搞起，開車上路尚且要備胎，何況走上中華民族偉大復興的長征路。

如果今天有人恭維我聰明，我自己知道這種聰明也是在這幾十年的時光中，一步一步在數(shù)學的指引下從數(shù)據(jù)中學習回來的，當然我認為還遠遠不夠。

亚洲日韩国产综合一区_97超碰天天碰人人网_午夜性色视频网站_免费观看午夜AV片