萬字解讀|數(shù)據(jù)科學家是什么
執(zhí)牛耳 發(fā)表于 2021-12-31 11:55
閱讀數(shù): 5533
近日,《中國計算機學會通訊》(CCCF)刊登IEEE Fellow、京東集團副總裁、京東科技首席數(shù)據(jù)科學家鄭宇發(fā)表的專欄文章《數(shù)據(jù)科學家》。文章指出,數(shù)智時代的到來催生了海量的數(shù)據(jù),數(shù)據(jù)被定義成新的生產(chǎn)要素,將為經(jīng)濟發(fā)展貢獻新的增長動能。如何發(fā)揮數(shù)據(jù)的價值將關乎行業(yè)發(fā)展、國家發(fā)展,需要一批優(yōu)秀的數(shù)據(jù)科學家來承擔時代賦予的使命。
什么是數(shù)據(jù)科學家?他們應該具備哪些素質和技能,如何開展工作,又如何培養(yǎng)這樣的人才?基于以上行業(yè)關切,作者結合自身15年從業(yè)經(jīng)歷及業(yè)務實踐,通過《數(shù)據(jù)科學家》一文對以上問題進行深入探討和經(jīng)驗總結,希望能幫助行業(yè)培養(yǎng)出一批優(yōu)秀的數(shù)據(jù)科學家,為社會創(chuàng)造價值、為國家貢獻力量。
關于作者
鄭宇
IEEE Fellow、京東集團副總裁、京東智能城市研究院院長、京東科技首席數(shù)據(jù)科學家,ACM數(shù)據(jù)挖掘中國分會(KDDChina)新一屆主席,在數(shù)據(jù)挖掘領域影響力排名中國第一。中國計算機學會CCF杰出會員,CCCF前編委。上海交通大學講座教授,南京大學、香港科技大學客座教授。主要研究方向為城市計算。鄭宇所在的京東智能城市團隊近年來不斷推進智能城市領域的產(chǎn)學研一體化進程,已經(jīng)為全國近百個城市提供技術服務。
《中國計算機學會通訊》(CCCF)由中國計算機學會主辦。中國計算機學會(CCF)是全國一級學會。12月17日,中國計算機學會(CCF)頒獎典禮上,京東云技術支持的京東智能城市操作系統(tǒng)斬獲2021CCF科學技術獎科技進步杰出獎。
以下為《數(shù)據(jù)科學家》全文
文章來源:《中國計算機學會通訊》,點擊底部“閱讀原文”,下載原文。
關鍵詞:數(shù)據(jù)科學 數(shù)據(jù)科學家 數(shù)據(jù)工程師 生產(chǎn)要素
引言
信息時代的到來催生了海量的數(shù)據(jù),每個人、每個機構、每個設備既能成為數(shù)據(jù)產(chǎn)生的源頭,也可以是數(shù)據(jù)的使用者。數(shù)據(jù)已經(jīng)在各行業(yè)中得到應用,在降低成本、提升效率和改善用戶體驗等方面起到了關鍵性作用。繼土地、勞動力、資金和技術之后,數(shù)據(jù)被定義成新的生產(chǎn)要素,其本身也逐漸形成一個新興行業(yè)。孵化以數(shù)據(jù)為核心資產(chǎn)的產(chǎn)業(yè),將為全球經(jīng)濟發(fā)展貢獻新的增長動能。
在數(shù)據(jù)如此重要的時代,如何使用好數(shù)據(jù)、發(fā)揮數(shù)據(jù)的價值就變得至關重要,能影響各行業(yè)的發(fā)展,甚至是國家發(fā)展和世界格局。這樣一個新的時代也將培育出一批圍繞數(shù)據(jù)開展工作的機構和從業(yè)者,造就一系列以數(shù)據(jù)為中心的職業(yè)來肩負時代賦予的使命。數(shù)據(jù)工程師、數(shù)據(jù)分析師、數(shù)據(jù)科學家等職業(yè)和崗位應運而生。其中數(shù)據(jù)科學家(DataScientist)尤其受到關注,被歐美國家稱為21世紀最“性感”的工作[1]。
到底什么是數(shù)據(jù)科學家?他們應該具備哪些素質和技能,如何開展工作,又如何培養(yǎng)這樣的人才,至今還缺乏準確的回答和清晰的思路。這個職業(yè)的諸多未知因素和培養(yǎng)難度跟行業(yè)的強烈需求形成了巨大反差。因此,作者結合自身15年從業(yè)經(jīng)歷,對以上問題進行探討,希望能幫助行業(yè)培養(yǎng)出一批優(yōu)秀的數(shù)據(jù)科學家,為社會創(chuàng)造價值、為國家貢獻力量。
為什么需要培養(yǎng)數(shù)據(jù)科學家
為什么要培養(yǎng)數(shù)據(jù)科學家,可以從以下三個方面來分析:
1. 應用場景需求大。數(shù)據(jù)極大豐富,驅動大量應用,滲透各種場景,催生龐大產(chǎn)業(yè),只要有數(shù)據(jù)的地方,就需要有人來管理和利用好這些數(shù)據(jù),需要大量的數(shù)據(jù)科學家。
2. 數(shù)據(jù)要素價值高。數(shù)據(jù)作為繼土地、勞動力、資金和技術之后的第五種生產(chǎn)要素,其創(chuàng)造的價值將超過前四者的總和,原因如下:
? 數(shù)據(jù)產(chǎn)生的門檻低,人人都能產(chǎn)生數(shù)據(jù),很多系統(tǒng)和設備還能自動地產(chǎn)生數(shù)據(jù);
? 數(shù)據(jù)不斷產(chǎn)生,總量沒有天花板;
? 數(shù)據(jù)被使用后不會被消耗,可重復使用;
? 前四種生產(chǎn)要素都可以被數(shù)字化,成為數(shù)據(jù)。
3. 人才培養(yǎng)難度大。當前學校培養(yǎng)的學生僅僅學習了一些算法和理論,缺乏對業(yè)務的理解和實戰(zhàn)經(jīng)驗,很難滿足市場的需求。傳統(tǒng)行業(yè)的從業(yè)者要學習新的大數(shù)據(jù)和人工智能技術更加困難。作為一名數(shù)據(jù)科學家,除了掌握行業(yè)知識和專業(yè)技能外,還需具備優(yōu)秀的基礎素質和探索精神。
什么是數(shù)據(jù)科學家
數(shù)據(jù)科學家的定義可以從兩個維度來理解,一個是“數(shù)據(jù)”+“科學家”,另一個是“數(shù)據(jù)科學”+“家”。
由于數(shù)據(jù)和科學家都有清晰的定義,因此,第一個維度可以簡單理解為研究數(shù)據(jù)本身的科學家,即不斷革新數(shù)據(jù)采集、清洗、管理、分析、挖掘、展現(xiàn)理論和方法的人,這可以被認為是數(shù)據(jù)科學家的內(nèi)涵。第二個維度是指用數(shù)據(jù)科學去研究、探索并解決各種實際問題的人,這可以被認為是數(shù)據(jù)科學家的外延。數(shù)據(jù)科學家外延的不斷擴大驅動其內(nèi)涵不斷深化,兩個維度加在一起才構成了對數(shù)據(jù)科學家的完整詮釋。
數(shù)據(jù)科學家:以數(shù)據(jù)科學為方法論,利用數(shù)據(jù)、結合行業(yè)知識來認識和探索世界,解決各類實際問題、創(chuàng)造社會價值,并在此過程中,不斷研究、創(chuàng)新數(shù)據(jù)的采集、管理、分析、挖掘、展現(xiàn)的理論和方法,深化數(shù)據(jù)科學內(nèi)涵的人。
數(shù)據(jù)科學:數(shù)據(jù)科學被稱為科學的第四范式。數(shù)據(jù)科學利用數(shù)據(jù)驅動的方法來分析和解決問題,從數(shù)據(jù)中探尋事物的本質和規(guī)律,研究數(shù)據(jù)獲取、管理、分析、挖掘和展示等一系列環(huán)節(jié)中的理論和方法,并探索其應用。
數(shù)據(jù)科學家應具備的技能:一位優(yōu)秀的數(shù)據(jù)科學家應當是站在(大數(shù)據(jù))平臺上看問題、想數(shù)據(jù)、關聯(lián)模型,并把這些模型有機組合起來部署到大數(shù)據(jù)平臺上,處理鮮活數(shù)據(jù)、產(chǎn)生知識、解決行業(yè)問題。這句話中蘊含了數(shù)據(jù)科學家應當掌握的四大技能(如圖所示):
? 數(shù)據(jù)科學家要了解行業(yè)問題,知道影響該問題的因素。比如,空氣污染的污染源包括工廠、車輛尾氣、餐飲機構等;既有本地污染源排放,也有外地污染物擴散而來。只有知道導致污染的因素,才能去收集相關的數(shù)據(jù),并在模型中選擇相應的特征。另外還要了解行業(yè)里現(xiàn)有的方法,一方面借鑒其思想和精髓進行模型設計;另一方面也要知道現(xiàn)有方法的不足之處,用數(shù)據(jù)科學彌補其缺陷。最后,還要學習行業(yè)的語言,以便與行業(yè)專家溝通,讓其理解和接納基于數(shù)據(jù)科學的解決方案。
數(shù)據(jù)科學家應掌握的技能
? 數(shù)據(jù)科學家要深度理解數(shù)據(jù),不僅要了解數(shù)據(jù)的格式、屬性和表面意思,更要理解數(shù)據(jù)背后反映的深意。例如,出租車的軌跡數(shù)據(jù)不僅反映了出租車行駛的速度和去過的地方,也反映了行駛路段的通暢程度。此外,由于軌跡數(shù)據(jù)還體現(xiàn)了乘客的上下車地點,當把大量的出租車軌跡數(shù)據(jù)融合在一起后,我們可以洞察一個區(qū)域內(nèi)人們的出行規(guī)律。進一步,人們的出行規(guī)律又可以反映出這個區(qū)域的功能,如住宅區(qū)的人們早出晚歸,而商務區(qū)則相反。這個區(qū)域功能又能影射出對空氣污染的影響。如,公園的擴散條件好,污染源少,則空氣相對會更好;商務區(qū)在早晚高峰時段交通擁堵、樓房密集,空氣相對較差。有了對數(shù)據(jù)背后深意的理解,我們就可以用出租車的軌跡數(shù)據(jù)來推測一個地域的功能[2],預測其空氣質量[3]。這樣就能用領域A的數(shù)據(jù)去解決領域B的問題。
? 數(shù)據(jù)科學家要精通各種數(shù)據(jù)管理、數(shù)據(jù)挖掘、機器學習和數(shù)據(jù)可視化模型等工具,具備數(shù)據(jù)側端到端的能力。這些能力相互關聯(lián),決定了數(shù)據(jù)應用的效果。如只掌握其中某個環(huán)節(jié),缺乏對上下游可行性的考慮,設計的方案則很難實際落地。
? 數(shù)據(jù)科學家要熟練運用大數(shù)據(jù)平臺。真正意義上的大數(shù)據(jù)不僅體量大,而且更新速度快,這就必須有一個大數(shù)據(jù)平臺來承載并處理這些數(shù)據(jù)。單機模式下的模型設計和工作方式無法應對真實世界的大數(shù)據(jù)。很多數(shù)據(jù)處理算法在小數(shù)據(jù)、單機模式下可以工作,但到了大規(guī)模、高動態(tài)的數(shù)據(jù)場景下就完全失效。比如很多數(shù)據(jù)驅動的空間索引算法(如R-tree),因為其結構會隨著數(shù)據(jù)的插入而發(fā)生巨大變化,不僅更新代價太大,而且會改變空間劃分的結構(導致磁盤的映射結構也要不斷改變),就不適合作為云計算環(huán)境下的空間數(shù)據(jù)索引結構[4]。
數(shù)據(jù)科學家與相關崗位對比
為了能讓大家更加好地理解數(shù)據(jù)科學家這個崗位,我們將其與數(shù)據(jù)分析師、解決方案架構師、數(shù)據(jù)工程師和AI算法工程師進行對比。
數(shù)據(jù)科學家VS數(shù)據(jù)分析師
數(shù)據(jù)分析師面對的是確定性問題,即問題的定義、可以使用的數(shù)據(jù)源、需要輸出的結果都是確定的,然后根據(jù)這些確定信息來選擇相應的模型,計算結果即可。
例如,在用戶申請信用卡時,銀行要求申請人填寫年齡、職業(yè)、房產(chǎn)、收入等個人信息,然后根據(jù)這些信息決定是否給申請人發(fā)信用卡;如果發(fā),該發(fā)多少額度的信用卡才合適。這是一個非常明確的分類問題,模型的輸入數(shù)據(jù)是申報人填報的個人信息,輸出的結果就是“不發(fā)”“5000以下”“5001~20000”等額度區(qū)間。這個模型可以利用已經(jīng)發(fā)出的信用卡持有人填報的個人信息(作為輸入特征)以及他們后來的還款記錄(如能及時還款則對應額度作為標注)來訓練。利用歷史數(shù)據(jù)把模型訓練好之后,輸入一個新申請人的信息,就能自動分類出相應的額度等級結果。
但數(shù)據(jù)科學家面對的是完全開放的問題,問題沒有明確的定義,用什么數(shù)據(jù)不清楚,輸入和輸出是什么也不清楚,用什么模型更不清楚,這一切都要靠數(shù)據(jù)科學家來分析和定義。以下是數(shù)據(jù)科學家工作過程中遇到的實際問題樣例。
例1:有一條道路上面灰層很厚,如何用大數(shù)據(jù)的辦法把灰層徹底清除掉?
例2:如何降低城市里?;穾淼碾[患,保證城市的安全?
例3:空氣污染嚴重,如何用最小的經(jīng)濟損失換取更多的藍天?
例4:如何抓到違規(guī)傾倒垃圾的渣土車?
以上問題沒有清晰的定義,沒有人告訴你應該用什么數(shù)據(jù),期待的輸出結果是什么都不知道,更無法將這些問題歸結到數(shù)據(jù)科學中的聚類、分類、回歸等模型問題上。另一方面,這些問題也不一定是一個單一模型就能解決的,往往需要把問題拆解成很多環(huán)節(jié),然后用一套“組合拳”來解決。因此,數(shù)據(jù)科學家不僅要解決完全開放的問題,還需要提供一套完整的端到端的數(shù)據(jù)解決方案,而數(shù)據(jù)分析師只需要解決確定性問題中的一個環(huán)節(jié)。
數(shù)據(jù)科學家VS解決方案架構師
解決方案架構師針對業(yè)務問題,根據(jù)客戶的特定場景需求,將產(chǎn)品和能力進行組合、連接并作定制化的封裝,解決客戶痛點、為客戶創(chuàng)造價值。解決方案架構師也不同于技術架構師,后者更加專注于技術的耦合,而非業(yè)務和功能層面的連接。在以數(shù)據(jù)為中心的應用中,數(shù)據(jù)科學家可以充當解決方案架構師的角色,反之不然。解決方案架構師并不一定有數(shù)據(jù)科學的基礎,在很多傳統(tǒng)的信息化項目中,更多只是考慮信息的流轉,不涉及數(shù)據(jù)的分析和挖掘。要解決實際問題,數(shù)據(jù)科學家要具備解決方案架構師的思維和能力。
數(shù)據(jù)科學家VS數(shù)據(jù)工程師和AI算法工程師
在實際項目中,數(shù)據(jù)科學家需要帶領數(shù)據(jù)工程師和AI算法工程師一起實施方案。數(shù)據(jù)工程師依照數(shù)據(jù)科學家設計好的方案,實施數(shù)據(jù)的采集、接入、治理、管理和展現(xiàn)等工作。AI算法工程師則根據(jù)數(shù)據(jù)科學家給出的思路完成模型的細化設計(包括模型的內(nèi)部結構、輸入輸出的量化、詳細參數(shù)的選定以及跟其他模型的嵌套組合方式)、模型的訓練(訓練方法、樣本集合等)、測試和發(fā)布。雖然AI算法工程師并不直接面向客戶,但有很多具體且重要的工作需要完成。
當模型結果與設計期望發(fā)生偏差時,算法工程師應告知數(shù)據(jù)科學家,與后者一起迭代模型思路。數(shù)據(jù)科學家應不斷統(tǒng)籌、協(xié)調數(shù)據(jù)工程師和AI算法工程師的工作進展,確保方案落地執(zhí)行。
與數(shù)據(jù)工程師和AI算法工程師相比,數(shù)據(jù)科學家的工作更加宏觀、全面,偏向整體方案的創(chuàng)造和設計,而前兩個職位更注重數(shù)據(jù)科學中某個環(huán)節(jié)深入具體的工作,偏向于執(zhí)行和實施。當然,在這些具體環(huán)節(jié)中仍然有很多需要進一步思考和設計的空間,并不是簡單機械地執(zhí)行。為了確保設計方案的可行性,數(shù)據(jù)科學家在正式上崗前,必須要有從事數(shù)據(jù)工程師和AI算法工程師的經(jīng)驗。
如何培養(yǎng)數(shù)據(jù)科學家
如圖所示,培養(yǎng)優(yōu)秀的數(shù)據(jù)科學家首先要讓其樹立正確的數(shù)據(jù)觀,并不斷提升其四大基礎素質;同時快速學習行業(yè)知識,并掌握數(shù)據(jù)、模型、平臺三大專業(yè)技能。
樹立正確的數(shù)據(jù)觀
很多學生在面臨實際問題時,容易陷入以下誤區(qū),這些都是沒有樹立正確數(shù)據(jù)觀的表現(xiàn):
? 拿著錘子找釘子,有了一個模型或者方法論,一定要想方設法把它用上去;
? 傾向于選擇過于復雜的模型,以體現(xiàn)自己的技術能力,生怕用的模型簡單,被認為工作沒有難度和價值;
? 抱怨數(shù)據(jù)質量太差、想要的數(shù)據(jù)缺失,或者數(shù)據(jù)規(guī)模太小,因此認為這件事情沒法做;
? 認為只有AI模型部分最有技術含量,其余部分都不重要;
? 初學階段,不打好相關基礎,直奔AI模型,從空中樓閣開始學習。
與之相對的正確的數(shù)據(jù)觀如下:
數(shù)據(jù)科學家的培養(yǎng)路徑
? 數(shù)據(jù)科學解法的選擇更多是依靠業(yè)務驅動(根據(jù)問題的特性、數(shù)據(jù)的實際情況等),解法的價值由業(yè)務成果來體現(xiàn),是否用到某種模型不是關鍵。
? 一個工作的難度由待解決問題的復雜度決定,而不由解法的復雜程度決定。能用簡單的方法解決復雜問題是非常有價值的工作。因此,面對實際問題,一定從簡單方法開始嘗試,任何讓解法復雜化的付出,都需在結果側提升性能,否則就是嘩眾取寵、浪費資源。
? 在真實世界,最初的數(shù)據(jù)永遠都不會讓人滿意,永遠都會面臨數(shù)據(jù)不足、質量不好等一系列問題。如果數(shù)據(jù)好到可以直接從中看到結果,數(shù)據(jù)科學家也就沒有存在的必要了。加強對數(shù)據(jù)的深度理解,學會將領域A的數(shù)據(jù)應用到領域B的問題,才能破解數(shù)據(jù)不足的難題。此外,合理的選擇模型,通過“不確定”+“不確定”得到“確定”的思維方式來應對不理想的數(shù)據(jù)也是解法之一[5]。
? 數(shù)據(jù)科學鏈路上的所有環(huán)節(jié)都是同等重要的,AI算法并不高人一等,任何一個環(huán)節(jié)的失誤都會讓我們得不到想要的結果,失去利用數(shù)據(jù)創(chuàng)造價值的機會。
? 在不同的階段應該練習好不同的技能。首先應該練好程序設計的基本功,積累軟件開發(fā)的工程規(guī)范經(jīng)驗;然后學習數(shù)據(jù)管理模型,培養(yǎng)處理數(shù)據(jù)的動手能力;再嘗試數(shù)據(jù)可視化的常用方法,積累數(shù)據(jù)展示的經(jīng)驗;之后學習AI模型,加強模型訓練和部署的實踐;最后,面對客戶實戰(zhàn),快速學習行業(yè)知識,增強業(yè)務與數(shù)據(jù)科學的結合能力,并培養(yǎng)解決方案思維,完善數(shù)據(jù)側端到端的能力。數(shù)據(jù)科學家無法一步到位,必須一步一個腳印地走出來。
提升基礎素質
認知能力、學習能力、創(chuàng)新能力和溝通能力是數(shù)據(jù)科學家應該具備的四大重要基礎素質,這四大素質相互連接,不斷提升、強化自身的知識體系。本質上我們跟客戶或者行業(yè)專家的交流,就是以知識體系為核心,以四大素質為能力支撐的“交鋒”,這四大基礎素質也在交鋒過程中不斷歷煉、提升。
溝通能力包括準確聽懂和正確表達。它把從接收到的語言中提煉的信息傳遞給認知能力;調用知識體系中的知識,并通過語言用合理的方式準確地表達出來。
認知能力是指接受來自視覺和溝通能力傳遞的信息,基于現(xiàn)有的知識體系來判別其深層次含義、提煉其中新的知識。這些知識通過學習能力再沉淀到知識體系中,不斷充實、壯大知識體系;創(chuàng)造能力是指基于已有的知識體系不斷創(chuàng)新、加工,讓知識體系不斷自我完善、豐富。
快速學習行業(yè)知識
數(shù)據(jù)科學家必須掌握快速學習行業(yè)知識的方法論,并將行業(yè)知識與數(shù)據(jù)、算法、平臺融合。很多精通數(shù)據(jù)模型和算法的人最終無法成為數(shù)據(jù)科學家,最大的瓶頸也在于此。通過以下四種方法可以快速學習行業(yè)知識:
從相關行業(yè)的文獻中學習:閱讀相關行業(yè)高質量的綜述、論文以及網(wǎng)絡文章,快速學習整理和提煉行業(yè)知識。
向客戶學習:如在智能城市業(yè)務中,政府的主管領導往往對業(yè)務非常了解,可以充當半個產(chǎn)品經(jīng)理的角色。與跟他們溝通和交流,既能了解客戶需求,也可以快速學習業(yè)務知識。在這樣的交流中,要能用自己的思想和見解去引導客戶,并在交流過程中將從客戶那里學到的知識快速融合到自己的知識體系中,然后結合自身的知識儲備加以深化和拔高,再反饋給客戶,讓客戶有所收獲。通過這種不斷思考、互動、深化的學習過程才能快速掌握行業(yè)知識。
從國家政策和政府工作報告中學習:此類報告的內(nèi)容經(jīng)過專家學者和政府領導多輪論證和推敲,蘊含專家智慧,條理清晰、高度概括,且反映了一個行業(yè)未來的發(fā)展動向,是很好的學習材料。從其他案例中學習:通過新聞報道、參觀訪問學習其他案例中的精華、亮點,吸取經(jīng)驗教訓,并感知行業(yè)的發(fā)展趨勢。
掌握數(shù)據(jù)專業(yè)技能
這里的專業(yè)技能包括對數(shù)據(jù)的深刻理解,以及設計模型和使用平臺的能力。
練好基本功:在學校,除了程序設計、軟件工程等基礎課程(計算機相關專業(yè)必修課),學生可以學習簡單的數(shù)據(jù)管理、數(shù)據(jù)挖掘、機器學習和數(shù)據(jù)可視化課程,并參照大數(shù)據(jù)平臺教程做一些實驗。以上任何一門課程,如果想深入學習,都需要花費數(shù)年的時間。因此,建議在完成初步學習后,依托一個具體項目邊做邊學、逐步深入,這樣印象會更加深刻,動力也會更足。UrbanComputing[6]一書就是按照以上思路編寫,以滿足大部分學生快速入門的需求。對于信息科學相關專業(yè)的高年級大學生來說,學習這部分知識不會有太大難度。
深入一線:學生普遍缺乏應用數(shù)據(jù)科學的實戰(zhàn)經(jīng)驗,而數(shù)據(jù)科學家需要用真實的項目和數(shù)據(jù)來培育。因此,掌握算法模型的學生一定要盡快去有數(shù)據(jù)、有行業(yè)需求的一線歷練,多跟客戶和行業(yè)專家溝通學習,多觀察、多動手處理數(shù)據(jù),逐步建立起對數(shù)據(jù)的深入理解,熟悉對平臺的操作,建立對模型特性的直觀感受??梢栽谡n程完成后選擇去工業(yè)界實習,或者參與高校與工業(yè)界的聯(lián)合項目。
應用閉環(huán):要經(jīng)歷數(shù)據(jù)的采集、接入、管理、分析、展現(xiàn)、決策和反控的全鏈路,避免只做其中的模型設計環(huán)節(jié)。如果前面數(shù)據(jù)處理不當,會讓本該有效的模型失效。另外,如果只參與其中的模型環(huán)節(jié),可能會脫離實際約束,使模型無法工作。如果不能將結果有效地呈現(xiàn)給客戶,就無法得到反饋,導致模型不能迭代優(yōu)化。
價值體現(xiàn):數(shù)據(jù)科學家設計的解決方案一定要針對業(yè)務關注的領域,在成本、效率、用戶體驗中的至少一個方面直接創(chuàng)造價值。如在智能城市領域,政府關注城市的安全、穩(wěn)定和發(fā)展,數(shù)據(jù)科學家設計的方案就應該在保障城市安全方面降低成本,或提高管理者的效率,或改善工作人員的體驗;也可以在促進城市發(fā)展方面提高政府資金的利用效率、降低資源投入等;避免只做到中間結果,看不到直接的業(yè)務價值。
實戰(zhàn)案例
下面以用大數(shù)據(jù)治理空氣污染為實戰(zhàn)案例,剖析數(shù)據(jù)科學家如何結合行業(yè)知識和數(shù)據(jù)科學來解決開放式問題。
看問題
首先,弄明白這個問題為什么重要。大約十年前開始,由于環(huán)境、經(jīng)濟和人們對健康的重視程度等因素的變化,空氣質量(尤其是PM2.5濃度)開始受到關注,一度成為指引交通出行、廠礦工作和學校運行的重要參考指標??諝馕廴救舨荒苤卫砗?,不僅影響人民的健康,還容易導致高端人才流失、吸引“發(fā)展要素”困難的局面,并引發(fā)社會輿論。
其次,搞清楚導致問題的因素有哪些。污染物從哪來?為什么會積聚?根據(jù)環(huán)境學的相關文獻以及與多位環(huán)保學專家和政府管理人員的交流,得知污染源包含廠礦排放、交通尾氣、餐飲排煙、燒煤供暖、土壤揮發(fā)等。污染物產(chǎn)生的方式有三種:本地排放、外部擴散而來以及在大氣中發(fā)生二次化學反應而產(chǎn)生的污染物。導致污染物積聚的原因是污染物的產(chǎn)生速度大于其被自然界消化(如擴散開或被吸附)的速度。因此,除了污染源和污染物產(chǎn)生的形式,擴散和吸附條件也是影響空氣質量的一個很重要的因素。
然后,了解行業(yè)的解題思路。要根治空氣污染就要理清現(xiàn)狀、預知未來和回溯歷史。理清現(xiàn)狀指實時監(jiān)測細粒度的空氣質量,了解城市中各個角落的空氣質量的現(xiàn)狀;預知未來指能夠預測未來空氣質量的變化;回溯歷史指搞清楚問題的根源,即污染從哪來、如何治。
以理清現(xiàn)狀為例,分析過程如下。為了做到實時監(jiān)測,環(huán)保部門在城市中建立了一些高精度的空氣質量監(jiān)測站點,但由于價格昂貴、需占據(jù)一定的地理空間、后續(xù)維護成本較高,此類站點的數(shù)量有限。由于污染源的分布和大氣擴散條件在城市的各個角落均不相同,城市中不同區(qū)域的空氣質量也存在巨大差異,分布非常不均勻。沒有細顆粒度的空氣質量作為支撐,后續(xù)的預警、整治等工作將無法精確開展。因此,政府需要知道每平方公里甚至更細粒度的空氣質量。但是,由于不可能安裝太多的監(jiān)測站點,傳統(tǒng)方案只能結合機理模型做一些假設推測。
再者,深入學習具體方法,吸取其精華,補其不足。傳統(tǒng)的方法有基于物理學的機理模型,也有基于化學的成份分析模型。但由于導致空氣污染的原因既有排放和擴散(物理過程),也有二次化學反應(化學過程),單純的物理模型和化學模型都無法準確模擬空氣污染這一過程。此外,物理機理模型需要預知污染源信息,并對風場作簡化假設,這兩點在真實世界很難成立。排放污染的工廠為了躲避懲罰會掩蓋其排放行為,汽車尾氣和餐飲排煙更是無法收集;大氣在城市樓群中的流動更是異常紊亂,與簡單模型的假設相差甚遠。雖然這些方法有不足之處,但為我們后續(xù)設計模型提供了很好的思路。
最后,用行業(yè)的語言告訴行業(yè)專家,為什么基于數(shù)據(jù)科學的方法比傳統(tǒng)方法好。無論是基于數(shù)據(jù)科學的方法還是傳統(tǒng)的機理模型,都是在用模型擬合數(shù)據(jù),思路是一致的。如表1所示,對于簡單問題(如重力加速度等),根據(jù)少量數(shù)據(jù)樣本,加上人的經(jīng)驗,便可構造出經(jīng)典模型很好地擬合問題。這些經(jīng)典模型通常可以用比較簡潔的公式來表達。
當問題變得復雜,涉及的因素非常多,需要的數(shù)據(jù)量也越來越大時,依靠人的觀察和經(jīng)驗設計模型擬合數(shù)據(jù)就變得越來越難了。此時需要采用基于數(shù)據(jù)科學的方法,用機器學習從數(shù)據(jù)中學出一個復雜的公式來“精確打擊”這個問題,其本質還是在用模型擬合數(shù)據(jù)。用數(shù)據(jù)驅動的方法,通過對數(shù)據(jù)和特征進行選擇,既借鑒了經(jīng)典模型的思想精華,又避免了依靠與現(xiàn)實有較大偏差的經(jīng)驗假設。
經(jīng)典模型與數(shù)據(jù)科學對比
想數(shù)據(jù)
解決大氣污染首先要考慮污染源、污染物產(chǎn)生的方式和擴散條件等,因此,我們選擇的數(shù)據(jù)應該盡量涵蓋或間接反映這些因素,同時還要考慮獲取這些數(shù)據(jù)的可行性。這里我們選取了空氣質量監(jiān)測站點的歷史和實時數(shù)據(jù)、興趣點(如樓房、加油站、公園、廠礦、商場等)、路網(wǎng)數(shù)據(jù)、出租車的軌跡數(shù)據(jù)、天氣預報和實報數(shù)據(jù)。
興趣點、路網(wǎng)反映了一個區(qū)域的地貌、功能,出租車的軌跡數(shù)據(jù)蘊含了區(qū)域內(nèi)人們的出行規(guī)律(前文已做解釋),進一步強化了對區(qū)域功能的推斷。這些數(shù)據(jù)也隱含了區(qū)域污染源的分布和擴散條件。此外,雖然出租車的數(shù)據(jù)間接反映了路面的交通流量,但由于其數(shù)量遠小于私家車,因此不能用其軌跡數(shù)據(jù)來直接推斷全量尾氣排放量,而要結合路網(wǎng)和興趣點來補足其信息的缺失,共同隱含、關聯(lián)整體交通流量和尾氣排放。這些都是思路,不需要也不可能把每個指標都確切地計算出來,而是要借助大數(shù)據(jù)“不確定”+“不確定”推出“確定”的思想,用領域A的數(shù)據(jù)去解決領域B的問題。
關聯(lián)模型
這部分注重基于行業(yè)知識來選擇特征和設計模型結構。根據(jù)之前的分析,在特征方面,從興趣點數(shù)據(jù)中提取了廠礦、公園、學校等重要類別興趣點的數(shù)量,以及建筑密度、空曠度等反映擴散條件的特征;從路網(wǎng)中提取了交叉路口個數(shù)、路網(wǎng)密度、不同等級道路長度等影響交通流量的特征;從出租車的軌跡中提取區(qū)域內(nèi)不同時間段上車和下車的人數(shù)、車輛行駛速度及速度的方差等特征。這些信息隱含了交通尾氣排放的情況,如紅綠燈很多(路口數(shù)),道路擁堵(車速)、車輛走走停停(車速方差),此時尾氣排放最為嚴重,車輛越多(車道數(shù)、道路總長度)則尾氣排放越多。
在模型方面,選擇了基于協(xié)同訓練(co-training)的多視角學習模型(見圖3)。從污染物的產(chǎn)生角度理解,一個空間分類器模擬外地擴散,一個時序分類器模擬本地排放,協(xié)同訓練的迭代近似二次化學反應。從空氣質量的相關性來看,一個地方的空氣質量既有空間相關性(會受到周邊地域空氣質量的影響),也有時間相關性(受過去一段時間空氣質量的影響)。
從數(shù)據(jù)科學的角度理解,空間分類器接受路網(wǎng)、興趣點等空間特征,擬合空氣質量的空間相關性,在地理空間進行非線性插值,即根據(jù)一個地域周邊地區(qū)的空氣質量信息來判斷該地域此時的空氣情況。時序分類器接受氣象、交通和人們出行等與時間相關的動態(tài)特征,擬合空氣質量的時序相關性,即根據(jù)一個地域過去一段時間的情況來推斷現(xiàn)在的情況。兩個分類器從不同的角度來判斷一個地區(qū)的空氣質量,互相補強各自的弱點。選擇這個模型的另一個原因是已有站點數(shù)量有限,訓練樣本有限,必須采用半監(jiān)督學習的方法來解決樣本不足的問題。可見,當把問題分析透徹后,數(shù)據(jù)科學可以跟經(jīng)典模型思想很好地融合,既能提高結果的精度,也能獲得行業(yè)認可。
基于多視角的空氣質量推斷模型
利用已有站點的空氣質量數(shù)據(jù)訓練好一個初步模型,就可以基于路網(wǎng)、興趣點、氣象、出租車軌跡,對沒有建設監(jiān)測站點的任意地域開始預測。之后,還需要考慮如何展現(xiàn)預測結果。如以1平方公里為最小區(qū)域,展示全國的空氣質量則需要960多萬個網(wǎng)格,瀏覽器無法直接顯示。因此,這里又涉及到基于四叉樹的數(shù)據(jù)管理算法和可視化技術的結合,根據(jù)不同的視野層級高效、動態(tài)地聚合空氣質量信息。
平臺部署
利用平臺實時接入各種數(shù)據(jù),部署設計好的管理、挖掘和可視化模型,并把這些模型有機地組合起來,為全國300多個城市提供服務,可以在政府側的大屏、電腦端展示空氣質量數(shù)據(jù),也可以為各類移動應用提供接口。為了保證性能,哪些內(nèi)容需要放到緩存(如Redis)、哪些需要用到分布式計算環(huán)境、哪些內(nèi)存數(shù)據(jù)需要用到索引結構、哪些內(nèi)容放到磁盤上、要用多少虛機服務器等,這都要求數(shù)據(jù)科學家對平臺的性能和使用方式非常熟悉,否則無法云行之前設計的數(shù)據(jù)科學解決方案。
結束語
數(shù)據(jù)時代已經(jīng)來臨,如何發(fā)揮數(shù)據(jù)的價值將關乎行業(yè)發(fā)展、國家發(fā)展以及世界格局,需要一批優(yōu)秀的數(shù)據(jù)科學家來承擔時代賦予的使命。數(shù)據(jù)科學家需要快速學習行業(yè)知識、深度理解數(shù)據(jù)、精通各類數(shù)據(jù)模型、熟練運用大數(shù)據(jù)平臺,并具備數(shù)據(jù)側端到端的解決方案能力。同時,數(shù)據(jù)科學家還要樹立正確的數(shù)據(jù)觀,并不斷提升認知能力、學習能力、創(chuàng)新能力和溝通能力四大基礎素質。數(shù)據(jù)科學家以數(shù)據(jù)科學為方法論來認識和探索世界,解決各類行業(yè)問題、創(chuàng)造社會價值,不斷擴大數(shù)據(jù)科學的外延,并在此過程中,不斷研究、創(chuàng)新數(shù)據(jù)的采集、管理、分析、挖掘、展現(xiàn)的理論和方法,深化數(shù)據(jù)科學的內(nèi)涵。
2015年12月25日全面上線。目標:打造全球數(shù)字營銷技術領域首席媒體平臺,成為中國乃至全球數(shù)字營銷內(nèi)容聚合門戶。目前團隊積極依托專業(yè)素養(yǎng),全力為數(shù)字營銷領域從業(yè)者搭建有質感的交流空間。感謝相伴!
文章:3131
0條評論