2013年9月22日 星期日
大數據于金融領域的思維與實踐
雷濤大數據幫助金融企業提升IQ 互聯網對於金融,迷你倉主要是支付、信貸、儲蓄三個方面。我們認為,現在大數據在互聯網金融領域主要解決三個問題,第一是解決運營交易成本過高的問題。網銀降低了20萬個網點成本,而阿里主要是把信用和抵押進行置換。第二是提供流動性,解決資產與負債流動性不匹配的問題。P2P就是將存款進行轉讓,比如�籌。第三是拓展4000萬中小微企業市場。互聯網金融出現以後,更大的變化是把市場體量做大了,不是只服務于我們現有的客戶,還可以把碎片化的需求和供給進行整合,進而細化滲透到很多中小企業市場和中小客戶市場。而我們也關注到了市場的另一端,即高端客戶市場,也就是理財的運營市場。對於理財市場客戶,應該是通過線下接觸最好。但海外金融機構也提到,對於每一位高端客戶,與他接觸的次數以及準確接觸的能力都是非常有限的。那麼,怎樣把精准的內容和手段提供給高端理財客戶?這也是大數據解決的問題之一。大家都在談互聯網的優勢,覺得互聯網很美妙。但是要研究互聯網,一定要面對互聯網自身的問題,其中最具挑戰的就是信息過載問題。在互聯網上,信息以WebPage的形式呈現,等待人們去點擊,那麼互聯網的主體必然是注意力經濟。例如,2013年1月,財經金融類網站總訪問次數381539萬,訪問時長9122萬小時,即10413年。在此情況下,不可能用傳統的方式獲取所有的信息。如何從這些過載的信息中獲取被稀釋了的數據價值呢?這是移動互聯網面對的最具挑戰的一個問題。那麼,是不是互聯網就是終極形態?我們給出了一個經濟範疇的定義,即這樣的模式怎麼去掙錢。互聯網早期最簡單的業務形式是2B,傳統經濟模式下,企業向客戶出售產品或服務,以直接賺取金錢為目的,衡量指標就是產量等概念。第二個時代就是2C,互聯網經濟下,企業盡可能多地發展用戶,不以直接從用戶處賺取金錢為目的,希望通過後向收費或者發掘用戶終身價值等方式賺取利潤。這個時代,像穀歌、Facebook等公司主要是經營用戶,用戶體量就是衡量標準。未來我們看到的將是2D的業務形態,也就是大數據經濟。數據將是未來企業的重要資產,企業通過數據創造新的商業模式,或直接通過數據售賣以及利用數據提供增值服務獲得巨大利潤。在這一時代,海量用戶和良好的數據資產將成為未來核心競爭力與收入的重要來源。這個數據未必是靠人的點擊。比如,你可能與運營商沒有任何交易往來,但是手機的傳感器在持續記錄你的位置信息,這個信息在不斷地跟基站通訊,你的行為就已經被運營商捕捉了。所以2D更多的是以數據為驅動力的生意模式。這種生意模式把附加值擴展得很大。而互聯網只能通過廣告來盈利,因為它依靠的是注意力經濟。這種模式下,很難掙錢,只有少量通過馬太效應才能盈利。現在細分市場的很多數據規模能驅動產生新的價值。以上是大的經濟形態。具體來講,大數據更多的是幫助金融企業包括傳統銀行獲得金融IQ,即接觸市場和接觸用戶的權利和能力。在我們看來,傳統銀行的數據價值遠大於互聯網公司。其實,金融企業很多線下的數據沉睡在數據庫里了,大家千萬不要小瞧,這些數據的價值遠遠大於阿里數據的價值。金融用規則創造了一個很好的商業形態,但是這種形態離市場和用戶越來越遠,幾千萬用戶的數據對銀行而言是陌生的圖像。而互聯網因為其直接是免費使用,所以必須非常準確地定位用戶,而一個用戶身後甚至有超過十萬個標簽,這些標簽的維度非常稀疏。大家可能對精准推薦比較好奇,比如高跟鞋,分高跟、坡跟、外高跟、內高跟等,這種精確的描述是對以前那種定向化的數據維度一個極大的突破。而這種突破,使得對於客戶的理解和描述非常清晰。這個手段,就是我們說的大數據手段。綜合來看,識別用戶的行為和潛在需求,瞭解和感知市場,進而形成一個正反饋的干預市場的能力,這可以看做是金融企業的IQ。金融企業如何擁抱大數據?大數據可以幫助金融企業解決信息不對稱,解決營銷、定價、風險和欺詐問題。一年來我們做了一些案例,主要體現在三個方面:第一是市場營銷,包括交叉銷售、二次銷售方面,體現在如何進行客戶挽留、客戶價值評估等。例如給保險公司做了全量的數據處理後,就可以實現很多財險和壽險的匹配。還包括客服投訴評估和產品投放評估等。某一個產品的上線和下線數據,不需要幾個月以後從市場上獲得,而是直接從線上的數據來獲取。第二是信貸和風險,主要是信用分配、風險評估、實施授權、風險干預和欺詐識別等。第三是預測與估價,包括周期行為分析、量化分析、流失分析、催收分析等。實現路徑很關鍵的點,就是"去IOE"(替代IBM的小型機、Oracle數據庫、EMC的存儲)。完備數據是核心,能處理一千倍以上數據規模,而這需要顛覆性的系統架構才能解決。我們為一家大的股份制銀行做完備數據做了很長時間,這個過程很有意義。它可以幫助用戶看到以前看不到的很多事實,過去需要通過業務規則、銀行家的經驗形成的業務判斷,現在通過機器學習的方式,發現了很多新規則。比如異常交易、欺詐等,很多都是通過數據本身的特性發現的。科技創新本身帶來的深刻變革就發生在今天。自阿里巴巴2009年高調宣佈"去IOE"戰略以來,今年歡送為支付寶用戶服務了5年的最後一台小型機,標誌著阿里巴巴"去IOE運動"的又一階段性成果。現在太多銀行用僵化的表結構,用字段的方式去對客戶、市場、業務規則做描述,而新的互聯網的思路是用一張表就處理完成。我們給運營商只用一張單維的表,就能全部覆蓋2.5億用戶。數據可以非常稀疏,但是省了很多數據處理邏輯的複雜操作。這些新的結構完全是依賴于雲計算新的方式。另外,金融業本身也在發生業務革新。銀行屬性從記賬式的賣方更多轉向風險、欺詐、定價的買方屬性,而這些特點很多都是非線性的,需要大量的計算能力。業務驅動加之科技目標驅動,使得新的基礎設施部署成為必然。大數據首先要數據全量在線。現在太多系統都是孤立的,銀行的對公、對私,還有卡業務都是分開的,當把所有業務糅合在一起時,會發現很多客觀規律。舍恩伯格的《大數據時代》在國內非常暢銷,書中有一個核心的概念——全量。因為全量視角下看到的內容、方式完全不一樣。有一個保險公司的案例,這家保險公司以前只能做抽樣,對高端人群、對某一個險種人群的調查,通過在兩千個迷你倉度里抽取一些維度,比如收入,進行建模,建模之後進行試用,再考察結論。現在有了大規模的計算能力,就不進行干預,完全讓機器自己去找規律,讓機器學習出在兩千個維度里到底什麼是建模的規則,這完全是黑箱建模的思路。黑箱建模讓我們發現了很多以前我們不知道的內容和規律。比如,實現機器學習以後,我們能發現反洗錢有1000多條在線規則。對於保險用戶,我們也發現很多有意思的現象,在九千多萬用戶里有百分之零點幾的用戶的年收入4萬多,但是買了7萬多的保險產品。那麼相應的銷售人員是以怎樣的保險理財理念去推銷產品的?有怎樣的經驗?這是需要發掘的。當然,為了面向用戶,所有大數據的處理要做到容易解讀。在這個過程中,全量數據可以幫助發現業務規則。在無假設條件下,通過機器學習能發現用戶的一些特徵。這些工具、方式、方法,幫助金融用戶非常清楚地瞭解到以前未知的市場和未知的用戶。現在大數據又擴展到另外一個範疇。自然語義的內容、視覺的內容、行為關係網絡等複雜的關係,這些內容在以前的數據結構上很難處理,現在有了大規模的計算平台,大數據可以讓系統用新的組織方式,比如矩陣、向量進行處理。比如關係網絡,快遞人員給許多收件人打電話,這些人沒有互相形成拓撲結構。這個數據非常稀疏,但是有很大的社會屬性和經濟價值,它會通過評估關係的鏈條來描述出很多個體的社會屬性,也就是個體的社會資本。現在供應鏈金融規模比較大,但是是靠線下、專業領域技巧去識別供應鏈。其實銀行根據轉賬記錄建立一個大的社交網絡就可以傳播這些鏈條,就可以把一些細碎的、小型供應鏈通過計算模式挖掘出來。以前我們瞭解一件事情,可能大多是非常準確、非常精確的,不允許有任何混雜性的操作,要完全匹配。比如,面對流感這樣的突發性疫情,利用互聯網信息可以快速確認疫情分佈。傳統做法是通過搜索引擎技術對相關關鍵詞進行主題跟蹤,得到疫情分佈。大數據一個著名的故事,就是Google用twitter的數據做預測,也是最早利用大數據技術對美國流感分佈情況進行預測,並取得成功。比如不久前我國爆發的H7N9禽流感,天雲大數據公司採用語義空間主題投影方式,跟蹤了數百個相互關聯的信息點,建立語義網絡,在二度以上傳播空間深度挖掘,從而發現了更多不為認知的事實。其中用到了上千個變量,有H7N9、流感、豆粕、雞、發熱、口罩、醫院等,每一個變量有權重,每一個變量有依賴關係,這些依賴關係和權重從數億片的論壇、微博、專業資訊網站里抽取出來。建立模型以後,可以跟蹤整個主題變化。將主題熱度與豆粕價格做比較,顯示出明顯的負相關性。對於期貨公司而言,這些碎片化的公共的信息具有巨大經濟價值。這些以前我們認為碎片化的東西、情緒化的東西,很難量化,現在可以被大數據的能力所量化了。對數據進行分析可以挖掘出大量沉睡的文字性內容。比如銀行信用卡記錄,以前我們只能靠用戶的消費水平去識別這個用戶屬於高端、中端還是低端。除了數字以外,是不是還有其他信息呢?比如消費記錄,他是經常去沃爾瑪還是其他超市購物,經常去夜店還是星巴克,怎麼識別他是一個白領還是一個新新人類?這些通過分類能非常清晰地獲取。也就是以前我們可以對數據進行操作,現在對文字也同樣可以進行操作。怎樣刻畫人與人之間的關係?例如,社會資本來自運營商通話記錄的評估,運營商可以通過電話的輸入輸出記錄把一個人社會資本客觀地做一個輸出。人力資本來自招聘網站、社交網絡,可以通過他的簡歷進行評估。金融資本來自網上交易、生活繳付、房屋車輛不動產。怎麼解決互聯網上的過載問題?一位股票分析師每天要花四五個小時看大量信息,其過程可以讓機器自動化實現,通過機器寫出縮略的方式把過載的東西突出出來。這個還不夠,關鍵是情緒,把大漲、猛增、下跌這些有極性的內容突出顯示。極性在機器里理解,就是一個維度,一個值,這個值可以跟商品期貨做一個相關性的匹配。大數據的實踐要精確,還是要混雜?比如一家保險公司,怎樣評估它的產品?品牌是很模糊、很難量化的東西,我們用了十多億條微博數據和論壇數據來畫一條曲線,也就是在這個周期之內品牌的波動,就可以把品牌感知量化,把產品投放也量化。要群體,還是要個體?如何來看大數據與傳統數據的區別?銀行做數據業務做了十多年,那麼大數據和傳統數據的倉庫有哪些差異?實際上就是群體和個體的差異。互聯網數據完全瞄向個體,數據結構也是精准于個體,而傳統的數據面向經營指標、面向群體。宏觀意義上來看,假如小明去了一百次書店,以前要回答的問題是他第一百零一次買不買書,即業績和經營指標的問題;而現在,互聯網關心的是什麼?最關心的是他第一百零一次買什麼書,需要將什麼樣的內容推薦給他。這不是一個概率問題,而是一個模糊的程度問題。要量化這個程度,我們一定要基於個體,而不是基於群體的共性描述。傳統定義上,更多關注的是一類人群,用同一類規則制訂套餐給他們;而在互聯網時代,要把每個人都精准刻畫出來,進行精准匹配。有電商說他們要做到一百萬用戶要有一百萬個商店,特別是在移動的小屏幕上,三次點擊以後就會損失一個客戶。所以差異化絕對不可能是對群體共性的描述,而完全是對個體差異的刻畫。要決策,還是要工具?大數據到底是面向決策還是面向工具?很多人認為大數據是決策性的,是讓人獲得更多洞察力的一個工具。實際上大數據更多的是一個自動化的匹配工具。一個典型案例,我們為一家保險公司計算了九千萬用戶在每一個險種上的流失概率,之後他們要求我們匯總成一份報告,將流失百分比的數據向領導匯報。當結論上升到領導的時候,這個決策必須是宏觀的,而且周期很長,幾個月以後反饋回來可能就有偏差了。而大數據的動作是直接把東西下沉,九千萬個用戶的所有流失概率全部分給五萬個保險代理人,每個人通過專門的程序就可以看到由他負責的客戶到底在做什麼樣的動作,而這個行動是由基層直接完成的。所以是把這些權限和能力全部推到一線,而不是上升、匯總到總部做決策。所以大數據更多的是一個自動進行的過程,而不是分析決策的過程。(作者系天雲大數據CEO。本文為作者在上海新金融研究院主辦的"互聯網金融外灘論壇"上所做的主題演講,由上海新金融研究院整理,經作者審核。因版面有限,本文略有刪節,原文請參見金融城網站.cfcity.cn)儲存倉
訂閱:
張貼留言 (Atom)
沒有留言:
張貼留言