【編者按】作為全球在線支付平臺,PayPal,其方便、快捷的支付方式深受用戶追捧,近幾年PayPal致力于通過數據分析為用戶創造更多價值,在2013年,實現年交易額1800億美元、年交易數量30億筆,PayPal的成功和它在業務上的不斷創新是分不開的,但其背后強大的數據技術同樣讓人艷羨,Datanami主編Alex Woodie為我們帶來了精彩分析。
以下為譯文:
PayPal作為一個成功的第三方支付平臺,掌握了大量的用戶數據,其便捷的支付方式也為PayPal贏得了大量電商的支持,尤其是對于資源有限的小商戶。幾年前,PayPal發起了一個基于Hadoop的數據挖掘項目,運用多種數據分析手段將自身打造成一個更加可靠的服務性支付平臺,幫助商戶變得更加精明,此項目取得了巨大的成功。
PayPal成功的背后
PayPal已發展成為一個價值60億美元的電子商務交易界巨頭。2013年,該公司幫助買家和賣家完成的交易額達1800億美元,涉及商品和服務等各種交易達30億次,擁有1.43億個活躍用戶,而實際上,這些成就背后的數據才是真正價值源泉。
該公司處于電子商務的十字路口,這給了它獨特視角去研究人們在線購買的習慣。PayPal可以了解到人們買了什么、從哪買、具體的交易方式、用的是什么設備,這些信息形成了一個數據寶庫。PayPal數據技術團隊中的一個數據科學家Vamshi Ambati告訴我們PayPal正在嘗試利用這些龐大數據為用戶和商家創造更多價值。
最近,Ambati在Hadoop創新峰會上向我們介紹了他的團隊關注的三個主要領域――圖挖掘、文本分析和機器學習,并分享了一些經驗和見解。
圖挖掘
PayPal通過圖挖掘幫助數據科學家和營銷人員直觀地標識數據中出現的一切明顯趨勢,分析出其中有價值的信息。Ambati說:“我們嘗試從圖中提取變量,或者發現某種模式,并利用這些變量和模式建立預測模型和分析模型。”
圖挖掘中的圖指的是描述某種關系的圖形,類似于圖論中的圖,圖在對復雜結構的建模過程中變得越來越要,這些復雜結構包括電路、圖像、生物網絡還有Web等等。從大量的數據中提取信息,建立圖表或者其它的圖形結構,便于直觀的分析,以挖掘有價值的信息。多用于社會網絡分析和關系型數據分析。
隨著大量結構化數據分析需求的增加,圖挖掘在數據挖掘中的地位越來越重要。
PayPal使用英特爾的圖建模器并基于Hadoop、Apache Giraph和GraphLab算法構建圖,出于不同的目的會構建不同的圖。例如,一個融合了社交媒體信息與交易數據的圖有助于將社會媒體活動與交易活動聯系起來,而分析交易數據中的用戶點擊流將有助于了解用戶的購買傾向。PayPal還利用圖分析為商戶提供排名和推薦服務,該公司為其商戶提供潛在消費者圖,使商戶了解有多少消費者在兩個節點之間存在共同點,“還可以幫助商戶了解與競爭對手之間的差別,了解與同行相比自身具有哪些競爭優勢。”
檢測欺詐是圖處理的最大用例。公司配置圖中節點,對消費者登錄商家帳戶的設備作出響應。如果一個消費者使用了不同的IP地址或手機帳戶登錄,PayPal就需要提高警惕,防止用戶賬戶中的錢被盜走。“我們也要了解是否存在詐騙團體的存在,往往圖中的一個節點存在欺詐行為,同時還會伴隨著3到4個節點的交易或者現金存取行為,這種情況很有可能是團體詐騙,通過圖分析,我們可以將他們一網打盡。”
NLP文本挖掘
PayPal基于Hadoop的文本挖掘系統是公司內各種數據科學活動的關鍵組成部分,這些數據科學活動包括預測建模、情緒分析、影響力評級、簡歷排名還有主題建模和聚類分析。Ambati說:“如果沒有儀表盤程序,這些文本本身不存在任何額外的價值,不過這些文本可以與我們的其他數據結合起來使用,而且有一些公司或許會需要這些數據進行更多的預測建模。”
該公司使用NLP(自然語言處理)算法從交易過程的談話數據中提取有價值的信息,提高商戶交易的成功率。
然而PayPal沒有采用Netflix那種直接的推薦方式。Netflix通過四或五星級評級標識用戶的偏好,然后采用商品推薦系統向用戶推薦商品。但Ambati指出,事實上,用戶購買某種商品并不能說明用戶喜歡這個商品,Netflix的方式存在問題。
“當消費者瀏覽商戶的商品時,我們事實上并不知道消費者是否對商戶有好感,因為有可能消費者只是對品牌或者商品感興趣,所以我們進行文本挖掘,分析產品信息以了解消費者是否對某種品牌感興趣,然后再進行商品推薦。”
機器學習
很多的數據PayPal采用圖處理和NLP挖掘,這兩種常用的方式也將成為公司第三個核心數據分析的基礎,所謂的第三個核心指的是數據挖掘與機器學習算法。PayPal的數據挖掘系統很大程度上建立在用Python和Java編寫的機器學習算法上,它們都運行于Hadoop平臺上,用于挖掘復雜的數據模型并得到有用的信息。
為商戶構建預測模型是一個常見的用例,PayPal利用大量數據研究消費者的購買習慣――這些數據遠比eBay的小商戶積累得多。得益于PayPal的數據科學團隊,商戶可以利用PayPal大量數據存儲庫和專門知識獲得競爭優勢。
PayPal還將構建一個商戶預測模型來幫助他們確定哪些客戶有可能會流失、哪些客戶會拖欠、哪些客戶會再次購買。“作為商戶,你可能對你的客戶不是特別了解,但PayPal掌握了大量有關消費者的信息。仔細想想,其實PayPal并沒有消費者,它的顧客是商戶,商戶的顧客是消費者,因此PayPal間接的擁有消費者。我們通過商戶跟消費者打交道,所以我們希望能夠為商戶提供這些功能,以幫助改善消費者的用戶體驗。”
PayPal正在研究YARN,而且試圖利用Spark和Storm,它還和明尼蘇達大學一起研究“深度學習”。該公司花了相當多的時間為eBay建立推薦引擎,Ambari說:“如果你看到了邀請你去eBay購物的廣告,這很有可能就是我們做的。”
原文鏈接:How PayPal Makes Merchants Smarter through Data Mining(編譯/毛夢琪 審校/魏偉)