巴西當地時間7月17日,國家主席習近平同巴西總統羅塞夫舉行會談,并共同出席百度葡語搜索引擎發布儀式。中巴兩國元首共同按下鍵盤,正式啟動百度巴西葡語版搜索引擎。在兩國元首的共同見證下,百度董事長兼CEO李彥宏在現場輸入了首個葡語版搜索關鍵詞“Brazil China”。兩國元首見證一款互聯網產品的發布在互聯網歷史上前所未有,這體現了兩國對互聯網技術的尊重和認可,也讓百度變成了代表中國互聯網技術創新的“大使”。百度憑什么獲得中巴兩國元首的“最高禮遇”?除了給巴西帶來葡語搜索引擎,百度還能為足球圣地帶來什么?在海外市場,百度又將如何與 Google競逐?
葡語搜索:國禮背后的技術創新輸出
技術創新輸出已成為正在快速轉型創新國家的中國未來對外經貿和外交的重點方向,巴西作為金磚成員,同時還是繼中印等國家之后的下一代新興市場,科技又是新興市場的推進器,正是這些原因讓百度這一最具技術基因的互聯網企業有幸享受“高規格”待遇。
百度葡語搜索研發已啟動數月之久,在此之前百度先后發布泰文搜索和阿拉伯語搜索,在更早之前的08年百度還高調進入日本市場。此外,百度貼吧、Hao123、百度安全客戶端、百度瀏覽器等產品均已推出泰文等外文版本。貼吧海外MOU高達 3000萬,其中來自巴西的就有1500萬,正是在這一背景下,百度決定進軍巴西市場。
今年4月,羅塞夫通過非官方渠道了解到百度開拓巴西市場的消息后,表示了極大的興趣。這個“興趣”無疑會讓百度進軍巴西市場少了許多障礙。百度能引起巴西元首關注,因為它是中國互聯網巨頭之一且是其中唯一一家技術驅動的互聯網公司。百度早已是最大中文搜索引擎,但一直對全球化市場和多語種搜索蠢蠢欲動,在海外研發中心、海外人才招募、海外市場開拓、海外業務支撐上都有多重布局。
能在習主席訪巴期間的歷史時刻公布百度葡語搜索,正是百度的國際化節奏遇到了這樣的“好時刻”,讓百度國際化戰略浮出水面的姿態更具歷史紀念意義。
搜索引擎是一門“語言科學”。一方面它的索引系統爬去全網內容,這些內容是給人看的,索引系統進行清洗、組織、解析、分詞和構建索引;更重要的一點是,搜索系統要理解用戶Query并匹配結果。用戶Query正在自然語言化,還可以是語音。搜索結果不再是簡單的超鏈接,而是輕應用、直達結果、多媒體內容、知識圖譜的合輯,搜索引擎發展過程實際上是其“語言處理能力”的提升。
百度在中文自然語言處理上的優勢不必多說,Google曾有機會與之比肩,退出中國讓其在中文搜索上錯失近5年時間。不過,百度要把中文領域積累的優勢復制到新的語種并不容易。
經過筆者分析和調查,百度開發葡語搜索引擎有幾個難點和破解之道:
1、語種差異帶來的NLP算法挑戰。葡語屬于屈折語,和中文孤立語相比有大量形態變換,構詞、句法等方面上有很大差異。要理解葡萄牙語還需要基于面向中文自然的系統進行改進。
如何破?百度NLP(自然語言處理系統)分析透徹語言特點,在大數據環境下運用統計方法快速定位差異、總結規律,制定出有針對性的語言分析手段,解決語種差異上的“初識挑戰”。
2、積累空白背后的語料詞庫缺乏。搜索引擎不斷積累全網內容、Query請求以及基于此分解的詞庫、語料和算法。搜索引擎具有生命,隨著時間流逝而進化。與百度已深耕15年的中文搜索不同,在葡語搜索引擎領域百度沒有這些數據積累,需重頭來過。在泰文、阿拉伯文這些語種上都有類似問題。
如何破?吸引國際優秀人才加入百度NLP團隊,找到對的大牛;通過機器學習模型和自然語言技術的大規模應用,在海量小語種網頁文本中提煉精華,彌補數據積累短板;百度在早期各項技術研發中有考慮未來多語種可能性,搭建了可擴展、可遷移和國際化的技術框架,這個系統縮短了小語種NLP基礎技術建設周期。
3、市場差異對產品、運營和推廣帶來新挑戰。葡萄牙語是世界第六流行語種,使用它的國家和地區包括葡萄牙、巴西、安哥拉、中國澳門、西班牙等。每個國家和地區都有本地化的市場特點和用戶習慣,進而對產品、技術和運營提出不同要求。
如何破?百度技術和產品團隊已經習慣的中文搜索思維需要推到重來,不能預先假設,必須分析當地語言特性、市場特點、用戶反饋,同時聘請專業語言專家做跨界研究,制定更合理、更通用的技術方案。
Google橫亙在前,百度破局靠NLP
百度進入巴西以及葡萄牙語搜索市場還有一個大難題:Google。巴西目前搜索市場亟待開拓,但Google早已進軍葡語搜索和巴西搜索市場。百度引以為豪的NLP技術、深度學習技術,也是Google的強項,說到底最后還是回到百度與 Google在新的戰場PK技術的問題。
從海外輿論來看,百度NLP技術并不比Google弱。7月7日,在37屆信息檢索領域世界頂尖學術會議SIGIR會議上 ,百度副總裁王海峰做了題為 “Chinese SearchEngine - Baidus Practice”報告,這場演講引起了廣泛關注,很多人問及關于深度問答、知識抽取、智能交互等這些技術百度是如何實現、如何應用的,即使是 Google,也尚且未將這類前沿技術大規模應用于搜索產品,外界驚訝于百度在搜索引擎產品中的應用,并已提升了用戶體驗。6月底,在全球自然語言處理頂級學術會議ACL上,6位百度人赴美參加。王海峰更是在2013年,出任ACL五十年歷史上第一位華人主席。無疑,如今的百度已經走在NLP最前沿。
從百度內部程序猿獲悉,即使暫時沒有葡語的用戶行為數據積累,但百度可通過機器學習和大數據技術將葡語的Query改寫、需求分析技術做到與谷歌比肩。在中文NLP上行之有效的方法,比如基于矩陣分解的新詞發現、序列標注模型分詞、模版分析的query需求識別方法已被快速應用到葡語當中。
在此之前,百度先后推出日語、泰語和阿語搜索。泰語、阿語、葡語、中文和英語看似差異巨大,但有千絲萬縷的聯系,比如葡語的形態變換、句法結構和英語有很多類似之處。人類語言的共同點,為NLP充分復用現有技術,迅速搭建技術框架、提升技術效果提供條件。語言處理是一門學科,理論和算法本質一樣的,面向不同語言處理差異化特征即可。NLP和技術無國界,百度在NLP的積累依然有效。
圈子內人士都知道百度NLP團隊是世界領先的NLP技術團隊之一。除了發表了大量 Paper、支持了眾多研究項目而在學術界擁有很高知名度外,百度NLP技術相對更加接地氣,注重實用性和工業價值,強調技術為產品服務。實際上 Google和百度風格一直迥異:當Google在鼓搗無人汽車、Google Glass等酷玩意兒的時候百度正在做阿拉丁計劃、地圖、O2O、金融這些更“接地氣”的業務,以及諸如貼吧、知道等接地氣的產品,正是貼吧產生了“屌絲”這一詞。Google更加多元,百度更加專注。
百度能否在巴西擊敗Google還有非常重要的一點:除了在中巴兩國元首見證下高調亮相,百度與巴西科技創新部的合作內容還包括,百度將在巴西建立世界級企業研發中心,為巴西互聯網科技提供創新性解決方案,加強培養互聯網科技人才,支持巴西創業公司等。巴西十分需要百度,會給予百度相應支持。
從國際化戰略上看,巴西人口眾多、經濟即將迎來爆發式增長,發布葡語搜索確實是百度海外戰略的一個里程碑式的事件,預示著百度在海外市場不僅掀開了新的篇章,而且像與政府合作、技術輸出實現國際信息技術合作,也走出了真正憑借技術實力的海外模式。假以時日,百度與Google在其他多國的PK和較量,勢必引發全球搜索引擎市場更大范圍的格局變化。業界在關注百度葡語搜索上線消息本身的同時,資本市場也勢必會對百度市值的增長空間開始新的想象。