close

陳經:分析AlphaGo算法巨大的優勢與可能的缺陷

2016年3月12日人機大戰第三局,AlphaGo執白176手中盤勝李世石,以3:0的比分提前取得瞭對人類的勝利。

這一局李世石敗得最慘,早早就被AlphaGo妙手擊潰,整盤毫無機會。最後李世石悲壯地造劫,在AlphaGo脫先之後終於造出瞭緊劫。但AlphaGo隻靠本身劫就贏得瞭劫爭,粉碎瞭AlphaGo不會打劫的猜想。這一局AlphaGo表現出的水平是三局中最高的,幾乎沒有一手棋能被人置疑的,全是好招。三局過去,AlphaGo到底實力高到什麼程度,人們反而更不清楚瞭。

看完這三局,棋界終於差不多絕望瞭,原以為5:0的,都倒向0:5瞭。有些職業棋手在盤算讓先、讓二子是否頂得住。整個歷程可以和科幻小說《三體》中的黑暗戰役類比,人類開始對戰勝三體人信心滿滿,一心想旁觀5:0的大勝。一場戰鬥下來人類艦隊全滅,全體陷入瞭0:5的悲觀失望情緒中。

我也是糾結瞭一陣子,看著人類在圍棋上被機器碾壓的心情確實不好。但是承認機器的優勢後,迅速完成瞭心理建設,又開心地看待圍棋瞭。其實挺容易的,國際象棋界早就有這樣的事瞭。這個可以等五盤棋過後寫。

現在我的感覺是,棋界整體還是對AlphaGo的算法以及風格很不適應。一開始輕視,一輸再輸,姿態越來越低,三盤過後已經降到一個很低迷沉鬱的心理狀態瞭。這也可以理解,我一個圍棋迷都抑鬱瞭一會,何況是視棋如生命的職業棋手。但是不管如何,還是應該從技術的角度平心靜氣地搞清楚,AlphaGo到底是怎麼下棋的,優勢到底在哪些,是不是就沒有一點弱點瞭?

現在有瞭三盤高水平的棋譜,質量遠高於之前和樊麾的五盤棋譜。還有谷歌2016年1月28號發表在《自然》上的論文,介紹瞭很多技術細節,還有一些流傳的消息,其實相關的信息並不少,可以作出一些技術分析瞭。

之前一篇文章提到,從研發的角度看,谷歌團隊把15-20個專傢湊在瞭一起,又提供瞭巨量的高性能計算資源,建油煙分離機立起瞭整個AlphaGo算法研究的“流水線”。這樣谷歌團隊就從改程序代碼的麻煩工作中解放出來,變成指揮機器幹活,開動流水線不斷學習進步,改善策略網絡價值網絡的系數。而且這個研發架構似乎沒有什麼嚴重的瓶頸,可以持續不斷地自我提升,有小瓶頸也可以想辦法再改訓練方法。就算它終於遇到瞭瓶頸,可能水平也遠遠超過人類瞭。

這些復雜而不斷變動的神經網絡系數是AlphaGo的獨門絕技,要訓練這些網絡,需要比分佈式版本對局時1200多個CPU多得多的計算資源。AlphaGo算法裡還是有一些模塊代碼是需要人去寫的,這些代碼可不是機器訓練出來的,再怎麼訓練也改不瞭,谷歌團隊還不可能做到這麼厲害。例如蒙特卡洛搜索(MCTS)整個框架的代碼,例如快速走子網絡的代碼。這裡其實有兩位論文共同第一作者David Silver和Aja Huang多年積累的貢獻。這些人寫的代碼,就會有內在的缺陷,不太可能是完美無缺的。這些缺陷不是“流水線”不眠不休瘋狂訓練能解決的,是AlphaGo真正的內在缺陷,是深度學習、self-play、進化、強化學習這些高級名詞解決不瞭的。谷歌再能堆硬件,也解決不瞭,還得人去改代碼。

第一局開局前,谷歌就說其實還在忙著換版本,最新版本不穩定,所以就用上一個固定版本瞭。這種開發工作,有可能就是人工改代碼消除bug的,可能測試沒完,不敢用。

總之,像AlphaGo這麼大一個軟件,從算法角度看存在bug是非常可能的。在行棋時表現出來就是,它突然下出一些不好的招數,而且不是因為策略網絡價值網絡水平不夠高,而是MCTS框架相關的搜索代碼運行的結果。如果要找AlphaGo潛在的bug,需要去仔細研究它的“搜索 ”。這可能是它唯一的命門所在,而且不好改進。

那麼MCTS的好處壞處到底是什麼?幸運的是,Zen和CrazyStone等上一代程序,以及facebook田淵棟博士開發的Darkforest都用瞭MCTS。它們和AlphaGo雖然棋力相差很遠,但是行棋思想其實很相似,相通之處遠比我們想象的高得多。

這是田淵棟貼的Darkforest對前兩局的局勢評分。可以看出,這個評分和棋局走向高度一致,完全說得通。而且谷歌也透露瞭AlphaGo對局勢的評分,雖然一直領先,但第二局也有接近的時候,能夠相互印證。如果到網上下載一個Zen,輸入AlphaGo和李世石的對局,選擇一個局面進行分析,也會有像模像樣的評分出來。這究竟是怎麼回事?

從技術上來說,所謂的局勢評分,就是程序的MCTS模塊,對模擬的合理局面的勝率估計。連AlphaGo也是這樣做的,所以幾個程序才能對同樣一個局面聊到一塊去。所有程序的MCTS,都是從當前局面,選擇一些分支節點搜索,一直分支下去到某層的“葉子”節點,比如深入20步。

這個分支策略,AlphaGo和Darkforest用的是“策略網絡”提供的選點,選概率大的先試,又鼓勵沒試過的走走。到瞭葉子節點後,就改用一個“快速走子策略”一直下完,不分支瞭,你一步我一步往下推進,比如再下200步下完數子定出勝負。這個走子策略必須是快速的,谷歌論文中說AlphaGo的快速走子策略比策略網絡快1000倍。如果用策略網絡來走子,那就沒有時間下完瞭,和李世石對局時的2小時會遠遠不夠用。下完以後,將結果一路返回,作一些標記。最後統計所有合理的最終局面,看雙方勝利的各占多少,就有一個勝率報出來,作為局勢的評分。一般到80%這類的勝率就沒意義瞭,必勝瞭,機器看自己低於20%就中盤認輸瞭。

AlphaGo的創新是有價值網絡,評估葉子節點時不是隻看下完的結果,而是一半一半,也考慮價值網絡直接對葉子節點預測的勝負結果。走子選擇就簡單瞭,選獲勝概率最大的那個分支。機器也會隨機下,因為有時幾個分支勝率一樣。

MCTS這個框架對棋力最大的意義,我認為就是“大局觀”好。無論局部如何激烈戰鬥,所有的模擬都永遠下完,全盤算子的個數。這樣對於自己有多少占地盤的潛力,就比毛估估要清楚多瞭。以前的程序,就不下到終局,用一些棋塊形狀幅射之類的來算自己影響的地盤,估得很差,因為一些棋塊死沒死都不清楚。MCTS就不錯,下到終局死沒死一清二楚。MCTS也不會隻盯著局部得失,而是整個盤面都去劃清楚邊界。這個特點讓幾個AI對局勢的評估經常很相似,大局觀都不錯。MCTS對於雙方交界的地方,以及虛虛實實的陣勢,通過打入之類的模擬,大致有個評估。當然這不是棋力的關鍵,大局觀再好,局部被對手殺死也沒有用,可能幾手下來,局勢評估就發生瞭突變。

AlphaGo的大局觀還特別好,特別準確,主要是它模擬的次數最多,模擬的質量最好。而且這個大局觀從原理上就超過瞭人類!比如人看到一塊陣勢,如果不是基本封閉的實空,到底價值多少評估起來其實是非常粗的。高手點目時經常這樣,先把能點的目算清楚,有一些小陣勢如無憂角就給個經驗目數,然後加上貼目算雙方精確目數的差值,然後說某方的某片陣勢能不能補回靜電油煙處理機這個差值,需要扣除對方打入成的目數,孤棋薄棋減目數。這類估算有很多不精確的因素。

AlphaGo就不一樣瞭,它會真的打入到陣勢裡,來回模擬個幾十萬次,每一次都是精確的!人絕對沒有能力像AlphaGo這麼想問題,一定是利用經驗去估算陣勢的價值,誤差就可能很大。極端情況下,一塊空有沒有棋,職業棋手根本判斷不清,AlphaGo卻可以通過實踐模擬清楚,沒棋和有棋相比,目數差別太大瞭。AlphaGo雖然不是嚴格證明,但通過概率性地多次打入模擬,能夠接近理論情況,比人類憑經驗要強太多瞭。我可以肯定,AlphaGo的大局觀會遠遠超過職業高手,算目也要準得多,所以佈局好、中後盤收束也很強大。甚至Zen之類的程序大局觀都可能超過職業高手。

例如第二局這個局面:

李世石左下占瞭便宜,本來局勢還可以。但是他70和72手吃瞭一子落瞭後手,被AlphaGo走到73,大局一下就落後瞭。這個在前面Darkforest對局勢的評估圖中都非常清楚,是局勢的轉折點。李世石要是手頭有個Zen輔助,試著下兩下都可能會知道70手不要去吃一子瞭。大局觀不太好的職業高手,比如李世石就是個典型,大局觀不如Zen真不一定是笑話。李世石比Zen強的是接觸戰全局戰的手段,要強太多瞭。MCTS實事求是不怕麻煩下完再算子的風格,比起人類棋手對於陣勢價值的粗放估算,是思維上先天的優勢。

AlphaGo比其它程序強,甚至比職業高手還強的,是近身搏殺時的小手段。

第三局,李世石29和31是失著。29湊白30雙,雖然獲得瞭H17的先手,但是中間的頭更為重要。當黑31手飛出後,白32象步飛可以說直接將黑擊斃瞭。在盤面的左上中間焦點處,AlphaGo的快速走子網絡會有一個7*7之類的小窗口,對這裡進行窮舉一樣的搜索,用人手寫的代碼加上策略網絡。32這步妙招可能就是這樣找出來的,李世石肯定沒有算到。但是AlphaGo是不怕麻煩的,就一直對著這裡算,比人更容易看到黑三子的可憐結局。這個計算對人有些復雜,隻有實力很強的才能想到算清楚,對AlphaGo就是小菜。李世石一招不慎就被技術性擊倒瞭。AlphaGo對這種封閉局部的計算,是它超過人類的強項。

但是AlphaGo的搜索是不是就天衣無縫瞭?並不是。來看第二局這個局面:

AlphaGo黑41手尖沖,43手接出作戰。最後下成這樣,這是三局中AlphaGo被眾多職業棋手一致認為最明顯的一次虧損失誤,如果它還有失誤的話。我們猜想它為什麼會失誤。關鍵在於,這裡是一個開放式的接觸戰,棋塊會發展到很遠的地方去。AlphaGo的小窗口封閉窮舉搜索就不管用瞭,就隻有靠MCTS在那概率性地試。這裡分支很多,甚至有一個復雜的到達右上角的回頭征。我認為AlphaGo這裡就失去瞭可靠的技術手段,終於在這個人類一目瞭然的局面中迷失瞭。它是沒有概念推理的,不知道什麼叫“憑空生出一塊孤棋”。也不確定人會在50位斷然反擊,可能花瞭大量時間在算人妥協的美好局面。

再來看AlphaGo一個明確的虧損。第一局白AlphaGo第136手吃掉三子。這裡是一個封閉局面,是可以完全算清楚的。可以絕對地證明,136手吃在T15更好,這裡白虧瞭一目。但是為什麼AlphaGo下錯瞭?因為它沒有“虧一目”的這種概念。隻有最終模擬收完數子,白是179還是180這種概念,它根本搞不清楚差的一個子,是因為哪一手下得不同產生的,反正都是勝,它不在乎勝多少。除非是176與177子的區別,一個勝一個負,那136就在勝率上劣於T15瞭,它可能就改下T15瞭。

這個局面白已經勝定瞭所以無所謂。但是我們可以推想,如果在對局早期,局部發生瞭白要吃子的選擇,一種是A位吃,一種是B位吃,有目數差別,選哪種吃法?這就說不清瞭。AlphaGo的小窗口窮舉,是為瞭保證對殺的勝利,不殺就輸瞭。但是都能吃的情況下,這種一兩目的區別,它還真不好編程說明。說不定就會下錯虧目瞭。

經過以上的分析,AlphaGo相對人類的優勢和潛在缺陷就清楚多瞭。它的大局觀天生比人強得多,因為有強大的計算資源保證模擬的終局數量足夠,策略網絡和價值網絡剪枝又保證瞭模擬的質量。它在封閉局部的對殺會用一個小窗口去窮舉,絕對不會輸,還能找到妙手。它佈局好,中盤戰鬥控制力強,都是大局觀好的表現。它中後盤收束差不多都是封閉局面瞭,基本是窮舉瞭,算目非常精確,幾百萬次模擬下來什麼都算清瞭。想要收官中撈點目回去不是問題,它勝瞭就行;但是想收官逆轉是不可能的,影響瞭勝率它立刻就窮舉把你堵回去。

但是封閉式局面的小手段中,AlphaGo可能存在不精確虧目的可能性,不知道怎麼推理。在開放式接觸戰中,如果戰鬥會搞到很遠去,它也可能手數太多算不清,露出破綻。但不會是崩潰性的破綻,要崩潰瞭它就肯定能知道這裡虧瞭,不崩吃點暗虧它就可能糊塗著。目前來看,就是這麼兩個小毛病。

另外還有打劫的問題。如果是終局打劫,那是沒有用的,它就窮舉瞭,你沒有辦法。如果是在開局或者中局封閉式局部有瞭劫爭,由於要找劫,等於強制變成瞭殺到全盤的開放度最大的開放式局面瞭。這是AlphaGo不喜歡的,它的小窗口搜索就用不上瞭。而用MCTS搜索,打劫步數過多,就會超過它的葉子節點擴展深度,比如20步就不行瞭,必須“快速走子”收完瞭。這時它就胡亂終局瞭,不知道如何處理劫爭,模擬質量迅速下降。所以,這三局中,AlphaGo都顯得“不喜歡打劫”。但是,這不是說它不會打劫,真要逼得它不打劫必輸瞭,那它也就被MCTS逼得去打瞭。如果劫爭發生在早中期手數很多,在打劫過程中它就可能發生失誤。

當然這隻是一個猜想。它利用強大的大局觀與局部手段,可以做到“我不喜歡打劫,打劫的變化我繞過”,想吃就給你,我到別的地方撈回來。當然如果對手足夠強大,是可以逼得它走上打劫的道路的,它就隻好打瞭,說不定對手就有機會瞭。第三局李世石就逼得它打起瞭劫,但是變化簡單它不怕,隻用本身劫就打爆瞭對手。

如果要戰勝AlphaGo,根據本文的分析,應該用這樣的策略:大局觀要頂得住,不能早早被它控制住瞭。局部手段小心,不要中招。頂住以後,在開放式的接觸戰中等它自己犯昏。或者在局部定型中看它自己虧目。在接觸戰中,要利用它“不喜歡打劫”的特性,利用一些劫爭的分枝虛張聲勢逼它讓步,但又不能太過分把它逼入對人類不利的劫爭中。這麼看,這個難度還真挺高的。但也不是不可想象瞭,柯潔大局觀好,比較合適。李世石大局觀差,不是好的人類代表。

本文進行瞭大膽的猜測,可能是一傢之言。但我也是有根據的,並不是狂想。如果這篇文章能幫助人類消除對AlphaGo的恐懼,那就起到瞭作用。

作者簡介:筆名陳經,香港科技大學計算機科學碩士,中國科學技術大學科技與戰略風雲學會研究員,棋力新除油煙機浪圍棋6D。21世紀初開始有獨特原創性的經濟研究。2003年的《經濟版圖中的發展中國傢》預言中國將不斷產業升級,挑戰發達國傢。2006年著有《中國的“官辦經濟”》。

致謝:感謝中國科學技術大學科技與戰略風雲學會會長袁嵐峰博士(@中科大胡不歸 )與其他會員的寶貴意見。

(觀察者網)

台灣電動床工廠 電動床

台灣電動床工廠 電動床

AUGI SPORTS|重機車靴|重機車靴推薦|重機專用車靴|重機防摔鞋|重機防摔鞋推薦|重機防摔鞋

AUGI SPORTS|augisports|racing boots|urban boots|motorcycle boots

arrow
arrow
    創作者介紹
    創作者 lsr432l4m8 的頭像
    lsr432l4m8

    大白的購買清單

    lsr432l4m8 發表在 痞客邦 留言(0) 人氣()