人工智慧–AlphaGo淺析

人工智慧之AlphaGo淺析(5)

前言： AlphaGo（阿爾法狗）通過2個“大腦”（2個多層神經網路）合作來改進下棋。借助價值函數和策略函數來減少搜索深度和搜索寬度，在盡可能減少搜索量和盡可能逼近最優解之間做到很好的平衡。因此AlphaGo的精髓就是在策略網路和價值網路上。 AlphaGo先後戰勝了圍棋世界冠軍李世石和柯潔，其棋力已經超過人類職業圍棋頂尖水準。人們不禁會問AlphaGo超越了人類的智慧了嗎？

通過前面幾篇介紹，我們知道了AlphaGo的關鍵演算法、神經網路和基本原理。 AlphaGo先後戰勝了圍棋世界冠軍李世石和柯潔，其棋力已經超過人類職業圍棋頂尖水準，

今天我們分析一下AlphaGo成功的原因以及AlphaGo不能超越人類智慧的原因。

AlphoGo成功原因：

AlphaGo具有某種程度的超強學習能力，能夠輕鬆地學習人類有史以來所有下過的棋譜，並從人類的經驗中學到致勝秘訣。

AlphaGo成功離不開深度神經網路。傳統的電腦圍棋方法是基於規則的，只能識別固定的棋路，類似於背棋譜。而基於深度學習的AlphaGo能自動提取棋譜局面特徵並將其有效地組合在一起, 極大增強了對棋譜的學習能力。其次,局面評估也是AlphaGo成功的關鍵。價值網路和快速走子網路在局面評估時的互為補充（0.5 VS 0.5）, 能夠較好地應對對手下一步棋的不確定性, 對得到更加精確的評估結果至關重要。 AlphaGo創新點在於深度學習、強化學習和模特卡羅樹樹搜索的演算法結合，

策略網路和價值網路的結合，棋譜學習和自我學習的結合，以及CPU和GPU計算能力的結合。 硬體設定的大幅提升功不可沒。 AlphaGo採用了非同步多執行緒搜索, 用CPU執行模擬過程, 用GPU計算策略網路和價值網路。最終單機版本AlphaGo使用了48個CPU和8個GPU, 分散式版本AlphaGo則採用了1202個CPU和176個GPU。正是這些電腦硬體的支援, 才得以讓AlphaGo發揮出強大實力。

穀歌研發的AlphaGo（阿爾法狗）是屬於通用的人工智慧，不同於IBM 研發的Deep Blue（深藍），它是屬於狹義人工智慧。 AlphaGo（阿爾法狗）既能直接從輸入和經驗中學習（沒有既定程式或者規則可循），又能將這個通用的學習系統（相同的演算法）用於不同的領域或任務中，甚至是一些全新領域或任務。

不能超越人類智慧的原因：

很顯然， AlphaGo下圍棋的邏輯從人類角度來看，肯定不夠完美。

1）AlphaGo的MCTS框架與人類棋手的佈局謀篇完全沒有相同的地方。 AlphaGo只是暴力的計算和概率的權衡。策略網路學習了大量人類圍棋高手的策略經驗，可以非常好的判斷應該走哪一步，但並不是基於對圍棋的理解和邏輯推理，而是基於策略網路學到的人類圍棋高手中90%的人都會走這一步。策略網路則根據學習到的經驗給出當前局面的勝負優勢的判斷，但是它同樣無法給出一個邏輯性的回答，而只能根據歷史經驗，給出這種局面贏的概率。而人類思維是非常複雜的，並不是概率性的。因此， AlphaGo從大量人類經驗中學到了大量的相關性或概率性的規律，

並沒有學到任何的因果性或其他的規律。這應該是 AlphaGo 和人類棋手最本質的區別。

2）AlphaGo在訓練過程中,假如低品質的樣本佔據了絕大多數，訓練樣本分佈的不均衡可能會導致AlphaGo實戰的失敗。蒙特卡羅樹搜索本質上是一種隨機搜索, 只能在一定的概率下得到正確的搜索結果, 相比於人類基於邏輯推理的方式, 可能會對局勢產生非準確的判斷。

3）AlphaGo在“自我互博”過程中使用的是強化學習DL。而強化學習的一個突出問題是存在學習盲區, 即存在著沒有被探索到的部分狀態空間。假如人類棋手找到了AlphaGo學習的盲區，就能找到相應的與其對弈的策略。 AlghaGo跟李世石第四局的失利，也許說明了AlphaGo存在著學習盲區。

4) AlphaGo的價值網路極大提高了局勢判斷精度,但離準確判斷局勢還有一定差距。

神經網路有時還會出現一些怪異或錯誤的判斷，有時訓練樣本會不足。價值網路仍然需要依靠快速走子網路來判斷局勢。 “打劫”可能會讓價值網路崩潰或失效，雖然此時可以靠快速走子網路來彌補，但是沒有了價值網路的AlphaGo棋技水準會急速下降到職業3-5段左右。

5）人類在圍棋上沉澱的經驗決定了AlphaGo 能力的上界，這個上界可能會高於人類自身頂尖高手。但是當人類不能繼續發展圍棋， AlphaGo的能力也就會止步不前。 AlphaGo的機制決定了其肯定是跟著人類掉進某些局部最優。如果人類不能不斷地開拓圍棋新的風格和流派或找到的新的局部最優， AlphaGo也就無法突破。也就意味著， AlphaGo在圍棋上超越人類智慧應該還沒有實現。

6）AlphaGo需要海量訓練樣本才能學到有用的東西，而這正是 AlphaGo目前主要依賴的方法。自我學習成為AlphaGo的主要學習方式。如果對於圍棋這樣相對簡單的環境中，自我學習還能應對。但在更加複雜環境中，比如商業、貿易、政府和戰爭等決策上，窮盡人類歷史也找不到多少精確的訓練集，再加上問題本身的複雜性遠超過基於完全資訊博弈的圍棋。在這種情況下，恐怕很難學到足夠準確的策略網路和價值網路。這就使得AlphaGo可能是完全無法解決這些複雜問題。

結束語：

Alphago是深度強化學習DRL和蒙特卡羅樹搜索MCTS相結合的產物，是AI人工智慧的產物。Alphago的成功依賴于大量樣本資料訓練、電腦硬體能力提升和人類精心設計的演算法程式。Alphago雖然戰勝了人類圍棋頂級高手，但它還是人類智慧的勝利。AlphaGo屬於通用人工智慧，除了圍棋外，還可以用在不同的領域或任務中。目前人工智慧尚沒有獨立的思維能力和學習能力,也遠沒到威脅人類生存發展的地步。同時，我們要清楚認識到我國與國外在人工智慧方面的差距。因此，我們需要更加深入和廣泛地學習和研究人工智慧的前言理論和基礎演算法，以及面向載體的創新應用，希望我國人工智慧的理論和應用水準都能達到新的高度，具備國際影響力。

BTW: AI人工智慧崛起是好是壞，目前無法界定。但是我們應該竭力確保：人工智慧朝著對我們自己、後代以及生存環境有利的方向發展，這應該是人工智慧發展的大原則和大方向！

（完）

------以往文章推薦-----

結束語：

（完）

------以往文章推薦-----