久色porn_可以看毛片的网址_chinese乱子伦xxxx国语对白_久久亚洲精选_国产午夜亚洲精品午夜鲁丝片_97se亚洲综合在线韩国专区福利

眾推推 - 最專業(yè)的微信任務(wù)系統(tǒng)源碼!

資訊熱點
德?lián)銩I之父:贏不贏柯潔 阿爾法狗都缺乏實際用處

發(fā)布時間:2020-7-16 分類: 電商動態(tài)

人機(jī)對戰(zhàn)無疑是4月10日的新聞焦點之一。一邊在海南澄邁,德州撲克人工智能“冷撲大師“(Libratus)經(jīng)過5日激戰(zhàn),在33000手一對一無限注德?lián)浔荣愔型陝僦袊褒堉牎暗?名高手,斬獲200萬人民幣獎金;另一邊在北京的中國棋院,谷歌宣布被中國網(wǎng)民稱為“阿爾法狗“的圍棋人工智能AlphaGo將在5月下旬的烏鎮(zhèn)對陣柯潔領(lǐng)銜的中國頂尖棋手,上演終極一戰(zhàn)。 一南一北,一牌一棋,兩則人機(jī)對戰(zhàn)重磅消息在同一天出爐,雖然未必是有意針鋒相對,但也足夠令無心的觀眾相互比較。有些讀者認(rèn)為,連圍棋這樣高深的智力運(yùn)動都早已被阿爾法狗拿下,撲克這樣門檻低、上手簡單的大眾娛樂又何足掛齒呢?但反方則指出,撲克不是單純靠計算的游戲,牽扯到很多心理上的博弈,有時甚至需要“飆演技“,AI能掌握這類游戲有些匪夷所思。 那么,德?lián)浜蛧暹@兩種智力游戲,對AI來說到底有什么區(qū)別?哪個難度更大一些?針對這些問題,澎湃新聞(www.thepaper.cn)就冷撲大師和阿爾法狗的相關(guān)資料進(jìn)行了梳理與比較。 托馬斯?桑德霍姆(Tuomas Sandholm) 資料圖 不過,冷撲大師的開發(fā)者、美國卡內(nèi)基梅隆大學(xué)(CMU)計算機(jī)系教授托馬斯?桑德霍姆(Tuomas Sandholm)在聽到阿爾法狗將來華挑戰(zhàn)的消息后,評價非常的簡單:問題的關(guān)鍵并不在于中國頂尖棋手能不能贏,而在于生活中幾乎不存在像圍棋這樣的“完美信息游戲“,因而阿爾法狗也缺乏實用場景。 圍棋和德?lián)鋵τ贏I來說,性質(zhì)是不是一樣的? 自1988年CMU開發(fā)的“奧賽羅“程序擊敗世界黑白棋冠軍以來,人類就在棋類游戲上節(jié)節(jié)敗退。1997年,IBM的計算機(jī)“深藍(lán)“擊敗了國際象棋棋壇神話卡斯帕羅夫,使人機(jī)對戰(zhàn)在當(dāng)時達(dá)到了輿論高峰,其影響力絕不亞于去年阿爾法狗擊敗韓國棋手李世石。 計算機(jī)程序攻克這些棋類游戲的方法在本質(zhì)上是一樣的:搜索。下每一步棋都是一個決策點,在決策點上分化出不同的可能性,而整盤棋也就形成了一棵不停分叉的決策樹。而計算機(jī)所做的,就是在每一個決策點上搜索勝率最大的那條路徑。 因而難度主要取決于決策點的數(shù)量。決策點越多,搜索難度自然越大。黑白棋的搜索量只有10的十幾次方,國際象棋是10的四十幾次方,而圍棋的搜索量達(dá)到了驚人的10的170次方。 不過,也正因為圍棋的搜索量太大,完全精確的結(jié)果是不可能得到的。因而,阿爾法狗在蒙特卡洛樹搜索算法(Monte Carlo Tree Search)的基礎(chǔ)上,結(jié)合走棋網(wǎng)絡(luò)(Policy Network)、快速走子(Fast rollout)和價值網(wǎng)絡(luò)(Value Network)進(jìn)行預(yù)測和評估,得到盡可能接近最優(yōu)的解。雖然阿爾法狗這個過程中做出了巨大突破,但它本質(zhì)上還是在搜索。 德州撲克與棋類完全不同。圍棋是一種“完美信息游戲“,場面上所有的情況都黑白分明地擺在棋面上,雙方掌握對等的信息。然而,德?lián)渲须[藏了很多信息,是一種“非完美信息游戲“。玩家不知道對手手中是什么牌,不知道五張公共牌會開出怎樣的結(jié)果,也不知道對手猜測自己握有怎樣的手牌。 因此,雖然一盤德?lián)涞臎Q策點數(shù)量是10的160次方,要少于圍棋,但光靠搜索是打不了德?lián)涞摹5聯(lián)溆纱颂隽嗽谒阉髁可系妮^量,對AI提出了另一個方向上的考驗:應(yīng)對隱藏的信息。 阿爾法狗和冷撲大師的原理有何不同? 谷歌曾在《自然》雜志上發(fā)表文章,公布阿爾法狗的幾個基本原理,分別為:走棋網(wǎng)絡(luò)(Policy Network),給定當(dāng)前局面,預(yù)測和采樣下一步的走棋;快速走子(Fast rollout),在適當(dāng)犧牲走棋質(zhì)量的條件下提高速度;價值網(wǎng)絡(luò)(Value Network),給定當(dāng)前局面,估計雙方勝率;蒙特卡羅樹搜索(Monte Carlo Tree Search,MCTS),把以上三個部分串聯(lián)成一個完整的系統(tǒng)。 冷撲大師的算法則主要基于以下三個模塊產(chǎn)生: 首先,納什均衡是德?lián)渌惴ǖ暮诵模碅I的目標(biāo)是找到一個無論對方怎么做,自己都不會產(chǎn)生損失的策略。根據(jù)博弈論,像一對一撲克這種零和游戲永遠(yuǎn)存在這樣的最優(yōu)解,就像在經(jīng)典的博弈論模型“囚徒困境“中,招認(rèn)罪行就是一個無論對方招認(rèn)不招認(rèn)都最優(yōu)的策略。因此,冷撲大師的開發(fā)團(tuán)隊提前在龐大的決策樹上利用虛擬遺憾最小化算法(Counterfactual Regret Minimization,CFR)推算出了均衡,即通過多次迭代計算博弈樹中每個信息集的動作遺憾值和平均策略值,預(yù)測下一時刻的決策動作,使其是當(dāng)前最小遺憾動作。 此外,冷撲大師還有殘局解算器(end-game solver)和自我強(qiáng)化學(xué)習(xí)這兩個模塊來輔助第一個模塊。殘局解算器會在殘局時實時評估場上的情況,以判斷第一模塊中算出的納什均衡是否符合實時情況。而自我強(qiáng)化學(xué)習(xí)會反思AI在比賽中的表現(xiàn),找出曾被人類利用過的“套路“,清除這些可循的痕跡。 總體來說,阿爾法狗和冷撲大師的算法有三大明顯不同。 第一,阿爾法狗的訓(xùn)練過程中用到了大量數(shù)據(jù)的深度學(xué)習(xí),即通過大量給定的輸入和輸出形成穩(wěn)定的處理。但計算機(jī)的處理過程本身是一個黑匣子。而冷撲大師沒有用到時髦的深度學(xué)習(xí),而是通過傳統(tǒng)的線性規(guī)劃提前算出納什均衡,是一個“老式但好用的人工智能“(Good Old-Fashioned Artificial Intelligence)。 第二,阿爾法狗在深度學(xué)習(xí)過程中參考了數(shù)千萬張人類棋譜,可以說是靠模仿人類高手起步的。雖然阿爾法狗也運(yùn)用到了一些自我強(qiáng)化學(xué)習(xí),但比重并不大。而冷撲大師完全是通過自我強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練的。開發(fā)者從未教給它人類打牌的方法,只是向它描述了德?lián)涞囊?guī)則,由它“左右互搏“,摸索出德?lián)鋺?yīng)該怎么玩。因而,冷撲大師的打法完全脫離了人類經(jīng)驗。值得注意的是,即將與柯潔在烏鎮(zhèn)對戰(zhàn)的阿爾法狗2.0將擯棄人類棋譜,完全采用一套自我摸索出來的下法。 第三,雖然阿爾法狗和冷撲大師都特別喜歡殘局階段下殺招,但它們的難度不一樣。圍棋下到殘局,可走的招數(shù)越來越少,計算量也越來越簡單;而德?lián)溟_到轉(zhuǎn)牌和河牌時,可能性更多,局面變得更為復(fù)雜。因此,冷撲大師經(jīng)常在轉(zhuǎn)牌階段做出長時間的停頓。 阿爾法狗和冷撲大師哪個更有用? 在冷撲大師的開發(fā)者、美國卡內(nèi)基梅隆大學(xué)(CMU)計算機(jī)系教授托馬斯?桑德霍姆(Tuomas Sandholm)和其博士生諾姆?布朗(Noam Brown)看來,這個問題的答案十分明顯。在現(xiàn)實生活中,幾乎不存在像圍棋這樣給出所有信息的完美情境,因而像阿爾法狗這樣的算法也很難直接派上用場。 在現(xiàn)實生活中,我們遇到的事情會更像玩德?lián)洌荷虡I(yè)談判時對方未知的底牌、房屋拍賣時競爭對手難測的舉動、股票交易中一些隱藏的內(nèi)部消息。桑德霍姆認(rèn)為,德?lián)銩I打開了靠人工智能解決隨機(jī)事件和隱藏信息的大門。這樣的AI,才有望離開虛擬的棋牌世界,成為人類在現(xiàn)實生活中談判、博弈和投資的好幫手。 桑德霍姆自己就成立了一家戰(zhàn)略計算公司,希望利用人工智能解決金融上的一些戰(zhàn)略計算問題。首先,金融交易拼的是速度,AI在量化交易上具有巨大優(yōu)勢。其次,像股票交易中經(jīng)常會存在一些隱藏的信息,AI能在交易者較少的情況下,幫助人類在隱藏的信息面前做出決策。 阿爾法狗和冷撲大師哪個更厲害? 諾姆?布朗說道,每一種游戲從計算機(jī)科學(xué)的角度來說,都存在一些核心問題,而掌握這個游戲的AI相當(dāng)于解決了這個核心的問題。圍棋和德?lián)浯砹藘深愅耆煌挠螒颍柗ü泛屠鋼浯髱熞苍诔耆煌膬蓚€方向探索。 只不過,圍棋在“完美信息游戲“中屬于高難度水平,因而阿爾法狗也在搜索這個核心問題上取得了巔峰成就。而冷撲大師剛剛打開了“非完美信息游戲“的大門,對于解決隱藏信息這個問題來說,德?lián)銩I只是個開始。光就游戲而言,與德?lián)漕愃频膴W馬哈,就比德?lián)涓鼮閺?fù)雜一些。布朗說,他們對中國的麻將略知一二,麻將也是一種充滿了隱藏信息的游戲。

« 怎樣提高收入?融金所、中儲貸、宜人貸、團(tuán)貸網(wǎng)來幫忙 | 京東發(fā)布“五星級配送服務(wù)”標(biāo)準(zhǔn) 包含10條服務(wù)規(guī)范 »

主站蜘蛛池模板: 欧美精品一区在线 | 91精品国产色综合久久 | 久久久久无码国产精品一区 | 免费久草在线 | 日本视频一区二区三区 | 国产片一区二区三区 | 国产精选h网站 | 国产成人网 | 91综合久久 | 精品久久久久久久久久久久包黑料 | 日韩一区在线视频 | 国产精品美女久久久 | 97人人超碰 | 亚洲精品免费在线观看 | 亚洲成人精品一区 | 亚洲国产精品久久久 | 久久久18| 国产露脸国语对白在线 | 精品久久av | 久久九 | av资源网在线观看 | 国产精品永久免费 | 精品一区二区三区免费 | 精品国产鲁一鲁一区二区张丽 | 精品在线一区二区三区 | 夜夜操免费视频 | 久久99国产精品免费网站 | 懂色一区二区三区在线播放 | 国产午夜激情视频 | 久久亚洲精品视频 | 天堂一区二区三区 | 亚洲国产精品久久久久 | 亚洲欧美综合精品久久成人 | 国产中文视频 | 国产亚洲精品精品国产亚洲综合 | 中文字幕精品久久久久 | 亚洲情乱 | 成人国产精品免费网站 | 久久69精品久久久久久久电影好 | 国产一区福利 | 日韩精品一区二区三区在线 |