研發麻將人工智慧的技術真那麼高?聽微軟解釋總不會錯了吧?(下)

研發麻將人工智慧的技術真那麼高?聽微軟解釋總不會錯了吧?(下)



這篇再來繼續帶你看這個麻將人工智慧,它後面更多不為人知的發展和秘密,看完讓你恍然大悟!

為何我們會想寫這篇文章?

讀者看到了這篇文章:AI人工智慧又贏了!微軟Suphx突破日本麻將最高紀錄,打敗人類頂尖玩家時,可能會立即聯想到 Google 開發的圍棋人工智慧 Alpha Go 於兩年前以近乎完美姿態打敗人類選手李世乭和柯潔的新聞。根據微軟所說:研發麻將 AI 人工智慧的技術門檻可說是比研發圍棋、德州撲克等棋牌、博弈類的遊戲難多了!是真的嗎?這篇取材自微軟亞洲研究院的新聞稿,解釋為何同樣是人工智慧,為何研發 AI 麻將技術門檻就是比 Alpha Go 等棋類 AI 高的還多!

 

  「全新機制、教練先知、全面預測」對付麻將AI研發瓶頸

 

全新機制應對「巨大的狀態空間」

例如,為了應對「巨大的狀態空間」,研究團隊引入了全新的機制:對探索過程的多樣性,進行動態調控,讓 Suphx 可以比傳統算法更加充分地試探牌局狀態的多種可能。另一方面,一旦某一輪的底牌給定,其狀態子空間會大幅縮小;所以研究團隊讓Suphx 在推理階段根據本輪的牌局,來動態調整策略,對縮小了的狀態子空間進行更有針對性的探索,從而更好地根據本輪牌局的演進做出自適應的決策。

 

「先知教練技術」應對「非完美資訊」

其次,針對「非完美訊息」博弈的挑戰,Suphx 創新性地嘗試了先知教練技術來提升強化學習的效果。其基本思想是在自我博弈的訓練階段,利用一些不可見的隱藏訊息,來引導 AI人工智慧 模型的訓練方向,使其學習路徑能更加清晰、更加接近完美資訊意義下的最佳路徑,從而讓 AI人工智慧 模型能更加深入地理解可見信息,從中找到有效的決策依據。

 

「全盤預測技術」理解「復雜的獎勵機制」

另外,對於麻將復雜的牌面表達和計分機制,研究團隊還利用全盤預測技術搭建起每輪比賽和8輪過後的終盤結果之間的橋樑。這個預測器通過精巧的設計,可以理解每輪比賽對終盤的不同貢獻,從而將終盤的獎勵信號合理地分配回每一輪比賽之中,以便對自我博弈的過程進行更加直接而有效的指導,並使得Suphx可以學會一些具有大局觀的高級技巧。

得益於以上新技術和其他方面的創新,自今年 3 月進入天鳳平台以來,Suphx 在與人類玩家的對局中,學得非常快。目前,在平衡攻擊和防禦方面,Suphx 表現出了比許多頂尖人類玩家更明智的策略,能夠戰略性地完成短期損失與長期收益之間的權衡,並根據已有的模糊信息進行快速決策。

Suphx 一直在不斷學習與進步,研究團隊也一直在對 Suphx 背後核心算法的價值進行評估、重複回饋過程和反思,從而實現進一步的改進和提升。而劉鐵岩也表示「 雖然 Suphx 根據麻將的獨特挑戰,進行了針對性的設計,也取得了不錯的戰績,但我們的創新從未停止。我們期待,在不久的將來,能發明出更新穎、更強大的AI人工智慧 技術,使得Suphx 的能力有更大幅度的提升!縱觀歷史、遊戲AI人工智慧 的進化,始終與AI人工智慧 研究進展相生相伴,很多關於人工智慧的研究都起源於研究如何構建能夠完成遊戲的智能體。我們希望通過對 Suphx 的研究來探索及擴展已有AI人工智慧技術的邊界,不斷推動人工智慧領域的進步。」




延伸閱讀文章:

研發麻將人工智慧的技術真那麼高?聽微軟解釋總不會錯了吧?(上)

全台第一本人工智慧教科書,有望為台灣青年提高競爭力!

冷冷的冬天,透過AI人工智慧,浪浪喵星人再也不用淪落街頭了!

學寫網頁的第一堂課,前端工程師和後端工程師的差別

我轉職成Java工程師,只是上了半年達內教育評價極高的 Java 課程

暑假快到了!與其讓兒子盲目拚學測,我寧可讓他先選擇人生方向~

達內課程先就業再付款- 中時電子報



這個網誌中的熱門文章

前端工程師設定CSS背景的五種方法(一)背景固定模式設定

前端工程師設定CSS背景的五種方法(五)設定背景顏色

RWD和AWD是啥?差別又是什麼?前端工程師課程大解密!