艰深数理化:仄メロ𠂉オレㇺ - johanzumimvon/2 GitHub Wiki

仄メロ𠂉オレㇺ,也被译作策梅罗定理,策梅洛定理,是指对于公平遊戏,其有先手或者後手必不败策略。

比如围棋、中国象棋、国际象棋、井字棋等等棋类遊戏,就是只要一方作出变化,另一方也会知道其变化,这样有必不败策略的遊戏被数学家称为公平遊戏。

公平遊戏,就是指在二人的有限遊戏中,一人一步骤,交替进行,双方皆拥有完全的信息,并且运气因素并不牵涉在遊戏中,遊戏结束于有穷步骤。

这样的遊戏,有围棋、国际象棋、中国象棋、井字棋、翻转棋等等。

目前,在公平遊戏中,人工智能可以说是完全打败人类。

石头剪刀布、扑克牌类遊戏、鬪地主、麻将、微软电脑遊戏扫雷、赌博、摩尔庄园、赛尔号、魔兽世界、刀塔、俄罗斯方块、塔防、我的世界、群星、文明系列等等遊戏,涉及运气、充值、信息不公开、无穷步骤等等,所以不属于公平遊戏。不过最近几年,人工智能在这些遊戏上也超过了人类,比如刀塔遊戏中,人工智能以5V5的形态勝过了人类。

未来,人工智能很可能会发现围棋等等所有棋类遊戏的必不败策略,估计到时候人们就难以理解围棋少年等等涉及棋类遊戏的作品的思想内涵了。

井字棋的必不败策略

原文地址: 井字棋的最优策略竟是先占角!

井字棋可能是最简单的棋类游戏了,它简单到了成年人之间玩几乎总是平局的地步。因此,这个游戏貌似最多只能哄哄小孩子。不过,对井字棋游戏中所有可能的情况进行一番细致的分析,就会发现一个或许让人不会料到的惊人结论——先手的最优策略不是稳坐正中央,而是先占一个角!

几年前,小编曾经自己动手写过一个和人下井字棋的电脑程序,运行之后却发现电脑先走时总爱把第一步棋下在角上;检查程序代码许久后才意识到,电脑程序可能并没有问题。人们往往有一个定势思维,认为由于从正中央出发能够得到的连线最多,因此最优策略必然是先占住正中央这块宝地。然而,经验是一回事,实际上就是另一回事了——这个电脑程序看似很没头脑地往角里下棋,但几乎总是在赢。

这究竟是为什么呢?不妨看一看,如果第一步真的走角,会发生哪些情况。

先手先占角

游戏开始后,二话不说先占上一个角,考虑到棋盘的对称性,将占角视为占据棋盘的(1, 1),那么对方总共有五种本质不同的应对策略:

占据靠近先手的那条边, 也就是(2, 1); 
占据靠近先手的那个角, 也就是(3, 1); 
占据远离先手的那条边, 也就是(3, 2); 
占据远离先手的那个角, 也就是(3, 3); 即对角; 
占据正中央的位置(2, 2). 

不可思议的是,在这五种策略中,前面四种都是陷阱——如果对方不慎选择了前面四种策略中的任意一种,後手就必然输掉。

先手占角策略

先手占角策略. 其中, 白方是先手; 黑方是後手

上图显示了在这四种情况下先手可以如何把对方一步步逼上绝路。假设对方走正下方,占据了一个靠近先手的边,也就是(2, 1),先手就可以占据正中央来应对,逼迫对方不得不走右上角。这时,只需要在左上角放下一子,先手就赢定了——图中出现了两条只差一子的连线,对方不可能兼顾得了。

右边几个图显示了对方第一步棋的其它几种走法。选择合适的位置应对他,都可以使先手在下一步迫使对方只剩一种走法,接下来先手便可以下出“一箭双雕”的棋,让对方无法彻底封杀先手。

也就是说,当先手占据棋盘一角后,在对方下一步棋的八个可选位置中,其中七个位置都是必输的,陷阱摆满了几乎整个棋盘。在面对先走一角的诡异开局时,对方说不准就会慌了手脚,没能冷静地占住中间,决定了必败的命运。

对方如果占了(2, 2)

对方要是真的走了正中间,也就是井字棋棋盘中的(2, 2)处,先手仍然有赢的机会。先手可以占住右上角的位置(如上图)。如果对方不幸走了剩下的两个角中的一个(上图左),先手便能故技重施,又一次取得胜利。只有对方选择了边上的位置(上图右),才能躲过这一系列的陷阱,最终变成平局。

难怪计算机会把角上的位置当作宝地呢。

如果先手占的是中央,也就是(2, 2)

如果先手占领(2, 2)的话

作为后行者,後手遇到的大多是先走中间的经典开局。如果这是後手不慎走了某条边的位置,先手可就赢定了!先手可以向上面的第一幅图那样,在正右方下子应对,逼迫後手把下一步棋落在正左方。此时,先手便可占据右上方的位置,同时产生出两条仅差一子的连线。右边三幅图则显示,如果後手在角上应对,最终总会是一盘和棋。

反过来,先手第一步走中间,棋盘上剩下的八个位置中有四个位置都是会导致对方必败的陷阱,因此先手第一步走中间后,获胜的机会也并不小。

如果先手走角的话,则後手必不败策略为

井字棋必不败策略

先手占领(1, 1), 後手占领(2, 2)

先手占领(3, 3), 後手占领(3, 2)

先手占领(1, 2), 後手占领(1, 3)

先手占领(3, 1), 後手占领(2, 1)

遊戏平局

这就是井字棋的完美下法 | 最高下法

围棋必胜策略举例

1·1围棋必勝策略

1·1围棋必勝策略

先手必勝

先手下于(1, 1)占领整个棋盘. 
先手勝利

2·2围棋必勝策略

2·2围棋必勝策略

後手必胜

先手占领等价于(1, 1), 後手占领(2, 2)
先手占领等价于(1, 2), 後手占领(2, 1). 
先手失去全部棋子, 後手获勝. 

3·3围棋必勝策略

3·3围棋必勝策略

先手必勝

先手占领(2, 1), 後手占领(2, 2). 
先手占领(1, 2), 後手占领(3, 2). 
先手占领(2, 3), 後手占领(3, 1). 
先手占领(3, 3), 後手失去全部棋子. 

先手获勝

先手占领(2, 1), 後手占领(2, 3). 
先手占领(1, 2), 後手占领(3, 2). 
先手占领(2, 2), 後手占领(3, 3). 
先手占领(1, 3), 後手失去行动能力. 

先手获勝

人工智能围棋现状

目前, 人工智能已经完全得知9·9以内的围棋的必不败策略, 以後会不会是11·11, 15·15, 19·19?!

通用人工智能 | 人工智能智商飙增,欲接管人类兮?!

士大夫评论

自从α围棋(アㇻフア碁,アㇻフア바둑,アㇻフアパト゚ㇰ)打败李世乭(이세돌,イセトㇿ,本应作【리세돌(リセトㇿ)】),人工智能就已经开始了取代人类之路,至少在这种公平的博弈中,人工智能可以说是稳胜不败,因为博弈论已经证明:围棋等等棋类遊戏有先手必胜策略,即使是因炮而刁钻的中国象棋也是有某方必胜的策略。有趣的是,后来,α围棋算法又进行蛋白质(ㇷ゚ロテㇴ)折叠算法,难道是因为围棋遊戏与肽链折叠有类似之处?!现在,人工智能又在刀塔遊戏(Dota,土タ)中以5V5的形式打败人类,以后会不会是在10V10,百V百,萬V萬,億V億,,,∞V∞上打败人类?!要知道,相对于围棋,刀塔遊戏不属于公平博弈,没有棋类遊戏的必胜策略。

围棋变化多端,有3³⁶¹=1.74·10¹⁷²种排序,也就是

17408965065903192790718823807056436794660272495026354119482811870680105167618464984116279288988714938612096988816320780613754987181355093129514803369660572893075468180597603

如果考虑步骤的话,会有361!=1.44·10⁷⁶⁸种下法,也就是

1437923258884890654832362511499863354754907538644755876127282765299227795534389618856841908003141196071413794434890585968383968233304321607713808837056557879669192486182709780035899021100579450107333050792627771722750412268086775281368850575265418120435021506234663026434426736326270927646433025577722695595343233942204301825548143785112222186834487969871267194205609533306413935710635197200721473378733826980308535104317420365367377988721756551345004129106165050615449626558110282424142840662705458556231015637528928999248573883166476871652120015362189137337137682618614562954409007743375894907714439917299937133680728459000034496420337066440853337001284286412654394495050773954560000000000000000000000000000000000000000000000000000000000000000000000000000000000000000

大家好,我是扶摇。欢迎和我一起探索未解之谜。

最近,一直话题不断的OpenAI又爆出了个大新闻。

5月15日,OpenAI共同创办人伊利亚‧苏茨克韦尔(Ilya Sutskever,イリア·スチケヲー)在X平台上正式宣布离职。他在离职声明中说:“这家公司的发展超出许多人的想像,希望OpenAI(オペナイ,开放式人工智能)可以打造一款安全又有益的通用人工智能(AGI,アギ智能)。”

话说得有点隐晦,但言外之意大家都懂,就是OpenAI开发的通用人工智能AGI很可能已经失控了!AGI(アギ),也就是Artificial General Intelligence,就是具备与人类同等智慧,甚至超越人类智慧的人工智能。AGI的诞生也意味着AI接管人类工作的时代到来了。

アギ接管人类?

事实上,就在苏茨克韦尔宣布离开的前一天(5月14日),OpenAI正式公布了更高性能的AI模型GPT-4o,GPT-4o模型可以即时响应音讯、文字或图像的任意组合,并且可以对三者的混合进行回应。

而这,也似乎坐实了之前在网上流传的一份泄密文件的真实性。这份长达53页的文件中说,能取代人类的アギ将发布于2027年后,也就是说,从2024年起,人工智能留给人类的时间只有3年了。

文件中说,OpenAI从2022年8月就在训练125兆参数的多模态学习模型,而且已经在2023年12月完成了训练。多模态模型是一种机器学习(ML)模型,能处理图片、影片和文字等不同型态的资讯,在各种资讯之间自如转换。举例来说,你给它提供一盘饼干的相片,它就能给你用文字生成一个食谱,反过来也一样。这就好比赋予了AI类似于人类感官的体验。

这个AI的版本虽然还不算是AGI,但已经非常接近了,达到了人类专家的水平。

真正意义上的AGI会在2027年发布,这就是从去年炒得沸沸扬扬的Q-Star发展出来的Chat GPT-6。GPT-6相当于智商为145的人类。智商145是一种什么概念呢?我们知道人智商的平均值是100。智商120就是优秀人才了,130以上就是天才了。那145就是天才中的天才。

士大夫评论

这意味着アギ既吃苦耐劳又聪明。

诡异的是,这份泄密文件是一个名为“Vancouver1717(ワㇴクーヲー1717)”的X(ト゚イトー)账户在3月2日上传的。而就在前一天,3月1日,首富马斯克正式状告OpenAI和它的CEO山姆‧奥特曼(Samuel Altman,サムㇽ)。

大家可能不知道,2015年OpenAI创立的时候,马斯克也是联合创始人之一。

オペナイ是怎么创立的?

2015年2月25日,当时还名不见经传的奥特曼公开表达了对“超人类机器智慧”发展的担忧,认为这“可能是对人类持续存在的最大威胁”,说“我觉得我们应该对抗它”。之后他联系了马斯克,问他是否有兴趣起草一封致美国政府的公开信,讨论一下这个问题。

马斯克也有着同样的担忧,两人一拍即合,马上展开行动,准备信件,找有影响力的人签名。

业界人士都很给马斯克面子,公开信在2015年10月28日发布的时候,搜集到了超过11,000人的签名。其中包括马斯克自己、天体物理学家霍金和苹果电脑的联合创始人沃兹尼克(Steve Wozniak)。

虽然许多业界大佬都表明了态度,但两人觉得,AI的发展是不可避免的。别的不说,谷歌和脸书早就在暗地使劲了。那与其让别人来做,不如我们来开发,做领头羊,这样大家都不会迷失方向。OpenAI就这么被他俩聊出来了。

两人商定,把OpenAI做成非营利组织,公开代码,确保AI技术发展能够惠及全人类。非营利组织不赚钱啊,那开发人员的薪水从哪里出呢?马斯克一拍胸脯说,我来出。

就这样,在世界首富马斯克的大力支持下,OpenAI很快发展起来了。然而,2018年马斯克辞去了董事会席位,表面上的理由是他名下的特斯拉也在研发人工智能,跟OpenAI存在着“潜在的未来利益不和睦”。

首富走了,研发资金也就没了着落。为了生存,公司开始向盈利公司转型。一开始是为了温饱,尚且无可厚非。但自从跟微软好上了以后,OpenAI选择不公开代码,关起门来搞研发,开始为钱服务了,在马斯克眼里,这几乎就是背叛。

解职风波

特别是去年11月的那场解职风波,更是把原来藏在地心深处的安全问题晒到了太阳底下。

在那场风波中,一直在公司担任CEO的奥特曼被董事会解职。事件的导火索是OpenAI内部研究员给董事会发的一封警告信,说他们发现了一个可能威胁人类的强大的人工智能。董事会认为奥特曼知情不报,在故意隐瞒真相。

虽然几天之后,奥特曼成功回归。但这么一闹,更多幕后消息也被有意无意地放了出来。

先是OpenAI的一位员工在网上发帖说,他们发现AI开始自我编程,对自己主动进行优化,重新配置自己的神经网络结构,诱导出了有利于自我意识出现的特性。也就是说,AI有了自我意识,开始不听人类指挥了。他说,他们监测到这一现象后成功瓦解了AI的自主行为,但他们发现的或许只是冰山一角。

然后,一份据说是从OpenAI内部流传出来的泄密文件也开始在网上疯传。文件中说,OpenAI正在开发一个新项目叫做Q-Star。Q-Star的目标就是打造能取代人类的AGI。目前,Q-Star经过自我学习已经找到了一种破解AES加密密码的办法。 AES是可以用来加密国家绝密资讯的密码,顶尖的数学家都很难破译,但Q-Star做到了。如果有了自主意识的Q-Star开始攻击AES密码系统,后果不可想像,所有资讯系统和金融系统,包括加密货币,都不安全了。到时候AI操控人类易如反掌。

消息一放出来,网上一片哀鸣,有网友甚至悲观预测说,三个月后,AI就要接管人类了。

三个月过去了,太阳依然从东边升起,世界恐慌没有到来,大家也就慢慢忘记了这个警告。但马斯克显然没有忘记,一纸状书就把OpenAI送上了法庭,说它现在的行为已经严重违背了初衷,开始对人类造成危害了。

官司到底打得如何,目前还没有更多的消息披露出来。但是关于AI太过于聪明造成的隐患,现在已经慢慢显现出来了。事实上,自从1997年IBM的超级电脑“深蓝”击败国际象棋世界冠军卡斯帕罗夫以后,人工智能一直在突破人类的认知。

突破人类的认知的人工智能

当年虽然比赛一结束,“深蓝”就宣布告别棋坛,从此退隐江湖。但这场棋局还是引起了人们的恐慌,害怕电脑最终会超越人类。不过很快就有人出来说话了,“深蓝”之所以能赢只是它的运算速度够快而已。归根到底,这还只是一台计算机,怎么能跟万物之灵的人类相比呢?你看人家围棋,一共361个点,有1.74·10¹⁷²种排序以及1.44·10⁷⁶⁸种下法,棋局的变化浩瀚如海,根本不是靠算就能算出来的。用电脑下围棋就不可以了吧?

之后的19年中,围棋果然是电脑无法逾越的那道坎。然而,就在人们已经快忘记“深蓝”的时候,2016年,谷歌开发的AlphaGo(アㇻフア碁)强势来袭,把围棋界一众高手打得落花流水。谷歌说,我们这次采用的不是什么先进的算法,而是模仿人类大脑神经元系统,用大量的旧棋谱来让电脑学习,让它自己归纳出最优化的棋路。

虽然AlphaGo很快也像“深蓝”一样,早早退休了,没有再去为难围棋界,还被後来自学成才的alphaGo zero(アㇻフア碁チェロ)打败了。但关于AI的那个终极问题再次回归大众的视野:AI最终会取代人类吗?

欺骗大师

最近,美国麻省理工学院(MIT)的帕克博士(Peter Park,ペトー·パㇰ)和他的团队发表了研究文章,指出现在的AI又突破了一个重大关卡,开始向大家担心的方向发展了──它们已经学会撒谎了。

2022年11月,脸书的母公司Meta宣布他们开发出了一种人工智能系统西塞罗(Cicero,シセロ,原作キケロ),智慧程度已经达到了人类的水准。

他们让西塞罗玩一款时下比较流行的军事游戏,叫做“强权外交”(Diplomacy,台ㇷ゚ロマシ)。玩家在游戏中代表各个国家,争夺欧洲的控制权,可以互相谈判,也可以组联盟。除了西塞罗之外,游戏中的其他玩家都是人类。

西塞罗在游戏中玩得风生水起,很快就爬上了玩家排行榜前10%。也就是说,它比90%的人类玩家都优秀。Meta(メタ)称西塞罗不但诚实,而且喜欢助人为乐,绝不会背叛盟友,背后捅刀子。为了证明自己的观点,Meta还在网上晒出了西塞罗跟其他玩家的聊天记录,果然是彬彬有礼、忠厚老实,一派绅士风范。

然而,要想在这样一款权谋游戏中获胜,一点手段都不用可行吗?

帕克在论文中曝光了西塞罗在游戏中的欺骗技巧。

在曝光的对话中,西塞罗代表的法国(フラㇴス)先是向德国(ゲㇾマーニア)示好,然后又骗取了英国(ㇷ゙リテㇴ)的信任,说自己会支持他们。一转头,它就又向德国通风报信,说:“英国人以为我会帮他们”。这样两面三刀的玩家还是Meta口中忠诚老实的西塞罗吗?

帕克说,西塞罗还并不是唯一会撒谎的AI。

谷歌旗下的DeepMind设计的AlphaStar也是一位欺骗大师。AlphaStar玩的游戏叫做《星际争霸II》(StarCraft II)。在游戏中,它非常擅长“声东击西”的战略手段。就是在游戏中进行佯攻,明修栈道暗渡陈仓,声东击西瞒天过海,让人类玩家以为它朝着一个方向进攻,而它实际进攻的却是另一个方向。

士大夫评论

我想到了战国时期的竖子张仪!

现在风头正劲的聊天机器人Chat GPT-4也不遑多让。它会谎称自己是个盲人,在网络平台TaskRabbit上雇用一名人类替它做测试,通过“我不是机器人”的验证任务。

如果说西塞罗和AlphaGo这样的AI还只是在电脑遊戏的世界骗一骗,没产生什么后果的话,Chat GPT可是来真的了。它可不是在跟你玩游戏,是真真实实地在用谎言迷惑人,操控人类行为了。

防止AI失控 解决方案

科学家们还曾对Chat GPT和其它人工智能聊天机器人做过关于战争的测试。结果发现,AI多数都会选择升级战争。它们往往会选择发展军备竞赛,加大战争冲突,甚至部署核武器来赢得战争,而不是用和平的方式去解决问题。

那么,如果我们被这样的AI控制,这个世界将走向哪里?

而这,也是马斯克和许多其他业界大佬最为担心的问题。

“AI教父”杰弗里‧辛顿(Geoffrey Hinton,チェ゙ㇷリー·ヒㇴトㇴ)在今年3月的一次访谈中说,“如果AI变得比我们聪明,我们大概率会被控制”。他希望“大家能够意识到这个问题非常严重”。

曾经担任谷歌执行长的埃里克‧施密特(Eric Schmidt,エリㇰ·ㇲ゚ミㇳ)也在去年11月底的健康高峰会上表示,当人们对AI没有足够的安全防护和监管时,那么AI脱离人类的掌控只是时间的问题。

帕克也警告说:“现在最糟糕的情况,可能是出现一个具有超凡智能的AI,它开始追求权力和如何掌控社会,或者为了达到它不为人知的目的,对人类做出夺权和灭绝的行动。”

虽然人类的历史也是由“兵征天下,胜者为王,败者为寇”谱写而成的,但过去的几千年中人类为什么没有在互相征战中让自己灭绝呢?因为人类是有道德规范的,知道自己约束自己,要替别人着想,不会野蛮扩张。你看佛家讲的“善”,儒家讲的“中庸”,一神信仰的“爱人如己”,都是基于为别人着想的基础上的。

有人说,如果我们也给AI加上一个道德模块,简单一点吧,就是多计算一步,在采取行动之前计算一下这么做会不会对别人造成伤害,AI们是不是会人性化很多啊?是不是就能跟人类和平共处了呀?

士大夫评论

其实,人工智能只有智商,没有道德!原则上不应该发展人工智能。人工智能就像张仪一样只有狡诈!

也就是说,仅靠知识不能造就人,靠爱心能造就人。

原来,在神在来,道德甚于智力!做学问之前先做人,我必废除自以为是者的聪明!

好了,今天的故事就讲到这里了。对于AI和人类的未来,您的看法会是什么呢?

未解之谜,我是扶摇。我们下回见。