2016年3月15日,围棋“人机大战”在韩国首尔进行最后一盘的对弈,韩国棋手李世石九段执黑中盘280手告负,至此他的总比分1比4不敌“阿尔法围棋”,在本次“人机大战”中宣告失败。
阿尔法围棋的主要工作原理是“深度学习”,其核心是“策略网络”和“价值网络”两种不同的深度神经网络。其中,“价值网络”主要任务是一边推算一边判断局面,一旦局面处于明显劣势时,就直接抛弃一些路线;而“策略网络”则是负责减少搜索的宽度,判断某些棋步该不该走,防止随便送子给别人吃。
这两个工具通过相互合作做出一些类似于人们思考的行为,“挑选”出那些比较有前途的棋步,抛弃明显的差棋,从而将计算量控制在计算机可以完成的范围里,以期取得最终的胜利。
事实上阿尔法围棋的强大,除了其本身采用了最先进的深度学习技术,利用深度神经网络对棋盘的局势进行了预测之外,还在于研发团队在前期搜集了大量围棋名人对弈的历史数据,使得这一人工智能机器可以迅速汲取众多围棋高手的棋局,充分利用人类棋手的即有经验。
这次“阿尔法围棋”的胜利,代表着人工智能在自主学习、自我完善等方面有了更进一步的发展。随着人工智能的应用,必将会在推动计算机技术的不断进步,人类生活方式的持续改善等方面产生更加深远的影响,为人类社会做出巨大的贡献。
本作品为“科普中国-科技创新里程碑”原创 转载时务请注明出处