拉特群岛发生5.1级地震 震源深度130千米

记者 郑菁菁 

其中Policy Network用来在Selection和Expansion阶段,衡量为每一个子节点打分,找出最有希望、最最需要预先展开的那个子节点。Policy Network网络的训练,是通过观察其他人类之间对弈的棋局来学习的,主要学习的目标是:“给定一个棋局,我接下来的一步应该怎么走”?(这是一个静态的过程,不用继续深入搜索更深层的子节点)为此,AlphaGo先读取KGS(一个网络围棋对战平台)上面近16万局共3000多万步的人类走法,通过Supervised Learning的方法,学习出来一个简单的SL Policy Network(同时还顺便训练出来Simulation阶段用来一路算到决胜局使用的Rollout Policy)。然后基于这个在人类棋局上学习出来的SL Policy Network, 使用强化学习(Reinforcement Learning)的方法通过自己跟自己对弈,来进一步优化Policy Network。这么做的原因,一个可能的原因是通过人类棋局学出来的SL Policy Network,受到了人类自身能力的局限性的影响(KGS棋局中包含了很多非专业棋手,实力层次不齐),学不出特别好的策略来。那不如在此基础上,自己跟自己打,在此过程中不断学习不断优化自己的策略。这就体现了计算机的优势,只要不断电,计算机可以不分昼夜不断自己跟自己下棋来磨练棋艺。RL Policy Network初始参数就是SL Policy Network的参数,但青出于蓝而胜于蓝,实验指出RL跟SL策略对弈,RL胜率超过80%。RL Policy Network也是最终应用在实际对战过程中MCTS Selection阶段的策略。李宇春谈网络暴力

方直科技表示,非公开发行募集资金投资项目是公司实施“科技服务于教育”发展战略的重要步骤,是公司现有主营业务的巩固、延伸和丰富,本投资项目的建设,将有助于进一步提升公司综合竞争实力,提高公司行业地位和盈利能力。ncaa

不过中银国际证券在徐建一被调查后发布研报称,徐建一被调查对上市公司正常经营和一汽集团整体上市影响或有限,并认为许宪平有望成为一汽集团新掌门,推动集团整体上市。黄晓明主持金鸡奖

此次举世瞩目的人机对弈大战,对于人工智能的表现,此前并不被世人看好。创新工场董事长李开复、国家围棋队总教练俞斌、中国围棋新一代代表人物柯洁等人均认为AlphaGo会输给李世乭。王小川却不仅在知乎发文断言AlphaGo将5:0完胜李世石,更在微信朋友圈两次公开表示“AlphaGo在两个月后,将会完胜世界冠军李世乭”。小丑票房破10亿

TMT行业自然也有它的投资规律,“未来以产业链投资为王道”是他一贯的观点。从去年到现在,整个新能源汽车浪潮,其实股价表现最好的就是以天齐锂业、天赐材料为核心的材料产业。赵晓光在专访中提到目前有80%的企业是被高估的,现在投资者特别要关注公司的一季度业绩,一季度业绩好的公司,哪怕是50倍的估值,也有比较好的投资前景,但如果一季度没有看到商业模式的兑现,那它的估值要不断地下移。当问到创新推动的下一个周期时,他认为在智能手机之后的下一个浪潮是:“大视频革命”,机会有三:第一就是视频行业,以虚拟现实为代表的视频行业;第二就是以大数据、人工智能、SAS为代表的数据处理行业;第三个就是以传感器为代表的,能够不断地挖掘新的数据的行业。人行道仅两脚宽

扫码分享到手机

  • 联通