关于今年的明星“机器人”沃森,大家都知道其硬件平台由90台Power 750服务器组成,是一个拥有2880个POWER7核心,具备80万亿次计算能力的集群系统。然而,为什么一定要选择Power服务器单此重任?沃森这种平台架构有什么样的独特价值?为此,IBM系统与科技部Power服务器产品经理梁栋接受了《网络世界》的独家采访。
IBM系统与科技部Power服务器产品经理梁栋
单就计算能力而言,用x86服务器搭建一个具有80万亿次计算能力的集群系统在今天绝非难事,那么,是不是意味着沃森的硬件平台完全可以选择x86服务器来构建?对此,梁栋告诉记者,IBM并非没有尝试过。当沃森的主要算法基本成型后,IBM其实在x86服务器平台上试运行过,但发现每计算一个问题要耗费近两个小时!这与《危险游戏》的节目规则相差甚远《危险游戏》要求沃森必须能实现三秒作答。好在那时,POWER7系列服务器横空出世,从硬件上保证了沃森不仅有一个智慧,而且足够快速的大脑。
实际上,沃森每回答一个问题代表着执行一次分析任务,而每一次分析任务有很多分支,也就是说有很多并发性的操作要完成,但同时每一个分支要探究下去,也需要一个线程跑的很快,这就需要系统有纵向扩展的能力。因此,“沃森对硬件平台的要求不仅限于强大的计算能力,它必须是一个具有强大的横向和纵向扩展能力的系统。”梁栋说。
所谓纵向扩展能力,指的是单个服务器在计算能力、内存、I/O方面的扩展能力,纵向扩展能力越强,单个计算节点的性能就越高。但这并非一件容易的事,以扩展计算能力为例:就象车多了会造成道路拥堵一样,当往一个系统里添加很多处理器时,要解决处理器之间互相协调的问题,否则会影响整个系统的运行,而POWER7处理器可以做到同一时间有两万次的同步数据沟通,因此可以在单个处理器中同步执行成千上万个分析任务。而且,由于使用了IBM所独有的SMT4(智能并发多线程)技术,POWER7处理器可以智能地根据应用需求在单线程,双线程和4线程之间动态切换自身的线程数量,无疑,这是业务复杂的沃森所特别需要的。
POWER7处理器还是业界首个使用片内eDRAM三级缓存的处理器,较片外缓存延迟只有1/6,带宽则提升了两倍。我们知道,处理器执行计算需要依次在L1、L2、L3缓存中查询数据,查不着了才去“更远”的内存中查询,还是没有才会去“最慢”的硬盘。因此,缓存越大使得查询“中靶率”越高。
此外,沃森这种实施分析系统尤其“耗内存”,而POWER7处理器的另一项自主创新技术AME(Active Memory Expansion)就派上了用场。传统上,CPU就是CPU,内存就是内存,CPU不够就加CPU,内存不够加内存,这两者是不能转换的。而AME技术能够实现CPU与内存的相互转换,例如,通过消耗3%的CPU,来扩出20%的内存。实际上,它是一种内存压缩的技术,对于内存密集型应用特别实用。
由于单个Power服务器的纵向扩展能力非常强大,这就导致其横向扩展能力也很强大。以沃森为例,仅仅用90台Power 750服务器就可提供80万亿次的计算能力,从而大幅降低对机房空间、能源、冷却等方面的要求。
如果抛开底层技术细节,从系统整体的角度看沃森,梁栋表示:“我们认为,沃森这种具有横向和纵向扩展能力,能随工作负载自动优化的硬件平台,其实代表了未来数据中心基础架构的发展方向。”