为了克服在短时间内处理大容量数据的障碍,大型数据用户设计了两种不同的方法来解决这种问题。首先是部署大规模实时数据库,比如BigTable,OpenDremel,MongoDB或者Cassandra。这些数据库都共享非关联的特性:他们不依赖标准化查询语言(因此他们又被称为"NoSQL"),他们也不能满足关联数据库中所有数据都必须满足的ACID需求。
这就意味着网络和周围基础架构关注的中心将从优化存储向优化搜索转移。也必须这么做,因为存储在典型的大型数据环境中已经被大大的简化了,所有的重点是将数据分类来满足有用的数据集,然后用于深层结论的分析。
但不幸的是,这种基础方法只能应用于普通的大型数据网络。在占地20000平方英尺的数据中心里,用来匹配这些数据解决方案的方法是多种多样的。每种方法都有其必须被解决的固有问题。举例来说,Hadoop使用代表单点故障大型数据管理器的NameNode体系结构来应对非常敏感的数据。如果NameNode设备对网络不起作用了,整个Hadoop系统也就瘫痪了,这就给网络管理员来保障特殊服务器的正常运行造成了很大的压力。
当然还有非网络的解决方案。举例来说,来自DataStax公司的产品Brisk就是要在ApacheCassandra的实时性能与Hadoop的分析能力之间搭建一座桥梁。Brisk将Hadoop的文件系统与Cassandra合并在一起,这就意味着不再会出现单点故障的问题。