现在的数据不再整齐划一地按行和列排列,而是大规模地以非结构化形式堆放在数据库中。企业创建、收集、访问、分享和分析这些不同类型的数据以提高经营业绩。曾经用于进行数据分析的商业智能已经不再适用于目前的异构数据类型,包括电子邮件、字处理文档、协作网站和机器生成的数据等。
与此同时,繁琐和昂贵的专有企业搜索产品不能处理现有的结构化数据存储,并且不能以具有成本效益的方式来测量数据的规模和速度。现在我们的目的是找到一种能够对所有数据存储进行搜索、发现和分析(SDA)的解决方案,很多公司试图寻求开源方面的搜索功能应用程序,例如Apache Solr,以及大数据解决方案,例如Apache Hadoop,能够为他们提供及时和具有成本效益的对不断增长的数据总体的访问能力和洞察力。
数据现状
企业比以往任何时候都更加需要数据分析,但是数据的性质已经发生了变化。在不久前,企业需要分析的数据主要位于结构化数据库和电子表格中。但是,在过去几年中,一切都改变了。我们现在越来越多的(有时候是完全)依赖于数字形式的沟通。除了电子文件外,我们还有电子邮件、短信、博客及其评论、互动式网站(包括wikis和其他协作网站以及资料库等)。
再有就是机器生成的数据。你的汽车、手机、电度表都在产生数据,很快你的冰箱和咖啡机也会开始产生数据。事实上,人类和数字数据间的每个互动已经成熟到可以被捕捉和分析,这些信息并不整齐,但是这些信息是极其宝贵的。目前的企业搜索解决方案能够提供对这种非结构化数据的洞察力,但是它们并不能很好的进行测量,并且它们并不提供对结构化数据和非结构化数据必须的分析。
执行和测量分析以及利用ad-hoc访问能力的需要颇为引人注目。企业想要保持灵活性和竞争力,员工必须能够执行更快和更强大的搜索以提供对数据更好的洞察力,使他们能够发现之前隐藏的或者无法访问的数据中的连接。
很多企业对于用户和这片数据海洋(不只是原始数据)之间的相互作用变得越来越感兴趣,因为他们相信对这些互动作用的分析能够帮助他们更好地对客户做出响应,更快地认识业务和客户趋势,并作出更好的业务决策。这通常也是在这个时候“大数据”一词被大多数企业意识到。
在运营方面,企业需要确保他们能够成功地驾驭日益复杂的法律、法规和合规环境。这需要企业识别、存储、搜索和生成相关文件的能力。如果没有能够经济有效地分析内容的搜索和发现工具,预算将不堪重负,业务也将逐渐缺乏对员工和客户对企业的意义的真正性质失去洞察力。
实现SDA
那么,我们应该如何对结构化和非结构化数据存储进行及时的访问数据和执行分析呢?我们应该如何提问,以帮助我们找到所需要的具体信息,并从存在的隐藏的关系中获得知识呢?
这需要从以搜索为基础的应用程序和(通过类似商业智能的报告的)洞察力开始,基本上就是大数据和那些有疑问的实际用户发起的点到点实时数据访问的结合。关键字搜索加上发现功能(例如聚类、建议和分类)能够帮助用户更快地找到具体内容。
在试过可行的搜索技术中,首当其冲的就是对分析能力的需求,以满足两个领域。首先是客户为导向的结合了原始内容以及所有用户交互的学习方法(客户就是上帝,对吧?)。这种良性循环也是目前领先的面向消费者的网站(例如亚马逊、谷歌和Facebook)成功运作的原因,并且正在迅速成为一种必然,而不是那些希望在市场获得竞争力的企业值得拥有的能力。
想象一家每天面对2000万页面浏览量的大型电子商务公司,虽然其核心产品的搜索索引只有500万条目,当你将这500万条目与页面浏览量相乘时,你将面对一个非常惊人的大数据挑战。但是因为其现有技术的限制,该公司只能保持三个月数据的有效性。该公司可以通过访问其数据归档来对更长时间进行报告,但是对于实时搜索和分析,该公司只能依赖于过去的三个月中的数据。
为了让其更多的较旧的数据更容易访问和使用,该公司部署了一个大型Hadoop集群,位于其搜索引擎旁边。随后,他们使用Mahout和Apache Pig等工具来快速和具有成本效益地分析几个月的数据。现在,该公司不仅能够分析谁点击了什么页面,而且还能够分析点击页面的相关性等。而且他们还具有强大的关键字搜索以及发现和导航能力(用于向上销售和交叉销售)。这些功能结合在一起为该公司提供了更深入的洞察力,并且他们还能够将分析信息反馈回系统以进行不断改善。
将这些分析信息反馈回业务同样能够让企业通过利用关于员工是如何利用内容的信息来改善运营方式。企业现在能够确定特定主题的专家,看看谁正在使用何种类型的内容来完成工作等。同样地,这里也建立了一个良性循环,使用系统来提高系统的整体有效性,企业能够更好地进行组织,因为他们不仅理解了他们的数据(他们从传统商业智能和搜索中获取的数据)的价值,而且知道了其员工的价值。
开源的角色
现在的商业智能和企业搜索的专有应用程序都没有“坐以待毙”。商业智能增加了更多类似搜索的功能,并且搜索肯定取代了很多商业智能功能。但是在几年前,专有解决方案似乎是最安全的方法,而开源解决方案似乎更具风险。而现在,很多公司开始看到,因为开源项目独立于企业财务决策,他们对于保护其长期投资更具后劲。此外,很多企业发现他们更容易获得、培训和留住开源人才,因为,他们可以深入代码。
在商业硬件上运行的开源应用程序也是实现真正可扩展解决方案的最佳途径之一。扩展专有解决方案总是会面对财务阻碍,并且随着越来越多的数据需要汇入这些系统,这个问题变得更大了。开源进行扩展更具成本效益,因为你不需要相关的授权费用。当然,这并不是免费的午餐,但是开源每年都会降低成本,即时在某些情况下,前期成本似乎更高。
例如,考虑一下,一家金融服务公司面临着扩展的严峻挑战:在交易方面有巨大的交易数量,同时需要保存、访问和搜索大规模非结构化数据(客户端电子邮件、M&A数据等)以满足监管目的。很多企业可能坐在数据的金矿中而他们却全然不知,因为他们根本就不具备回答各种问题来发现这种信息的能力。相反的,对他们而言,这些数据就像是一个黑洞:信息进入,但从来没有出来过。
通过Hadoop集群来聚合信息,通过Lucene/Solr来提出正确的问题,突然间,这些公司能够产生大量聚合信息以加强贸易和市场分析,并且通过粒度搜索和发现来实现更好的业务分析和合规以及电子发现。开源解决方案使企业负担得起这种系统,并且能从长远角度来进行扩展。
深入而广泛的灵活性
通过主要的“大数据”工具(包括用于搜索的Lucene/Solr、用于聚类大规模数据的Hadoop、Hive和HBase以及用于大规模分析和学习的Apache Mahout、Apache Pig等工具),具有搜索功能的开源应用程序能够帮助企业对信息获得更深入的的洞察力,这主要通过为企业开发人员和他们服务的用户提供具有检索性的信息和可访问的机器学习算法。这些工具不仅能够允许我们都习惯使用的传统关键字搜索,还为用户提供了提出深刻和更困难问题的能力。
通过消除耗时又限制利益的设置数据刚性结构的过程,可以让用户提出他们需要提出的问题,基于目前的业务现状,而不是基于业务分析师或者数据库设计者几个月或者几年前的意见。这些应用程序还能够消除了数月的延误时间,以及到IT来重组数据库或者创建新的查询的需要。此外,由于其扩展能力,这些应用程序还能够保留这些信息以用于未来使用,当然在未来,我们毫无疑问会有不同的想法和处理技术,从而延续了这些系统的价值。
开源SDA解决方案提供了具有成本效益的对所有类型数据的搜索和分析,开源解决方案的崛起是不可避免的。这是一个生存问题,如果没有开源解决方案,我们将被淹没在数据海洋中。这也是一个成本问题,我们发现如果没有开源解决方案,我们将很难扩展搜索和分析。这还是一个竞争力的问题,如果没有开源解决方案,企业将无法与客户进行互动,或者有效地发挥员工的价值。因此,你需要回答的问题是,SDA是否符合你的信息战略?