admin 发表于 2009-8-5 09:45:00

商务智能 归纳逻辑与统计学的关联

0 引 言

  商务智能(Business Intelligence)是一种建设方案,旨在利用各种信息技术来提升食业的商业竞争力。比尔·盖茨认为,商务智能是指通过收集、整理和分析企业的数据,从中获取企业发展必须的信息;之后将获取的信息用于商业决策过程中,即首先是对数据的收集、整理和整合,其次是将数据转换为信息,然后转化为智能,最后把信息用于商业决策过程。

  人们之所以关注商务智能,是因为它对于提高企业的管理决策水平、增强企业的竞争能力具有十分重要的意义。尤其在我国,商务智能和相关的数据仓库技术在各行各业的大规模实施工作尚处于起步阶段,有望在近期迅速发展。作为一个新兴的领域,商务智能在过去的十多年间受到了学术界和产业界越来越多的关注。围绕商务智能理论、方法、技术的研究和应用取得了瞩目的成就。

  归纳逻辑是一门传统的哲学分支。国内学者早已开始关注如何把归纳的基础理论研究与科学技术应用结合起来。1984年,在大连召开了全国归纳与概率逻辑讨论会;1987年,有关学者建议设立“归纳逻辑与人工智能”的社科基金项目。人们已经认识到,统计推断是归纳逻辑的一种形态,因此,完全可以让归纳逻辑学走出象牙之塔,在人类广泛的社会活动中找到实际应用。

  本文的研究将表明,在电子商务、统计学和归纳逻辑之间存在着密切的联系。事实上,归纳逻辑通过统计学为中介而被应用于商务智能。因此,深入探讨这三个截然不同的学科之间的关系,不仅将有助于商务智能及其应用开发的研究,从而推动我国经济和社会的发展,而且也会给统计学和归纳逻辑学理论的研究带来深远的影响。

  2 商务智能技术

  商务智能技术,主要包含有数据仓库、数据挖掘和联机分析等。

  数据仓库的概念首次出现是在号称“数据仓库之父”William H.Inmon的《建立数据仓库》一书中。“数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合”,你可以将它看作是一个数据中心,也可以把数据仓库看作一个作为决策支持系统和联机分析应用数据源的结构化数据环境。它的最大优点在于能把企业网络中不同信息岛上的商业数据集中到一起,存储在一个单一的集成的数据库中,并提供各种手段对数据进行统计、分析,同时还允许企业的各个部门共享数据,为企业更快,更好地做出商业决策提供准确,完整的信息,提升企业的商业竞争力。

  企业建设数据仓库的最终目的,是让企业的经营管理者能够方便使用数据仓库这一集成的决策支持环境,以获取有价值的信息,帮助经营管理者对不断变化的环境做出迅捷、准确的判断和找出相应的对策。因此,界面友好,功能强大的为用户服务的前端工具应被有效地集成到这一新的数据分析环境中。数据仓库系统是以数据仓库为核心,通过数据提取工具、数据转换工具、查询工具、报表工具、分析工具、数据挖掘工具等满足用户对信息的各种需求。数据仓库的建设不一定马上就能得到很大的效果,有时长达7~10年才见效,不能急功近利。建库的初始阶段应该从急需的业务主题人手,逐步扩大信息的范围,这样才能准确把握需求,减少投资和风险,缩短阶段性的开发周期。

  数据挖掘(Data Mining)是从大量的数据中,提取隐含的、潜在的、以前未知的有用信息或有价值的知识、模型或规则的过程。数据挖掘是一种决策支持过程。数据挖掘主要基于人工智能、机器学习、统计学、数据库等技术。数据挖掘通过分析大量的原始数据,作出归纳性的推理,挖掘出潜在的模式并预测客户的行为,帮助企业的决策者调整市场策略。对于企业而言,数据挖掘有助于发现业务发展的趋势,揭示已知的事实,预测未知的结果,并帮助企业分析出完成任务所需的关键因素,以达到减少风险,增加收入、降低成本,使企业处于更有利的竞争位置的目的。从功能和目标的角度来说,数据挖掘是通过自动或半自动化的工具对大量的数据进行探索和分析的过程,其目的是发现其中有意义的模式和规律。从方法和工具的角度来说,数据挖掘是统计分析、机器学习和数据库技术共同发展的结晶。

  联机分析处理(OLAP)是基于业务数据的决策分析,是一类软件技术。它使分析人员、经理、管理人员通过对信息的多种可能的观察角度,进行快速、一致和交互性的存取以获得对信息的深入理解。

  联机分析处理的第一个特征是能提供数据的多维概念视图。数据的多维(维是人们观察数据的特定角度)视图使最终用户能多角度、多侧面、多层次地考察数据库中的数据,从而深入地理解包含在数据中的信息及其内涵。联机分析处理的第二个特征是其分析功能。它可以提供给用户强大的统计、分析(包括时间序列分析、成本分配、货币兑换、多维结构的随机变化等)、报表处理功能。此外,OLAP系统还具有回答“假设-分析”(what-if)问题的功能及进行趋势预测的能力。OLAP的基本分析操作有切片、切块、下钻、上翻和旋转。此外它还能快速响应用户的分析请求,具有共享特性等。

  OLAP和数据挖掘是相辅相成的,但它们的侧重点不同:OLAP侧重于与用户的交互、快速的响应速度及提供数据的多维视图,而数据挖掘则注藿自动发现隐藏在数据中的模式和有用信息;OLAP的分析结果可以给数据挖掘提供分析信息作为挖掘的依据,数据挖掘则可以拓展OLAP分析的深度,发现更为复杂、细致的信息。

  3 商务智能在客户关系管理中的应用

  3.1 什么是客户关系管理

  客户关系管理(CRM)是企业应对挑战的对策。企业面对这一挑战的关键,在于利用信息技术使企业逐步走向以客户为中心的管理上来,也就是说,企业在适当的时候、以适中的价格、通过合适的渠道提供和促销客户所需要的产品是CRM的最理想和最高的境界。虽在现实中难以一步实现,但它将成为企业奋斗的目标和方向,使企业通过努力逐步提高效率并逐步走向以客户为中心的关系型企业。

  对企业来说,客户关系管理是一个古老而充满新意的话题。企业作为一个古老的话题,实际上自人类有商务活动以来,客户关系管理就一直是企业商务活动的一个核心问题,也是企业商务活动成功与否的关键之一。作为充满新意的话题,客户关系管理也是现代企业商务活动的巨大信息资源,企业几乎所有信息资源都来自客户关系管理:同时,面对经济全球化趋势,客户关系管理已经成为企业信息技术和管理技术的核心。实际上客户关系管理并不简单地是一个客户资料库的管理,而是企业发展的基本支柱之一。

  在传统商务活动模式下,“以产品为中心”一直是企业的一个重要的经营指导思想。企业的定位、企业的市场竞争、企业的技术开发和技术储备、企业的管理等,都是围绕产品进行的。客户关系管理直接向企业管理、技术和销售人员提供有关市场、产品、技术的信息和新知识,再由管理人员和销售人员利用这些信息和知识进行相应的商务活动和技术研究活动。随着信息技术迅速发展,“以客户为中心”成了现代企业的生命线。客户关系管理使企业全面观察客户,全面利用所有客户信息,从而成为推动企业腾飞的基本动力。客户关系管理对现代商务活动来说,更具有重要的意义。

  在客户关系管理理论中有一个经典的2/8原则,即企业80%利润来自20%客户。那么,这20%的客户都有什么特征呢?调查发现,大部分企业每年有200%~50%的客户是变动的。企业一方面在挖空心思争取新客户,另一面却不断地失去老客户。有没有办法找出企业失去的是哪一类型的客户,得到的又是哪种类型的客户?在竞争激烈的商业时代,资源占有成为决定企业生死成败的关键。在客户关系方面,企业总希望与客户建立最稳固的关系,并且有效率地把这种关系转化为利润,即留住老顾客、发展新顾客并锁定利润率最高的客户。这也就是CRM要重点研究的问题。

  为了实现这个目标,企业就需要尽可能地了解客户的行为,但这种了解不可能通过与客户直接接触获得,因为企业不可能挨个与客户交谈,而且他们所需要的信息单个客户往往无法提供。企业所能做的,就是尽可能搜集顾客的信息,借助各种分析方法,透过无序的、表层的信息,挖出内在的知识和规律,这就是当前最流行的数据挖掘技术所研究的。在挖出大量信息之后,企业就可以根据这些规律或这些信息设计数学模型,对未来作出预测,为企业的综合经营决策、市场策划提供依据。尽管还不能说没有数据挖掘的客户关系管理系统不是客户关系管理,但是只有采用了数据挖掘的客户关系管理,才是符合现代企业要求的高效的客户关系管理系统。数据挖掘决定了客户关系管理是否能满足现代企业的需要。美国麻省理工学院《科技评论(Technology Review)》杂志所提出的将在未来5年对人类产生重大影响的十大新兴技术,其中第3项就是“数据挖掘”。

  一个企业要成为客户关系管理型企业,商务智能是它重要的工具和方法。一家企业要想成为客户关系管理型的企业,关键在于以下四个方面:第一,关注每个客户的需求;第二,跟踪与客户的互动,并把这些信息应用于决策过程;第三,记录下客户的要求及商业行为;第四,企业在市场运作时围绕的中心是客户而不是产品。那么怎样才能了解客户的需求?商务智能就是帮助企业达到这一目的的理想工具和最佳方法。

  企业效益的获得首先是要回答或解决企业最为关心的一些问题。例如:在产品分析方面,商务智能回答诸如哪些产品是最有效益的,哪些产品是最没有效益的,哪些产品目前效益尚不够好但具有发展潜力;在销售方面,商务智能所能解决的难题是诸如哪些产品有销售增长趋势,哪些客户及客户组购买这些产品,不同地域、不同行业的销售趋势是什么;在客户分析方面,商务智能则能为我们回答哪些客户流失的可能性较大,有无必要挽留以及挽留的最佳方法是什么,最有价值客户的共同特点是什么,最没有价值客户的共同特点是什么,最有价值的客户分布在什么地方等。也就是说,商务智能可利用数据中的信息来回答企业的商业问题并为企业决策提供科学依据。

  3.2 案例

  下面让我们考察商务智能如何帮助一位在银行信用卡部门工作的市场分析员,去确定市场促销的目标及其前景。这位市场分析员知道争取新的顾客的费用远远大于稳定现有顾客的成本,因此,他开始确定此次促销的对象是一些理想的客户群体。

  这位销售分析员决定从这样一个简单的问题“常客们是否是银行的受益顾客?”开始分析。为了方便分析,我们先明确几个概念:所谓常客是指每月最少使用一次信用卡的顾客;所谓受益顾客是指为银行带来最好回报的顾客,特别是那些有透支行为、但通常在30~60天之内就支付透支额的顾客。这些顾客能为银行带来最大的好处,因为他们既带来了利息收入又带来了滞纳金。超过30~60天支付或立即支付账单的顾客都不会为银行带来最大利益,因为前者让银行不得不付出努力去催促并收取他们过期的账单费用;后者既不带来高额的利息收入,也不会提供任何惩罚金。这里有必要再一次重申,这样的商务问题看似非常简单,但要销售分析员给出答案,却需要复杂的商务智能基础设施。

  参照某个特定的标准,我们先考察常客和受益顾客的组成,并且制作一个各组成员的列表。这并不是件难事,用商务智能的专业说法,就是在做特别查询的时候设定一个条件或者参数(在上述情况下可以指顾客)就可以了。

  
为了回答上文所提及的问题,销售分析员建立了一个能够显示那些既是常客、又是受益顾客的用户清单的报告。只要有恰当的分析工具,这项考察和对比不同的两组或更多组的成员特征的工作是非常容易做到的。得到的结果实际上就是在集合分析(Set-Based Analysis)里被人们称之为交集的部分。集合指的是被分析的成员的列表或组合一在这里指的是前文提到的常客和受益顾客的组合。具体到市场领域,集合指的是市场的各个组成部分。

  销售分析员观察到常客和受益者之间的重叠比较少,这表明银行所喜欢的受益顾客,一般来讲并不是那些使用信用卡的常客。对于销售分析员来说,针对受益顾客进行促销,努力提高他们的信用卡使用的频率,使他们成为常客不失为一个好的建议。促销的意义就是在一个给定的时间里,使常客成倍地增加,且进行大量的消费。

  在理论上,销售分析员为了促销,可以把受益顾客的整体列表作为目标列表进行处理。问题是这样的列表人数非常庞大,超过72000位顾客(见图2第1列中延迟支付超过30天的顾客)。销售分析员的促销总预算只有45000美元,如果他想送给他的目标顾客每人一个价值1.25美元的促销袋,也只允许达到36000位顾客。于是他有了第二个问题——促销应针对哪一部分受益顾客?换句话说,就是你想使哪些受益顾客将成为常客?

  为了回答这个问题,销售分析员决定进一步查看顾客列表以确定受益顾客具有何种特征。做这项工作不需要人工一个一个地在顾客数据库中查找,使用工具可以很快地为他提供顾客特征的清晰描述,同时这些工具也能够确认从其余的顾客中辨别出受益顾客的因子。

  销售分析的具体细节:独身、延迟支付的顾客为65142人;第3列上面方块的数字表明,独身、租房、延迟支付的顾客为42441人;第4列下面方块的数字表明,独身、租房、延迟支付超过30天的、月可支配收入大于938元的顾客为35532人。这里所应用的技术,也就是图案中所包含的数字被自动确定的技术,我们称之为“数据挖掘”(Data Mining)。这个字眼往往让人们联想起关于“黑匣子”的一些内容。“黑匣子”主要应用于人们在不可见、不可估测的情况下,通过一些复杂的算法,给出一些比较可信的数据。当然这些数据本身不能解释“为什么”,可是数据挖掘还包括特别有用的“描述”技术,这种描述技术能够提高分析者对数据的理解程度。我们在这里所采用的就是数据挖掘中的描述部分。图2简单而清晰地描述了公司顾客的特性,同时确认了受益顾客的最重要因素。用这种方法使顾客的属性具体化,分析员就能够更好地理解其顾客基础。销售分析员从图2中可以看出,那些租房居住、独身的、延迟支付超过30天的、并且拥有较多的可自由支配的收入顾客,他们属于受益顾客类型。为了使这些受益顾客提升为银行的常客,分析员决定将促销的目标确定为35532个受益顾客。这些受益顾客具有独身、租房居住、延迟支付超过30天的、具有较高的可自由支配的收入等特征。销售分析员在精确分析的基础上,决定把促销袋只发给35532个受益顾客中的35000人,而不是发给由722051个受益顾客中随机产生的35000受益顾客。这样的促销,既节约了成本,又在促销广告当中取得了可观的回报,促销战役以巨大的成功宣告结束。与此相对照的是,以往的促销,通常把目标确定在722051个受益顾客的随机列表上,甚至更糟糕的是把目标定在几十万个、无论其是不是受益顾客的随机列表上。显然,那种做法注定不会得到好的回报,也不能为银行带来更高的利润。

  4 商务智能应用中的统计学和归纳推理的基础

  从以上案例中我们可以看到,为求得良好的促销结果,我们用到了统计描述和统计推断、关联分析,用到了数据挖掘、集合分析、聚类分析、多维分析、特别咨询,也用到了归纳逻辑等。

  统计学(Statistics)是数据收集和描述数学的一个分支,也是根据从样本里所获得的信息来推断关于总体的性质的一门学科。在统计中总是涉及到数据,并常常有足够多的数据使普通人无法明了其内在的含义。对于一般人而言,要处理数以万亿比特计的数据,并要了解数据的意义、从数据中归纳出模式,其难度是十分明显的。因此,必须借助数学模型,对数据进行归纳、推断和预测。所谓数学模型,就是根据社会现象的内在、外在因素变量及其相互关系进行抽象和假设,构造一个或一组反映数量关系的数学方程式。

  统计推断主要是利用过去的资料推测未来,利用局部资料推断总体等。由于各方面条件的约束,对每项统计调查,不可能也没有必要全面、系统地认识总体的全部单位,而只需要抽取少量单位的信息资料,对总体状况进行推断或估计。统计研究中的抽样推断方法、相关与回归分析方法、统计推算与预测方法、统计假设检验方法等都是模型推断方法的具体表现形式。抽样(Sampling)是从一个给定的总体抽取有限个个体作为该总体的代表的方法。在生物分析、质量控制、商务调查等领域中,通常不可能对每一个个体都进行调查,抽样调查就成了主要的调查方法。统计学中主要有两种类型的统计推断方法:第一种是估计,第二种是假设检验。

  统计学的数学理论称为数理统计学,它是建立在概率论以及对总体和样本概念的理想化的基础之上的,而它作为建立在概率论理论基础之上的一个数学分支,却是相对地比较近的事。数理统计学早期的奠基者是英国的统计学家皮尔逊(1857—1936)和费希耳(1890—1962)。

  统计学和数据挖掘的联系在于它们都致力于模式发现和预测:统计分析是数据挖掘的前提和基础,数据挖掘是统计分析的扩展和延伸;统计是从数据出发,最重要的是抽取样本,然后再用统计方法,从中推断出母体的性状;挖掘是挖掘样本,从海量数据(数据仓库)中按挖掘理论挖掘出有价值的数据,实际上就是挖好样本,然后再用统计方法,推断出母体的性状。上例用到了关联分析。数据挖掘因为利用了计算机,故具有分析海量数据的能力。尽管统计与数据挖掘都致力于模式发现和预测,但侧重点却不同:统计很少关注实时分析,然而数据挖掘问题却常常需要实时分析,并且还可以分析保存在网络不同计算机上的多维数据。统计是数据挖掘(挖样本)的理论指导;数据挖掘是统计的工具,是实现对海量数据作统计分析的工具。

  数据挖掘技术从传统意义上说是指数据的统计分析技术。在数据挖掘中所采用的传统数据分析技术主要包含线性分析和非线性分析、回归分析、逻辑回归分析、单变量分析、多变量分析、时间序列分析、最近邻算法和聚类分析等。传统的数据挖掘技术——统计分析在数据挖掘应用中使用的时间长,比较成熟,已成为一般商业分析人员喜欢采用的技术。尽管数据挖掘还采用了大量其他领域的思想、方法和工具,而且数据挖掘所关注的领域与统计学所关注的领域有所不同,但不容否认的是:目前所使用的许多数据挖掘思想和方法与统计学密切相关。

  直到最近,统计分析工具主要还是为技术和工程应用中的统计员以及技术上的专家服务,但是,许多企业已经开始应用、开发统计分析工具进行管理决策分析,统计分析工具已经开始为商业分析人员所采纳和应用。统计分析工具可以用于一系列企业的商业活动,例如,使用统计工具进行数据分析,以寻求最佳机会来增加企业产品的市场份额和利润;利用全面质量管理程序提高产品和服务的质量,使顾客更加满意;通过流水线产品制造和后勤服务的协调来增加企业利润等。

  归纳推理是从个别性知识的前提推出一般性知识的结论的间接推理。归纳论证是运用归纳推理进行的论证,其中论据是关于特殊事实的判断,论题则为一般性的原理,整个论证体现了由个别到一般的思维过程。归纳逻辑是指以归纳推理和归纳方法为基本内容的逻辑系统,统计推断是归纳逻辑的一种形态。古希腊的亚里士多德最早对归纳作过专门的考察。17世纪英国哲学家弗兰西斯·培根(F.Bacon)系统研究了归纳法学说,奠定了归纳逻辑基础。

  概率逻辑是以现代演绎逻辑和概率论为工具、形式化、定量化的归纳逻辑。本世纪初,罗素和怀特海(A.N.Whirtehead)在《数学原理》中,基本建立了现代化的演绎逻辑。这种对演绎逻辑的形式研究,很自然地会被人移植到归纳逻辑上去。此外,自17世纪以来,通过费尔玛、巴斯卡、贝努里、拉普拉斯(Laplace)等人对随机现象的规律性研究,概率论的基础已经奠定。至本世纪初,它已广泛地被用于经验科学中。1921年J.M.凯恩斯正是在这种条件下,发表了《论概率》专著,尝试为归纳逻辑构造公理系统的,但结果并不令人满意。到1950年代,关于概率逻辑人们已提出了较多系统,其中以卡尔纳普的系统最具代表性。

  卡尔纳普把归纳推理中前提和结论的关系,看成是证据对假说的确证关系,把确证关系的量度叫作确证度。卡尔纳普认为确证就是逻辑概率,或称概率1。卡尔纳普建立归纳的演绎系统,目的在于用演绎方法去确立确证度的数值。说得具体一点,卡尔纳普先用一阶语言L建立一个语义系统;然后,把归纳逻辑的证据e对假说h的支持看成是一种部分蕴涵关系;最后,定义一个量化确证度的C-函数。虽然这看上去思路十分清晰,而且这样定义的函数也确实能满足概率论概念的要求,但问题在于这种函数并不唯一。尽管卡尔纳普后来还曾提出正则性、对称性、恰当性等限制条件,但终究因主观色彩太浓,想建立客观的、先验的确证关系的C-函数的愿望,很难实现。

  现代归纳逻辑是通过概率论、统计学作为中介而实现在人工智能、商务智能中的应用的。以归纳逻辑作为理论基础的数理统计、统计推理是归纳逻辑走向现代和走向应用的桥梁,它为归纳逻辑的现代应用开启了一扇大门,而开展商务智能、统计、归纳的关联研究就是其中重要的方面。

  5 结束语

  完成商务智能需要分两步走:首先,通过数据挖掘,从大量数据中去挖出样本;然后再用统计方法去推断出母体的性状。这里用到了统计,也用到了从个体到总体的归纳,可见商务智能、数据挖掘和统计、归纳之间有密切的联系。商务智能和相关的数据仓库、数据挖掘技术已成为信息领域的研究热点之一,引起了学术界和企业界有关专家、学者和企业管理者的高度关注。在我国,商务智能及其相关研究尚处于起步阶段。努力开展商务智能(数据仓库、数据挖掘、联机分析)、统计、归纳之间的关联研究,必将有助于商务智能的应用开发研究,有助于我国经济和社会发展研究,也将有助于统计、归纳基础理论的研究,具有影响深远的重大意义。
页: [1]
查看完整版本: 商务智能 归纳逻辑与统计学的关联