《商业智能》实验讲义.doc
国贸学院实验项目讲义 《商业智能》 编写单位: 国贸学院 编写教师: 杨风召 适用专业: 电子商务 编写日期: 2008.09.05 《商务智能》课程实验指导 实验一 数据仓库的构建 一、实验目的及要求 (一)实验目的 1.理解数据库与数据仓库之间的区别与联系; 2.掌握典型的关系型数据库及其数据仓库系统的工作原理以及应用方法; 3.掌握数据仓库建立的基本方法及其相关工具的使用。 (二)实验要求 利用实验室和指导教师提供的实验软件,认真完成规定的实验项目,真实地记录实验 中遇到的各种问题和解决的方法与过程,并绘出模拟实验案例的数据仓库模型。实验完成后, 应根据实验情况写出实验报告。 二、实验设备及软件 基于 NT 的局域网络,服务器与客户端安装 MS SQL Server 服务系统以及 Analysis Services 系统。 三、实验内容 以 SQL Server 为系统平台,设计、建立数据库,并以此为基础创建数据仓库。 四、实验步骤 1. 启动 SQL Server 服务 启动 SQL Server 实例时即启动了 SQL Server 服务。启动 SQL Server 服务之后,用 户便可与服务器建立新连接。SQL Server 服务可在本地或远程作为 Microsoft Windows NT® 4.0 或 Windows® 2000 服务启动和停止。SQL Server 服务若是默认实例,则被称为 MSSQLServer;若是命名实例,则被称为 MSSQL$instancename。 2. 注册服务器 ⑴ 右击一个服务器或服务器组,然后单击"新建 SQL Server 注册"命令。 ⑵ 在"服务器"框中,键入服务器名。 ⑶ 若要指定 SQL Server 企业管理器(作为客户端)与运行正在注册的 Microsoft® SQL Server™ 实例的服务器之间的连接,请执行下列操作之一: 单击"使用 Windows 身份验证" -或-单击"使用 SQL Server 身份验证" ⑷ 在"服务器组"列表中,单击一个服务器组。 ⑸ 执行下列一个或多个操作: 选择"在控制台中显示 SQL Server 服务器的状态"复选框以打开服务轮询。 选择"显示系统数据库和系统对象"复选框以显示所有系统数据库和对象。 选择"在连接时自动启动 SQL Server"复选框以自动启动 SQL Server 实例。 重复步骤 1 到 5,在"SQL Server 企业管理器"中注册每个服务器。 3. 设计表 设计数据库时,应先确定需要什么样的表,各表中都有哪些数据以及各个表的存取权限 等等。在创建和操作表的过程中,将对表进行更为细致的设计。 设计时应注意: 表所包含的数据的类型。 表的各列及每一列的数据类型(如果必要,还应注意列宽)。 哪些列允许空值。 是否要使用以及何时使用约束、默认设置或规则。 所需索引的类型,哪里需要索引,哪些列是主键,哪些是外键。 4. 修改表 表创建之后可以修改许多已定义的选项,包括: 添加、修改、删除列。例如,列的名称、长度、数据类型、精度、小数位数以及为空性 均可进行修改,不过有一些限制而已。注意: 可添加或删除 PRIMARY KEY 和 FOREIGN KEY 约束。 可添加或删除 UNIQUE 和 CHECK 约束及 DEFAULT 定义(对象) 。 可使用 IDENTITY 或 ROWGUIDCOL 属性添加或删除标识符列。虽然 ROWGUIDCOL 属性也可添加至现有列或从现有列删除,但是任何时候在表中只能有一列 可具有该属性。 表及表中所选定的列已注册为全文索引。 5.建立系统数据源连接 ⑴ Microsoft® Windows NT® 4.0 用户:单击“开始”按钮,指向“设置”,单击 “控 制面板”,然后双击“数据源 (ODBC)”。 ⑵ Windows® 2000 用户:单击“开始”按钮,指向“设置” ,单击“控制面板”,然后 双击“管理工具” ,再双击“数据源 (ODBC)” 。 ⑶ 在“系统 DSN”选项卡上单击“添加”按钮。 ⑷ 选择“Microsoft Access 驱动程序 (*.mdb)” ,然后单击“完成”按钮。 ⑸ 在“数据源名”框中,输入“教程” ,然后在“数据库”下,单击“选择”。 ⑹ 在 “ 选 择 数 据 库 ” 对 话 框 中 , 浏 览 到 “ C:\Program Files\Microsoft Analysis Services\Samples”,然后单击“FoodMart 2000.mdb”。单击“确定”按钮。 6.建立数据库和数据源 ⑴ 如何建立数据库结构 ① 在 Analysis Manager 树视图中展开“Analysis Servers” 。 ② 单击服务器名称,即可建立与 Analysis Servers 的连接。 ③ 右击服务器名称,然后单击“新建数据库”命令。 ④ 在“数据库”对话框中的“数据库名称”框中,输入“教程” ,然后单击“确定”按 钮。 ⑤ 在 Analysis Manager 树窗格中展开服务器,然后展开刚才创建的“教程”数 据库。 ⑵ 建立数据源 在 Analysis Manager 树窗格中,右击“教程”数据库下的“数据源”文件夹,然后 单击“新数据源”命令。 在“数据链接属性”对话框中,单击“提供者”选项卡,然后单 击“Microsoft OLE DB Provider for ODBC Drivers” 。 ① 单击“连接”选项卡,然后从“使用数据源名称”列表中单击“教程”。 ② 单击“测试连接”以确保一切工作正常。在“Microsoft 数据链接”对话框中应 出现一条消息,说明连接成功。在消息框中单击“确定”按钮。 ③ 单击“确定”按钮关闭“数据链接属性”对话框。 7.建立多维数据集 您现在的身份是 FoodMart Corporation 的数据库管理员。FoodMart 是一家大 型的连锁店,在美国、墨西哥和加拿大有销售业务。市场部想要按产品和顾客分析 1998 年进行的所有销售业务数据。使用存储在公司数据仓库中的数据,您就能建立多维数据结构 (多维数据集),以便在市场分析人员查询数据库时获取快速的响应。建立一个多维数据集, 用于进行销售分析。 ⑴ 打开多维数据集向导 在 Analysis Manager 树窗格中, “教程”数据库下,右击“多维数据集”文件夹, 单击“新建多维数据集”菜单,然后单击“向导”命令。 ⑵ 向多维数据集添加度量值 度量值是要进行分析的数据库中的量化值。常用的度量值为销售、成本和预算数据。度 量值根据多维数据集不同的维度类别进行分析。 ① 在多维数据集向导的“欢迎”步骤,单击“下一步”按钮。 ② 在“从数据源中选择事实数据表”步骤,展开“教程”数据源,然后单击 “sales_fact_1998” 。 ③ 单击“浏览数据”按钮可以查看“sales_fact_1998”表中的数据。数据浏览完毕后, 关闭“浏览数据”窗口,然后单击“下一步”按钮。 ④ 若要定义多维数据集的度量值,在“事实数据表数据列”下,双击“store_sales”。 对“store_cost”和“unit_sales”列重复此步骤,然后单击“下一步”按钮。 ⑶ 建立时间维度 在向导的“选择多维数据集的维度”步骤,单击“新建维度”命令。此操作将调用维度 向导。 ① 在“欢迎”步骤,单击“下一步”按钮。 ② 在“选择维度的创建方式”步骤,选择“星型架构:单个维度表”选项,然后单击 “下一步”按钮。 ③ 在“选择维度表”步骤,单击“time_by_day”。单击“浏览数据”按钮可以查看包 含在“time_by_day”表中的数据。 查看完“time_by_day”表后,单击“下一步”按钮。 ④ 在“选择维度类型”步骤,选择“时间维度”选项,然后单击“下一步”按钮。 ⑤ 接下来,将定义维度的级别。在“创建时间维度级别”步骤,单击“选择时间级 别”,单击“年、季度、月” ,然后单击“下一步”按钮。 ⑥ 在“选择高级选项”步骤,单击“下一步”按钮。 ⑦ 在向导的最后一步,输入“Time”作为新维度的名称。 ⑧ 单击“完成”返回到多维数据集向导。 ⑨ 在多维数据集向导中,现在应能在“多维数据集维度”列表中看到“Time”维度。 ⑷ 建立产品维度 ① 再次单击“新建维度”命令。在“欢迎进入维度向导”步骤,单击“下一步”按钮。 ② 在“选择创建维度的方式”步骤,选择“雪花架构: 多个相关维度表”选项,然后 单击“下一步”按钮。 ③ 在“选择维度表”步骤,双击“Product”和“product_class”将它们添加到“选 定的表”。单击“下一步”按钮。 ④ 在维度向导的“创建和编辑联接”步骤,显示在上一步选定的两个表以及它们之间 的联接。单击“下一步”按钮。 若要定义维度的级别,在“可用的列”下,按顺序双击“product_category”、 “product_subcategory”和“brand_name”。 双击每列后,其名称显示在“维度级别”下。 在选择了所有三列后,单击“下一步”按钮。 在“指定成员键列”步骤,单击“下一步”按钮。 在“选择高级选项”步骤,单击“下一步”按钮。 在向导的最后一步,在“维度名称”框中,输入“Product” ,并保持“与其它 多维数据集共享此维度”复选框为选中状态。单击“完成”按钮。 现在应能在“多维数据集维度”列表中看到“Product”维度。 ⑸ 建立客户维度 ① 单击“新建维度”命令。 ② 在“欢迎”步骤,单击“下一步”按钮。 ③ 在“选择创建维度的方式”步骤,选择“星型架构: 单个维度表”选项,然后单击 “下一步”按钮。 ④ 在“选择维度表”步骤,单击“Customer” ,然后单击“下一步”按钮。 ⑤ 在“选择维度类型”步骤,单击“下一步”按钮。 ⑥ 若 要 定 义 维 度 的 级 别 , 在 “ 可 用 列 ” 下 , 按 顺 序 双 击 “ Country ”、 “State_Province”、 “City”和“lname”列。双击每一列后,其名称将显示在“维度级别” 下方。选择完所有四个列之后,单击“下一步”按钮。 ⑦ 在“指定成员键列”步骤,单击“下一步”按钮。 ⑧ 在“选择高级选项”步骤,单击“下一步”按钮。 ⑨ 在向导的最后一步,在“维度名称”框中,输入“Customer” 。保持“与其它多维数 据集共享此维度”复选框的选中状态。单击“完成”按钮。 ⑩ 在多维数据集向导中,现在应能在“多维数据集维度”列表中看到“Customer”维 度。 ⑹ 完成多维数据集的生成 ① 在多维数据集向导中,单击“下一步”按钮。 ② 在“事实数据表行数”消息给出提示时,单击“是”按钮。 ③ 在多维数据集向导的最后一步,将多维数据集命名为“Sales”,然后单击“完成” 按钮。 ④ 向导将关闭并随之启动多维数据集编辑器,其中包含刚刚创建的多维数据集。单击 蓝色或黄色的标题栏,对表进行排列,使其符合下图所示的样子。 五、实验思考题 1. 1. SqlServer 环境下,数据库与表之间的关系。 2. 2. 多维数据集建立过程中,如何理解数据仓库与源数据。 3. 3. 维表和事实表之间的关系。 4. 4. 创建数据仓库的基本过程 实验二 多维数据组织与分析(OLAP) 一、实验目的及要求 (一)实验目的 1.理解维(表) 、成员、层次(粒度)等基本概念及其之间的关系; 2.理解多维数据集创建的基本原理与流程; 3.理解并掌握 OLAP 分析的基本过程与方法; (二)实验要求 利用实验室和指导教师提供的实验软件,认真完成规定的实验内容,真实地记录实验中 遇到的各种问题和解决的方法与过程,并根据实验案例绘出多维数据组织模型及其 OLAP 操 作过程。实验完成后,应根据实验情况写出实验报告。 二、实验设备及软件 基 于 NT 的 局 域 网 络 , 服 务 器 与 客 户 端 安 装 MS SQL Server 服 务 系 统 、 Analysis Services 系统以及 Crystal Report 系统。 三、实验内容 1.运用 Analysis Server 工具进行维度、度量值以及多维数据集的创建(模拟案例)。 2.使用维度浏览器进行多维数据的查询、编辑操作。 3.对多维数据集进行切片、切块、旋转、钻取操作。 四、实验步骤 1.编辑多维数据集 ⑴ 使用多维数据集编辑器向现有的 Sales 多维数据集添加维度。 可以使用以下两种方法启用多维数据集编辑器: ① 在 Analysis Manager 树窗格中右击一个现有的多维数据集,然后单击“编辑”命令。 ② 使用多维数据集编辑器直接创建新的多维数据集。除非您是高级用户,否则不建议 使用本方法。 ③ 如果您是从上一节的操作接着下来的,则应该已经在多维数据集编辑器中。 ④ 在多维数据集编辑器的“架构”窗格中,可以看到事实数据表(黄色标题栏)及联 接的维度表(蓝色标题栏)。在多维数据集编辑器树窗格中,可以在层次树中预览多维数据 集的结构。通过单击左窗格中底部的“属性”按钮,可以编辑多维数据集的属性。 ⑵ 使用存储设计向导设计存储 ①在 Analysis Manager 树窗格中,在“教程”数据库下展开“多维数据集”文件夹, 右击“Sales”多维数据集,然后单击“编辑”命令。 ②在“欢迎”步骤中单击“下一步”按钮。 ③选择“MOLAP”作为数据存储类型,然后单击“下一步”按钮。 ④在“设置聚合选项”下单击“性能提升达到” 。在此框中输入“40”作为指定百分比。 ⑤此操作指示 Analysis Services 将性能提升到 40%,而不管需要多大的磁盘空间。管 理员可以用此优化能力平衡查询性能需求和存储聚合数据所需磁盘空间大小。 ⑥单击“启动”按钮。 ⑦在 Analysis Services 设计聚合时,您可以查看向导右边的“性能与大小”图。从中 可以看出增加性能提升对使用额外磁盘空间的需求。完成设计聚合的进程之后,单击“下一 步”按钮。 2.浏览多维数据集数据 使用多维数据集浏览器对 Sales 数据进行切片和切块。 ⑴ 如何使用多维数据集浏览器查看多维数据集数据 ① 在 Analysis Manager 树窗格中,右击“Sales”多维数据集,然后单击“浏览数据” 命令。 ② 出现多维数据集浏览器,显示由多维数据集的一个维度和度量值组成的网格。其它 四个维度显示在浏览器的上方。 ⑵ 如何替换网格中的维度 ① 要用另一个维度替换网格中的维度,拖动上方框中的维度,然后直接将该维度放在 要与其交换的列上。确保在此过程中,指针的形状为双端箭头。 ② 使用这种拖放方法,选择“Product”维度按钮并将其拖动到网格上,然后直接放在 “Measures”上方。“Product”维度和“Measures”维度在多维数据集浏览器中将交换位置。 注意: 如果想将维度添加到网格,而不是用另一个维度进行替换,则将该维度拖动到网格的中间。 ⑶ 按时间筛选数据 单击“Time”维度旁边的箭头。 展开“所有 Time”和“1998”节点,然后单击“Quarter 1” 。将对网格中的数据进行筛 选,使筛选出的数据为仅反映该季度情况的数字。 使用拖放方法交换“Product”和“Customer”维度。单击“Product”并将 其拖到“Country”维度上。 双击网格中包含“Baking Goods”的单元。多维数据集展开以包括子类别列。 完成后,单击“关闭”按钮关闭多维数据集浏览器。 3.编辑多维数据集 使用多维数据集编辑器可以对现有多维数据集进行更改。 使用多维数据集编辑器向现 有的 Sales 多维数据集添加维度 两种方法启用多维数据集编辑器: 在 Analysis Manager 树窗格中右击一个现有的多维数据集,然后单击“编辑” 使用多维数据集编辑器直接创建新的多维数据集。除非您是高级用户,否则 命令。 不建议使用本方法。 在多维数据集编辑器的“架构”窗格中,可以看到事实数据表(黄色标题栏)及联接的 维度表(蓝色标题栏)。在多维数据集编辑器树窗格中,可以在层次树中预览多维数据集的 结构。通过单击左窗格中底部的“属性”按钮,可以编辑多维数据集的属性。 ⑴ 向现有多维数据集添加维度 ① 在多维数据集编辑器中,在“插入”菜单上单击“表”命令。 ② 在“选择表”对话框中,单击“promotion”表,单击“添加”按钮,然后单击“关 闭”按钮。 ③ 若要定义新的维度,请双击“promotion”表中的“promotion_name”列。 ④ 在“映射列”对话框中选择“维度”选项,然后单击“确定”按钮。 在树视图中选择“Promotion Name”维度。 在“编辑”菜单中单击“重命名”命令。 键入“Promotion” ,按 ENTER 键。 保存所做的更改。 4.钻取多维数据 在 Sales 多维数据集内启用钻取,然后浏览数据并深化到事务。 ⑴ 启用多维数据集的钻取功能 ① 在 Analysis Manager 树窗格中,在“教程”数据库下,展开“多维数据集”文件夹, 右击“Sales”多维数据集,然后单击“编辑”命令。 ② 在多维数据集编辑器中,单击“工具”菜单中的“钻取选项”命令。 ③ 在“多维数据集钻取选项”对话框中选择“启用钻取”复选框。 ④ 单击“全选” ,然后单击“确定”按钮。 ⑤ 保存,然后关闭多维数据集编辑器。 ⑵ 给角色提供钻取权限 ① 在 Analysis Manager 树窗格中,在“教程” 数据库下,展开“多维数据集”文件 夹,右击“Sales”多维数据集,然后单击“管理角色”命令。 ② 多维数据集角色管理器出现,显示 Sales 多维数据集现有角色的列表。 ③ 在多维数据集角色管理器中,单击“Management”角色,然后在“钻取”列中单击 扩展按钮(“...”)。 (还可以单击“编辑” 。) ④“编辑多维数据集角色”对话框出现。选中“允许钻取”复选框。 ⑤ 单击“确定”按钮。 ⑥ 在多维数据集角色管理器中, “Management”角色显示钻取已启用。 ⑦ 关闭多维数据集角色管理器。 ⑶ 使用分析管理器深化到源系统 ① 在 Analysis Manager 树窗格中,在“教程”数据库下,展开“多维数据集”文件夹, 右击“Sales”多维数据集,然后单击“浏览数据”命令。 ② 多维数据集浏览器出现,显示在多维数据集内汇总的数据。通过双击“USA”、“WA” 和“REDMOND”级别,展开“Country”级别。为了更好地查看数据,可能需要最大化“多维 数据集浏览器”窗口。右击“Abbey”的单位销售额,然后单击“钻取”命令。 ③ “钻取数据”对话框显示源系统中的事务,这些事务在 Analysis Services 中创建 了该单元值。 ④ 关闭“钻取数据”对话框。 ⑤ 关闭多维数据集浏览器。 五、实验思考题 1. 1. 编辑多维数据集不同的维度时应注意什么问题。 2. 2. 切片、钻取、切块等 OLAP 浏览操作之间的差异。 3. 3. 维度的增加或删除会对多维数据集产生什么影响。 实验三 数据挖掘 一、实验目的及要求 (一)实验目的 1.理解数据挖掘的基本概念及其过程; 2.理解数据挖掘与数据仓库、OLAP 之间的关系 3.理解基本的数据挖掘技术与方法的工作原理与过程,掌握数据挖掘相关工具的使用。 (二)实验要求 利用实验室和指导教师提供的实验软件,认真完成规定的实验内容,真实地记录实验中 遇到的各种问题和解决的方法与过程,并绘出实验案例的数据挖掘模型。实验完成后,应根 据实验情况写出实验报告。 二、实验设备及软件 基 于 NT 的 局 域 网 络 , 服 务 器 与 客 户 端 安 装 MS SQL Server 服 务 系 统 、 Analysis Services 系统以及 Crystal Report 系统。 三、实验内容 将创建一个数据挖掘模型以训练销售数据,并使用“Microsoft 决策树”算法在客户群 中找出会员卡选择模式。请将要挖掘的维度(事例维度)设置为客户,再将 Member_Card 成员的属性设置为数据挖掘算法识别模式时要使用的信息。然后选择人口统计特征列表,算 法将从中确定模式:婚姻状况、年收入、在家子女数和教育程度。下一步需要训练模型,以 便能够浏览树视图并从中读取模式。市场部将根据这些模式设计新的会员卡,使其适应申请 各类会员卡的客户类型 四、实验步骤 1.创建揭示客户模式的数据挖掘模型 ① 在 Analysis Manager 树视图中,展开“多维数据集”文件夹,右击“Sales”多维数 据集,然后选择“新建挖掘模型”命令。 ② 打开挖掘模型向导。在“选择数据挖掘技术”步骤中的“技术”框中选择“Microsoft 决策树”。单击“下一步”按钮。 ③ 在“选择事例”步骤中,在“维度”框中选择“Customer” 。在“级别”框中,确 保选择了“Lname”。单击“下一步”按钮。 ④在“选择被预测实体”步骤中,选择“事例级别的成员属性”。然后在“成员属性” 框中选择“Member Card”。 ⑤ 单击“下一步”按钮。 ⑥ 在“选择训练数据”步骤中,滚动到“Customer”维度,清除“Country”、“State Province”和“City”框(因为不需要在聚集级别上而只需要在单独的客户级别上确定客户 模式)。单击“下一步”按钮。 ⑦ 在“创建维度和虚拟多维数据集(可选)”步骤中,在“维度名称”框中输入“Customer Patterns” 。然后在“虚拟多维数据集名称”框中输入“Trained Cube”。单击“下一步”按 钮。 ⑧ 在最后的步骤中,在“模型名称”字段中键入“Customer patterns discovery”。确 保选择了“保存并开始处理”。单击“完成”按钮。 ⑨ 出现一个窗口,显示模型正在处理之中。处理完成之后,出现一则消息,说明“已 成功完成处理”,然后单击“关闭”按钮。 2.读取客户决策树 ① 现在已在 OLAP 挖掘模型编辑器中。可以使用编辑器编辑模型属性或者浏览其结果。 最大化 OLAP 挖掘模型编辑器。 ② 决策树显示于右窗格中。其中包括四个窗格。中间的“内容详情”窗格 (1) 显示焦 点所在的决策树的部分。 “内容选择区”窗格 (2) 显示树的完整视图。该窗格使您可以将焦 点设置到树的其它部分。其它的两个窗格分别是“特性”窗格 (3)(特性信息可以用“合计” 选项卡以数值方式查看或者用“直方图”选项卡以图形方式查看)和与焦点所在节点相关联 的“节点路径”区域 (4)。 ③ 在“内容详情”窗格的决策树区域中,颜色代表“事例”的密度(在本事例中为: 客户的密度)。颜色越深则节点中包含的事例就越多。 单击“全部”节点。该节点为黑色, 因为它代表 (7632) 事例的 100%。7632 代表 1998 年活动的客户数目(即 Sales 多维数据集 中有事务记录的客户)。这个数字也说明在 1998 年并非所有的客户都是活动的,因为我们从 “Customer”维度的“Lname”级别中所包含的 9991 个客户中只得到 7632 个事例。 ④ 特性窗格显示“全部”节点中,所有事例的 55.83%(或者说 4263 个示例)可能选 择铜卡 (Bronze);11.50% 可能选择金卡 (Golden);23.32% 可能选择普通卡 (Normal); 9.34% 可能选择银卡 (Silver)。如果没有显示百分比,则可以调整“特性”窗格中“合计” 面板的“可能性”列的大小。 ⑤ 如果选择了树的不同节点,此百分比将会更改。让我们调查一下哪些客户可能选择 金卡。若要执行此操作,则需要重新画出树以便勾画出金卡的高密度区。在右下角的“树颜 色基于”字段中选择“Golden”。该树显示另一种颜色模式。可以看出“Customer.Lname.Yearly Income = $150K+”节点的密度高于其它任何节点。 ⑥ 树的第一个级别由“yearly income”属性决定。树的组织由算法决定,其基础是该 属性在输出中的重要性。这意味着“yearly income”属性是最重要的因素,它将决定客户 可能选择的会员卡的类型。选择“Customer.Lname.Yearly Income = $150K+”节点。该特性 窗格显示收入较多的客户中,45.09% 的客户可能会选择金卡。这个百分比要比“全部”节 点中的 (11.50%) 高得多。当继续在树中做进一步调查时,让我们调查一下这些百分比是如 何演化的。 ⑦ 双 击 “ Customer.Lname.Yearly Income = “ Customer.Lname.Yearly Income “Customer.Lname.Marital Status = = $150K+ ” 节 点 。 该 树 现 在 只 显 示 $150K+ ” 节 点 下 的 子 树 。 选 择 M”节点。在“节点路径”窗格中,可以看到包含于 该节点的客户的完整的特征定义:收入高于 150000 美元且已婚的客户。该“特性”窗格现 在显示:与上一级别 (45.09%) 相比,较高百分比 (81.05%) 的客户可能会选择金卡。 ⑧ 我们再返回到顶层,进行一种与此不同的调查,即调查可能选择普通卡的客户。若 要返回顶层节点,可以单击从“Customer.Lname.Yearly Income = $150K+”节点左面伸出 来的线(方法 1)或者使用“内容选择区”回到树的顶部(方法 2)。 ⑨ 在“树颜色基于”字段中选择“Normal”。树刷新节点的颜色之后,可以看到 “Customer.Lname.Yearly Income = $150K+”节点的颜色非常浅;这意味着这些 客户选择普通卡的可能性非常小。另一方面,可以看到“Customer.Lname.Yearly Income = $10K $30K”节点的颜色非常深。这意味着这些客户选择普通卡的可能性非常 高。“特性”窗格显示在此年收入范围内的客户中,91.92% 的客户可能会选择普通卡。树 还显示已无法对此节点进行进一步调查。这意味着在树的这个分支中,年收入是决定客户选 择普通卡的可能性的唯一因素。 ⑩ 可以查看树的其它分支并调查客户选择一种卡而不选择另一种卡的可能性。市场部 可以使用此信息来确定最可能选择某种类型卡的客户的特征。根据这些特征(收入、子女数、 婚姻状况等等),可以重新定义会员卡服务和方案以便更好地适应其客户。完成对决策树的 分析之后,请关闭 OLAP 挖掘模型编辑器 3.浏览数据挖掘维度 ① 在 Analysis Manager 树视图中,展开“共享维度”文件夹,右击“Customer patterns”维度,然后单击“浏览维度数据”命令。 ② 维度浏览器打开。展开“全部”成员维度。 ③ 选择“Customer.Lname.Yearly Income = $150K+”成员。在“自定义成员公式”窗 格中,出现定义该节点的 MDX 公式。 ④ 可以继续展开维度并考察该节点的属性。完成时,单击“关闭”按钮。 4.浏览数据挖掘虚拟多维数据集 ① 在 Analysis Manager 树窗格中,展开“多维数据集”文件夹,右击“Trained Cube” 多维数据集,然后选择“浏览数据”命令。 ② 多维数据集浏览器打开。最大化该多维数据集浏览器。 ③ 将“Customer Patterns”维度拖动到“MeasuresLevel”框,以便用“Customer Patterns”维度替换“Measures”维度。 ④ 按下列顺序双击,展开“Customer”维度:“USA”->“WA”->“Redmond”。显示 Redmond 地区的所有客户。 ⑤ 双击“级别 01”展开“Customer”维度。显示“Customer Patterns”维度的第一个 级别。 ⑥ 关闭多维数据集浏览器。 五、实验思考题 1. 1. 数据挖掘与 OLAP 分析之间的区别。 2. 2. SQL Server 环境下数据挖掘的基本模式。 3. 3. 基于决策树的数据挖掘的基本特点与过程。 4. 4. 数据挖掘与多维数据集中维度之间的关系。