数据挖掘算法是创建挖掘模型的机制。若要创建模型,算法将首先分析一组数据,查找特定模式和趋势。然后,算法将使用此分析的结果来定义挖掘模型的参数。
算法创建的挖掘模型可以采用多种形式,这包括:
说明在交易中如何将产品分组到一起的一组规则。
预测特定用户是否会购买某个产品的决策树。
预测销量的数学模型。
说明数据集中的事例如何相关的一组分类。
Microsoft SQL Server 2005 Analysis Services (SSAS) 提供了几个供您在数据挖掘解决方案中使用的算法。这些算法是所有可用于数据挖掘的算法的子集。您还可以使用符合 OLE DB for Data Mining 规范的第三方算法。有关第三方算法的详细信息,请参阅插件算法。
Analysis Services 包括了以下算法类型:
分类算法基于数据集中的其他属性预测一个或多个离散变量。分类算法的一个示例是 Microsoft 决策树算法。
回归算法基于数据集中的其他属性预测一个或多个连续变量,如利润或亏损。回归算法的一个示例是 Microsoft 时序算法。
分割算法将数据划分为组或分类,这些组或分类的项具有相似属性。分割算法的一个示例是 Microsoft 聚类分析算法。
关联算法查找数据集中的不同属性之间的相关性。这类算法最常见的应用是创建可用于市场篮分析的关联规则。关联算法的一个示例是 Microsoft 关联算法。
顺序分析算法汇总数据中的常见顺序或事件,如 Web 路径流。顺序分析算法的一个示例是 Microsoft 顺序分析和聚类分析算法。
为特定的业务任务选择正确的算法很有挑战性。您可以使用不同的算法来执行同样的业务任务,每个算法会生成不同的结果,而某些算法还会生成多种类型的结果。例如,您不仅可以将 Microsoft 决策数算法用于预测,而且还可以将它用作一种减少数据集的列数的方法,因为决策树能够识别出不影响最终挖掘模型的列。
算法不必独立使用,在一个数据挖掘解决方案中可以使用一些算法来探析数据,而使用其他算法基于该数据预测特定结果。例如,可以使用聚类分析算法来识别模式,将数据细分成多少有点相似的组,然后使用分组结果来创建更好的决策数模型。可以在一个解决方案中使用多个算法来执行不同的任务,例如,使用回归树算法来获取财务预测信息,使用基于规则的算法来执行市场篮分析。
挖掘模型可以预测值、生成数据摘要并查找隐含的相关性。为帮助您选择用于数据挖掘解决方案的算法,下面给出了可为特定的任务使用哪些算法的建议。
任务/可使用的 Microsoft 算法
1)预测离散属性。例如,预测目标邮件活动的收件人是否会购买某个产品。 / Microsoft 决策树算法
Microsoft Naive Bayes 算法 Microsoft 聚类分析算法 Microsoft 神经网络算法 (SSAS)
2)预测连续属性。例如,预测下一年的销量。 / Microsoft 决策树算法 Microsoft 时序算法
3)预测顺序。例如,执行公司网站的点击流分析。 / Microsoft 顺序分析和聚类分析算法
4)查找交易中的常见项的组。例如,使用市场篮分析来建议客户购买其他产品。 / Microsoft 关联算法
Microsoft 决策树算法
5)查找相似项的组。例如,将人口统计数据分割为组以便更好地理解属性之间的关系。 / Microsoft 聚类分析算法
Microsoft 顺序分析和聚类分析算法
因为各个模型返回不同类型的结果,所以 Analysis Services 为每个算法提供单独的查看器。在 Analysis Services 中浏览挖掘模型时,该模型会使用模型的相应查看器,显示在数据挖掘设计器的”挖掘模型查看器”选项卡上。