数据挖掘应用已经改进了在大量数据集中检测变化和模式的艺术,以预测所需的结果类型。它的特点和优势使其在企业中很受欢迎。它可以有效地用于增加利润,减少不必要的成本,制定/了解用户的兴趣等等。
什么是数据挖掘
数据挖掘是从大量数据中提取知识的计算机辅助过程。
换句话说,数据挖掘得名于数据+矿业与在地下进行采矿以寻找有价值的矿石相同,数据挖掘是为了在数据集中寻找有价值的信息。
数据挖掘工具预测客户习惯,预测模式和未来趋势,允许企业增加公司收入并做出积极的决策。
数据挖掘工作原理
图1 -数据挖掘架构
用户界面可以是任何网站。中搜索产品数据库,数据库仓库,万维网和其他存储库(图1的底部部分)。这意味着搜索的数据将从整个网络中获取。
然后,在解析器的帮助下,数据将被清理以避免噪声、数据错误和不需要的数据。然后对有选择性的数据进行集成,并对所有数据进行提取数据仓库服务器.借助知识库和模式评价,将结果反馈给界面。
让我们以“亚马逊”为例来更好地理解它。如果用户向用户界面(Amazon)发送了请求,要求在定义数量的范围内搜索手机,那么它将在其知识库对于之前处理过的类似请求(存储类似的信息)。
如果对相同的模式进行评估,则在数据挖掘引擎的帮助下,将结果提供给用户,数据挖掘引擎将进一步要求数据仓库服务器在搜索量的范围内获取手机。
它还会搜索整个网络,然后它会清理、整合并将细节反馈给数据挖掘引擎。它还将把信息存储在知识库中,以便将来进行趋势分析。发布此过程后,界面将提供所需的结果。
数据挖掘的特点
数据挖掘的特点是:
- 预测可能的结果
- 专注于大型数据集和数据库
- 基于行为分析的自动模式预测
- 计算——为了从其他特性中计算一个特性,可以计算任何SQL表达式。
类型数据挖掘
数据挖掘分析可以分为两个基本部分。它们是:
- 预测数据挖掘分析
- 描述性数据挖掘分析
图2 -数据挖掘的类型
预测数据挖掘分析
顾名思义,预测数据挖掘分析对数据进行分析,这些数据可能有助于预测未来业务中可能发生的情况。
预测数据挖掘任务可以进一步分为四种类型。它们是:
- 分类分析
- 回归分析
- 时间严重程度分析
- 预测分析
分类分析
它用于获取有关数据和元数据的重要和相关信息。它将数据按所属的不同类别进行分类。电子邮件提供商是分类分析的最好例子。他们使用算法将邮件分类为合法邮件或标记为垃圾邮件
回归分析
它试图陈述变量之间的依赖关系。一般用于预测和预测。
时间严重程度分析
它是在一致的时间间隔内测量的定义良好的数据点序列。
预测分析
它与时间序列有关,但时间不受限制。
描述性数据挖掘任务
其目的是总结或将数据转化为相关信息。
描述性数据挖掘任务可以进一步分为四种类型。它们是:
- 聚类分析
- 总结分析
- 关联规则分析
- 序列发现分析
聚类分析
它是识别彼此相似的数据集的过程。
例如,可以将购买行为相似的客户聚集在一起,购买类似的产品,以提高转化率。
总结分析
它涉及到查找数据集的紧凑描述的技术。
关联规则学习
该方法有助于识别大型数据库中不同变量之间的一些有趣关系。零售业就是最好的例子。
当某些节日季节接近零售店库存时,巧克力的销量会在任何节日之前增加,这是在数据挖掘的帮助下实现的。
序列发现分析
它是关于找到一个活动的序列。
例如,在商店里,用户可能经常先买剃须胶再买剃须刀。这一切都是关于用户购买产品的顺序,店主可以在此基础上安排商品。
数据挖掘应用领域
图3数据挖掘的应用领域
数据挖掘应用于各个领域,例如:
- 电信和信用卡公司。
- 保险公司/股票交易所——应用数据挖掘技术来减少欺诈
- 医疗应用——预测外科手术、医学测试或药物的有效性。
- 零售商——数据挖掘有助于识别要应用的促销和优惠券以及要存储的产品。
- 制药公司
数据挖掘的优势
数据挖掘的优点是:
客户行为与习惯
数据挖掘在跟踪客户行为和习惯方面很有用。
例如,如果一个客户在亚马逊上寻找一个特定的优惠,数据挖掘已经预测并保存在其数据库中,那么习惯(特定的产品)可以很容易地识别出来。
趋势分析
数据挖掘提供的最常见的好处之一是,当客户访问某个特定网站时,他通常会遵循的趋势/模式。
营销活动
数据挖掘通过对某些产品的一些调查来帮助确定客户的反应。
数据挖掘的缺点
数据挖掘的缺点是:
隐私问题
在数据挖掘系统中,安全保障措施很少。每一个数据都被捕获,信息,社交媒体内容所有数据都很容易获得,所以信息滥用是可能的。
不完整的数据
数据挖掘系统可以在自己的范围内提供数据。
无关的信息
收集到的其他无关信息。
还读:C类放大器-工作原理,应用,优缺点大数据-类别,属性,应用程序和Hadoop