我要投搞

标签云

收藏小站

爱尚经典语录、名言、句子、散文、日志、唯美图片

当前位置:双彩网 > 知识发现 >

什么是数据挖掘?

归档日期:07-02       文本归类:知识发现      文章编辑:爱尚语录

  可选中1个或多个下面的关键词,搜索相关资料。也可直接点“搜索资料”搜索整个问题。

  简单地说,数据挖掘是从大量数据中提取或‘挖掘’知识。该术语实际上有点用词不当。数据挖掘应当更正确地命名为‘从数据中挖掘知识’,不幸的是它有点长。许多人把数据挖掘视为另一个常用的术语‘数据库中知识发现’或KDD的同义词。而另一些人只是把数据挖掘视为数据库中知识发现过程的一个基本步骤。

  基于大量数据:并非说小数据量上就不可以进行挖掘,实际上大多数数据挖掘的算法都可以在小数据量上运行并得到结果。但是,一方面过小的数据量完全可以通过人工分析来总结规律,另一方面来说,小数据量常常无法反映出真实世界中的普遍特性。

  非平凡性:所谓非平凡,指的是挖掘出来的知识应该是不简单的,绝不能是类似某著名体育评论员所说的“经过我的计算,我发现了一个有趣的现象,到本场比赛结束 为止,这届世界杯的进球数和失球数是一样的。非常的巧合!”那种知识。这点看起来勿庸赘言,但是很多不懂业务知识的数据挖掘新手却常常犯这种错误。

  隐含性:数据挖掘是要发现深藏在数据内部的知识,而不是那些直接浮现在数据表面的信息。常用的BI工具,例如报表和OLAP,完全可以让用户找出这些信息。

  新奇性:挖掘出来的知识应该是以前未知的,否则只不过是验证了业务专家的经验而已。只有全新的知识,才可以帮助企业获得进一步的洞察力。

  价值性:挖掘的结果必须能给企业带来直接的或间接的效益。有人说数据挖掘只是“屠龙之技”,看起来神乎其神,却什么用处也没有。这只是一种误解,不可否认的 是在一些数据挖掘项目中,或者因为缺乏明确的业务目标,或者因为数据质量的不足,或者因为人们对改变业务流程的抵制,或者因为挖掘人员的经验不足,都会导 致效果不佳甚至完全没有效果。但大量的成功案例也在证明,数据挖掘的确可以变成提升效益的利器。

  展开全部数据挖掘(英语:Data mining),又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。

  数据挖掘利用了来自如下一些领域的思想:(1) 来自统计学的抽样、估计和假设检验,(2)人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。数据挖掘也迅速地接纳了来自其他领域的思想,这些领域包括最优化、进化计算、信息论、信号处理、可视化和信息检索。一些其他领域也起到重要的支撑作用。特别地,需要数据库系统提供有效的存储、索引和查询处理支持。源于高性能(并行)计算的技术在处理海量数据集方面常常是重要的。分布式技术也能帮助处理海量数据,并且当数据不能集中到一起处理时更是至关重要。

  知于数字营销应用平台是国内首个专业的大数据轻应用自助平台,提供传播管理、舆情管理、网站管理等大数据轻应用解决方案。

  由于数据科学刚刚兴起,数据科学家作为一种新生职业被提出,数据研究高级科学家Rachel Schutt将其定义为“计算机科学家、软件工程师和统计学家的混合体“。数据挖掘作为一个学术领域,横跨多个学科,涵盖了统计学、数学、机器学习和数据库等,此外还包括各类专业方向比如从油田电力、海洋生物、历史文本、电子通讯、法律税务等的各个专业领域。注意每一分类都需要相当的行业经验。

  而要明白某一事物的本质,就需要通过另一些近似的事物特性对比来说明。就好像你单独提问什么是男人?很难解释对不对。

  在《大闹天宫》里孙悟空跟二郎神在花果山下大战三百回合,咱来写一篇文章分析。

  所以在大战开始三百回合时候不相上下,结果后来二郎神派出天兵天将放火烧花果山让大圣慌了心神被偷袭得手。

  首先根据历史样本史书记载发现两人在之前的五百年里打过100次,其中孙悟空赢60次。

  然后有记录显示,之前孙悟空和牛魔王战斗的胜率是80%,而杨戬斗牛魔王胜率是70%。

  孙悟空和杨戬终极决战。这次咱们根据两位的详细资料(如家庭出身、教育背景、工作经验、婚育情况等)让计算机做协同过滤关联分析。计算机通过数据清洗建模后发现:

  战斗经验丰富的斗战胜佛因为平时经常打架擅长利用天时地利环境因素而胜算更大。

  在都得到大师指点的情况下,贫苦出身的孩子可以利用后天的努力来弥补先天悟性的欠缺。

  样貌奇特注定孤独终老的神仙总是会比同等条件下美若天仙喜欢拈花惹草处处留情的神仙功夫好。

  悟空的师父菩提老祖(准提道人)和二郎神的师父玉鼎真人的师父元始天尊同为鸿钧老祖的高足所以前者更胜一筹。

  统计分析能利用大量的历史样本来预测整个事件总体未来的走向(预测性概率)。

  数据挖掘则透过事件的表象发现隐藏在背后的蛛丝马迹,从而找到潜伏的规律以及看似无关事物之间背后的联系,用此来洞察未来(规范性)。

  科技的快速发展和数据的存储技术的快速进步,使得各种行业或组织的数据得以海量积累。但是,从海量的数据当中,提取有用的信息成为了一个难题。在海量数据面前,传统的数据分析工具和方法很无力。由此,数据挖掘技术就登上了历史的舞台。

  数据挖掘是一种技术,将传统的数据分析方法与处理大量数据的复杂算法相结合(图1),从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用信息和知识的过程。

  数据挖掘技术应用广泛,如:1. 在交通领域,帮助铁路票价制定、交通流量预测等。2. 在生物学当中,挖掘基因与疾病之间的关系、蛋白质结构预测、代谢途径预测等。3. 在金融行业当中,股票指数追踪、税务稽查等方面有重要运用。4. 在电子商务领域,对顾客行为分析、定向营销、定向广告投放、谁是最有价值的用户、什么产品搭配销售等。可以说,有数据的方法,就有数据挖掘的用武之地。

  1.建模预测:用因变量作用目标变量建立模型。分为两类:(1)分类,用于预测离散的目标变量;(2)回归,用于预测连续的目标变量。两项任务目标都是训练一个模型,使目标变量预测值与实际值之间的误差达到最小。预测建模可以用来判断病人是否患有某种疾病,可以用于确定顾客是否需要某种产品,预测交通流量。

  2.关联分析:用来发现描述数据中强关联特征的模式。所发现的模式通常用特征子集的形式表示。由于搜索空间是指数规模的,关联分析的目标是以有效的方式提取最有用的模式。关联分析的应用包括用户购买商品之间的联系、找出相关功能的基因组、表单预测输出下拉列表如图4。

  3.聚类分析:发现紧密相关的观测值群组,使得与属于不同簇的观察值相比,同一簇的观察值相互之间尽可能的类似。聚类可用来对相关的顾客分组、给不同功能的基因分组、不同的癌症细胞系分组。

  4.异常检测:识别其特征显著不同于其他数据的观测值。这样的观测值称为异常点或离群点。异常检测算法的目标是发现真正的异常点,而避免错误地将正常的对象标注为异常点。换言之,一个好的异常点检测模型必须具有高检测率和低误报率。异常检测的应用包括检测欺诈、网络攻击、疾病的不寻常模式。

本文链接:http://weblodge.net/zhishifaxian/100.html