大数据:互联网大规模数据挖掘与分布式处理.pdf
本章为全书的导论部分,首先阐述数据挖掘的本质,并讨论其在多个相关学科中的不同理解。接着介绍邦弗朗尼原理( Bonferroni's principle ),该原理实际上对数据挖掘的过度使用提出了警
告。本章还概述了一些非常有用的思想,它们未必都属于数据挖掘的范畴,但是却有利于理解数:
据挖掘中的某些重要概念。这些思想包括度量词语重要性的TF.IDF权重、哈希函数及索引结构的
性质、包含自然对数底e的恒等式等。最后,简要介绍了后续章节所要涉及的主题。
大数据:互联网大规模数据挖掘与分布式处理.pdf
页:
[1]