图书标签: Machine_Learning 聚类 机器学习 数据 数学 Clustering 社会学 模式识别
发表于2024-12-24
数据聚类(精) pdf epub mobi txt 电子书 下载 2024
2016年初,谷歌围棋Alpha Go以4:1的成绩战胜了人类围棋世界冠军李世石,引起全世界的关注,这标志着人工智能的发展进入了一个全新的阶段。近几年来,人工智能得到飞速的发展,在很多领域如图像识别、语音识别等方面取得了突破性的进步。人工智能的研究也得到全世界学术界和产 业界的高度关注,进入了一个新的高潮期。种种迹象表明,人类进入全方位智能时代已经为期不远了。所有这一切几乎均得益于神经网络的新技术——深度学习的发现和发展(非常有趣的是人工智能的几次高潮均来自神经网络的进步,可见神经网络的生命力)。深度学习的概念由Hinton等于2006年提出,在近年来已经逐渐成为机器学习的主流技术,在多数应用领域的性能明显超出已有技术。
机器学习包括监督学习和无监督学习。目前的深度学习基本上只带来监督学习的进步,但仅靠监督学习是无法实现完整的人工智能的。作为智能系统,监督学习似乎足够“能”而不足够“智”。足够“能”体现为它能够在大数据中挖掘知识,这甚至是人脑做不到的。事实上人脑并不是处理大数据的系统,人类在任何领域所掌握的知识均有限,例如,每个人仅认识数干个汉字或单词。不足够“智”体现为监督学习需要大量人工标记的训练样本。人脑的学习并不需要大量的样本训练,人类是在没有指导或少量指导的条件下获得知识的,而且人脑会不断地学习并强化自己在各个领域的知识。人类在有限知识的基础上体现出惊人的创造力。类似人脑的智能系统更需要无监督学习、小样本学习、强化学习和迁移学习等功能。因此,人工智能的发展仍然任重而道远。
本书讨论聚类技术。聚类是无监督学习的主要内容,在很多文献中人们甚至把聚类和无监督学习两个概念等价使用。聚类一直是机器学习、数据挖掘、模式识别等领域的重要组成内容,近年来更得到高度重视。2015年,中国人工智能学会理事长李德毅院士在“新一代信息技术产业发展高峰论坛”上指出:“人类的认知科学要想有所突破,首先就要在大数据聚类上取得突破,聚类是挖掘大数据资产价值的第一步。”同年,深度学习的领军人物Lecun、Bengio和Hinton在Nature上的综述指出:“人和动物的学习很大程度上是无监督的:我们通过观察发现世界的结构,而不是对每个物体命名。”
那么什么是聚类呢?《周易·系辞上》说:“方以类聚,物以群分,吉凶生矣。”自然的事物总是按一定的规律组织起来的,人们通过认识这些组织的结构特征获得知识,从而做出决策。以生物为例(我们这个世界是因为有生物而活泼生动的),人们根据生物的相似程度(包括形态结构和生理功能等),把生物划分为种和属等不同的等级,并对每一类群的形态结构和生理功能等特征进行科学的描述,以弄清不同类群之间的亲缘关系和进化关系。相信很多人小时候学习生物时都会惊讶于鲸居然是哺乳动物而不是鱼,猫和老虎是同一科等。
和分类(监督学习的主要任务)不同,聚类是在无标记样本的条件下将数据分组,从而发现数据的天然结构。聚类在数据分析中扮演重要的角色,它通常被用于以下三个方面。
(1)发现数据的潜在结构:深入洞察数据、产生假设、检测异常、确定主要特征。
(2)对数据进行自然分组:确定不同组织之间的相似程度(系统关系)。
(3)对数据进行压缩:将聚类原型作为组织和概括数据的方法。
这几个方面的功能使聚类既可以作为预处理程序,又可以作为独立的数据分析工具。
聚类是典型的交叉学科,在很多领域有广泛的应用,其研究已有60多年的历史。生物分类学者、社会学者、哲学家、生物学家、统计学家、数学家、工程师、计算机科学家、医学研究者等众多收集和处理实际数据的工作者都对聚类方法做出了贡献。在不同的领域,聚类还可能被称为Q-分析、拓扑、凝结、分类等。聚类的概念最早出现在1954年的一篇处理人类学数据的论文中。自此开始,聚类一直是相关领域重要的研究内容之一。
Biographical highlights:
Dalian University of Technology DECEMBER 2012 - PRESENT
Vice Dean, Prosessor, Department of Science and Techno logy
Dalian University of Technology JUNE 2003 - DECEMBER 2012
Director, Professor
QQ Technology Inc, Bejing APRIL 2002 - APRIL 2003
Manager, Research and Development Department
ecSolutions Software Limited Company (Shanghai) of TA Group (Hongkong)APRIL 2001 - APRIL 2002
Senior R&D Engineer
Recent papers:
[2017] Self-adapted mixture distance measure for clustering uncertain data
[2017] Novel density-based and hierarchical density-based clustering algorithms for uncertain data
[2017] Multi-task clustering through instances transfer
[2016] Sampling for Nystrom Extension-Based Spectral Clustering: Incremental Perspective and Novel Analysis
[2016] Multi-View Clustering via Graph Regularized Symmetric Nonnegative Matrix Factorization
[2016] Multi-Type Co-clustering of General Heterogeneous Information Networks via Nonnegative Matrix Tri-factorization
[2016] Multi-Task Multi-View Clustering
[2016] Constrained Clustering With Nonnegative Matrix Factorization
[2015] Multi-Task Multi-View Clustering for Non-Negative Data
[2014] Novel Density-Based Clustering Algorithms for Uncertain Data
前面的东西都知道,后面有多任务,多视图两种,还有一点点迁移学习。。图聚类比较糙。。挺好的基础书,了解个大概再去读论文。。。没找到比这本书更好更全面的了。。
评分前面的东西都知道,后面有多任务,多视图两种,还有一点点迁移学习。。图聚类比较糙。。挺好的基础书,了解个大概再去读论文。。。没找到比这本书更好更全面的了。。
评分聚类分析的必读中文书籍。
评分聚类分析的必读中文书籍。
评分聚类分析的必读中文书籍。
评分
评分
评分
评分
数据聚类(精) pdf epub mobi txt 电子书 下载 2024