所有分类
  • 所有分类
  • 机械工业
  • 人民邮电
  • 清华大学
  • 电子工业

社交大数据挖掘

社交大数据挖掘插图

社交大数据挖掘封面

作者: [日]石川博
出版社: 机械工业出版社
副标题: Social Big Data Mining
译者: 郎为民 / 陈晓坤 / 和湘 / 姜斌
出版年: 2017-8
定价: 59.00元
丛书: 国际信息工程先进技术译丛
ISBN: 9787111577225

本书紧紧围绕社交媒体中的大数据问题, 系统介绍了社交大数据的基本概念以及相关的大数据处理技术, 重点介绍了网页和媒体的大数据挖掘。 全书共分为 14 章, 总体上可以分为三部分: 第一部分包括第 1 章和第 2 章, 介绍了社交大数据的基本概念和内涵, 明晰了社交大数据与一般大数据的区别; 第二部分为第 3 章至第 9 章, 介绍了大数据处理中涉及的基本概念和技术方法, 包括假设的定义、 通过数据挖掘提出假设的方法,以及假设验证的分析方法; 第三部分为第 10 章至第 14 章, 详细介绍了社交大数据中的网页和媒体数据挖掘技术、 自然语言处理技术, 以及社交大数据的应用。 本书体系结构完整, 内容关注于具有鲜明特色的社交媒体大数据, 行文通俗易懂, 同时兼具较好的理论参考价值、 实用性和指导性。本书可为具有一定相关专业基础、 对大数据感兴趣的师生、 工程师及其他专业人士提供参考。

目 录
译者序
原书前言
第 1 章 社交媒体 ……………………… 1
1. 1 什么是社交媒体 ……………… 1
1. 2 代表性社交媒体 ……………… 2
1. 2. 1 Twitter ……………………… 2
1. 2. 2 Flickr ………………………… 4
1. 2. 3 YouTube ……………………… 5
1. 2. 4 Facebook …………………… 7
1. 2. 5 维基百科 …………………… 8
1. 2. 6 通用网络 …………………… 10
1. 2. 7 其他社交媒体 ……………… 11
参考文献 …………………………… 11
第 2 章 大数据和社交数据 ………… 13
2. 1 大数据 ………………………… 13
2. 2 物理真实世界与社交媒体
的交互 ………………………… 15
2. 3 集成框架 ……………………… 17
2. 4 交互的建模和分析…………… 19
2. 5 元分析模型———概念层……… 21
2. 5. 1 面向对象的集成分析模型…… 21
2. 5. 2 原始案例 …………………… 24
2. 6 假设的生成和验
证———逻辑层 ………………… 25
2. 6. 1 多变量分析 ………………… 25
2. 6. 2 数据挖掘 …………………… 25
2. 6. 3 发现和识别影响 …………… 25
2. 6. 4 影响的定量测量 …………… 26
2. 7 兴趣回顾———互动挖掘……… 27
2. 8 分布式并行计算框架………… 28
2. 8. 1 NoSQL ……………………… 28
2. 8. 2 MapReduce———一种并行分布
式计算的机制 ……………… 30
2. 8. 3 Hadoop ……………………… 31
参考文献 …………………………… 33
第 3 章 大数据时代的假设 ………… 34
3. 1 什么是假设 …………………… 34
3. 2 数据采样 ……………………… 36
3. 3 假设验证 ……………………… 36
3. 4 假设构建 ……………………… 37
3. 4. 1 归纳法 ……………………… 37
3. 4. 2 推理 ………………………… 38
3. 4. 3 可信推理 …………………… 39
3. 4. 4 不明推论式 ………………… 40
3. 4. 5 相关性 ……………………… 40
3. 4. 6 因果关系 …………………… 41
3. 4. 7 类比 ………………………… 43
3. 4. 8 传递定律 …………………… 44
3. 5 假设的粒度 …………………… 44
3. 6 对假设的重新审视…………… 45
参考文献 …………………………… 46
第 4 章 社交大数据应用 …………… 47
4. 1 普通网页与社交媒体之间
作为分析主体的差异………… 47
4. 2 基于要素的社交媒体应用
分类 …………………………… 48
4. 3 基于目标的社交媒体应用
分类 …………………………… 49
4. 4 通过 MiPS 模型描述模型 …… 51
4. 4. 1 简单例子 …………………… 51
4. 4. 2 更复杂的例子 ……………… 55
4. 4. 3 伪相关关系 ………………… 57
4. 5 展望 …………………………… 59
参考文献 …………………………… 60
第 5 章 数据挖掘中的基本概念 …… 61
5. 1 什么是数据挖掘 ……………… 61
5. 2 技术问题和相关技术………… 62
5. 3 数据挖掘任务 ………………… 63
5. 4 基本数据结构 ………………… 64
5. 5 数据质量 ……………………… 67
参考文献 …………………………… 68
第 6 章 关联规则挖掘 ……………… 69
6. 1 关联分析的应用 ……………… 69
6. 2 基本概念 ……………………… 70
6. 3 各种关联规则 ………………… 71
6. 4 Apriori 算法的概述…………… 72
6. 5 生成关联规则 ………………… 76
参考文献 …………………………… 77
第 7 章 聚类 ………………………… 78
7. 1 应用 …………………………… 78
7. 2 数据结构 ……………………… 78
7. 3 距离 …………………………… 79
7. 4 聚类算法 ……………………… 80
7. 5 基于分区的集群 ……………… 81
7. 6 分层聚类 ……………………… 83
7. 7 聚类结果的评价 ……………… 86
参考文献 …………………………… 87
第 8 章 分类 ………………………… 88
8. 1 动机 …………………………… 88
8. 2 分类任务 ……………………… 88
8. 3 决策树归纳 …………………… 89
8. 4 测量属性选择 ………………… 90
8. 5 创建分类规则 ………………… 92
8. 6 扩展基本算法 ………………… 92
8. 7 模型精度 ……………………… 92
8. 8 提高精度 ……………………… 93
8. 9 其他模型 ……………………… 93
参考文献 …………………………… 95
第 9 章 预测 ………………………… 96
9. 1 预测和分类 …………………… 96
9. 2 预测模型 ……………………… 97
9. 2. 1 多元回归模型 ……………… 97
9. 2. 2 非线性函数的变换 ………… 97
9. 2. 3 路径分析模型 ……………… 98
9. 2. 4 多指标模型 ………………… 99
9. 2. 5 因子分析模型……………… 100
9. 2. 6 因子的旋转………………… 100
9. 2. 7 结构方程模型研究 ………… 101
9. 2. 8 因子修正或降维 …………… 103
参考文献 ………………………… 104
第 10 章 Web 结构挖掘 …………… 105
10. 1 Web 挖掘 …………………… 105
10. 2 结构挖掘 …………………… 106
10. 2. 1 文献计量学 ……………… 106
10. 2. 2 引用参考数据库和影响
因子 ……………………… 106
10. 2. 3 h 指数———学术研究者
的价值 …………………… 108
10. 2. 4 声望 ……………………… 110
10. 2. 5 PageRank ………………… 110
10. 2. 6 HITS …………………… 113
参考文献 ………………………… 115
第 11 章 Web 内容挖掘 …………… 116
11. 1 搜索引擎 …………………… 116
11. 1. 1 网页抓取 ………………… 117
11. 1. 2 索引网页 ………………… 118
11. 1. 3 网页排名 ………………… 120
11. 2 信息检索技术 ……………… 121
Ⅷ 社交大数据挖掘
11. 2. 1 特征 ……………………… 121
11. 2. 2 向量空间模型 …………… 121
11. 2. 3 查询结果的准确性 ……… 122
11. 2. 4 其他问题 ………………… 123
11. 3 网页分类 …………………… 125
11. 3. 1 支持向量机 ……………… 125
11. 3. 2 k 最近邻算法 …………… 125
11. 3. 3 朴素贝叶斯 ……………… 126
11. 4 网页聚类 …………………… 127
11. 5 微博总结 …………………… 128
参考文献 …………………………… 129
第 12 章 Web 访问日志挖掘 信息提
取 深层 Web 挖掘……… 130
12. 1 Web 访问日志挖掘………… 130
12. 1. 1 访问日志挖掘和推荐 …… 130
12. 1. 2 聚类访问模式 …………… 132
12. 1. 3 合作滤波和 Web 个性化 … 133
12. 2 信息提取 …………………… 134
12. 2. 1 信息提取中的任务 ……… 134
12. 2. 2 信息提取中的问题 ……… 135
12. 2. 3 信息提取方法 …………… 136
12. 3 Web 深层挖掘……………… 137
参考文献 …………………………… 139
第 13 章 媒体挖掘 ………………… 141
13. 1 XML 挖掘…………………… 141
13. 1. 1 挖掘 XML ………………… 141
13. 1. 2 XML 结构挖掘 …………… 142
13. 1. 3 XML 内容挖掘 …………… 146
13. 2 挖掘更普遍的结构………… 147
13. 3 多媒体数据挖掘 …………… 152
13. 4 流数据挖掘 ………………… 154
13. 4. 1 基本技术 ………………… 154
13. 4. 2 数据挖掘任务 …………… 155
参考文献 …………………………… 157
第 14 章 可扩展性和异常检测 …… 160
14. 1 关联分析的可扩展性……… 160
14. 1. 1 不共享内存 ……………… 160
14. 1. 2 共享内存 ………………… 161
14. 2 聚类可扩展性的方法……… 161
14. 2. 1 分层方法 ………………… 161
14. 2. 2 基于密度的聚类 ………… 162
14. 2. 3 图聚类 …………………… 165
14. 3 分类和其他任务的可
扩展性 ……………………… 167
14. 4 异常值检测 ………………… 168
参考文献 …………………………… 169
附录 …………………………………… 171
附录 A 在大数据时代数据
科学家所需的能力
和专业知识 ……………… 171
附录 B 关于结构、 内容和
访问日志挖掘技术
之间关系的备注 ………… 172

0

评论0

请先

显示验证码
没有账号? 注册  忘记密码?

社交账号快速登录

微信扫一扫关注
如已关注,请回复“登录”二字获取验证码