数据

什么是数据？

数据是一系列对象及他们的属性的集合

属性指对象的特征
一个属性的集合描述一个对象

结构化数据和非结构化数据

结构化数据：
结构定义完整，具有数据模型，可以使用二维表表示
（传统的关系数据模型、行数据，存储于数据库）

非结构化数据：
没有很好的定义结构，不可以用数据模型或二维表表示
（类似XML、HTML之类，自描述，数据结构和内容混杂在一起）

半结构化数据：
部分定义良好，没有数据模型
（各种文档、图片、视频/音频等）

数据属性

属性分为数值型和符号型

属性和属性意义的关系

相同的属性可能有不同的意义
- 高度属性可以用英寸也可以用米衡量
不同的属性可能有相同的意义
- 外键到id

数据集的类型

记录
- 数据矩阵
- 文本
图
- 万维网
序列
- 时间数据
- 时序数据

数据库

什么是数据库

数据库是数据的集合，通常用来描述数据之前的组织关系

数据库的大小和复杂度都是任意的

数据库是数据存储的抽象 - 它隐藏了数据的存储和维护细节

物理层：数据如何存储
逻辑层：数据对象的意义及对象之间的逻辑关系
视图层：将数据展现给使用者

数据模型

ER模型
- 主要用于数据库设计
基于对象数据模型
- 面向对象
- 面向关系
半结构化数据模型
- XML
其它
- 网络模型
- 层次模型

SQL - 数据库查询数据的语言

数据库设计

逻辑设计：寻找数据的基础模型，反映业务逻辑
物理设计：设计数据库的物理结构，选择RDBMS，设计数据库的存储方式

存储管理

链接物理存储与应用之间的接口
- 高效存储
- 与文件管理接口接触

事务管理

事务是一个逻辑功能下一系列操作的集合
确保及时系统失效，数据仍能保持在一个正确的状态

存储过程

解析SQL并建立事务
优化
执行请求

大数据

大数据的含义

大数据是一种资源，大数据是一门技术，大数据是一个产业，大数据是一种思维

大数据4V特性

Volume 体量
- 非结构化数据的超大规模增长，占总数据量的80%~90%
- PB是大数据层次的临界点
Variety 多样性
- 异构和多样性
- 形式不同（文本、图像、视频等）
- 能够在不同的数据类型中进行交叉分析
Value 价值密度
- 大量不相关信息
- 价值密度低
Velocity 速度
- 实时分析而非批量式分析
- 实时处理的要求，是大数据和传统数据仓库技术的关键差别之一

大数据金融

大数据金融是指依托于海量、非结构化的数据，通过互联网、云计算等信息化方式对其数据进行专业化的挖掘和分析，并与传统金融服务相结合，创新性开展相关资金融通工作的统称。

数据挖掘

什么是数据挖掘

数据挖掘有很多定义

从海量数据中提取隐藏的、先前未知的、具有潜在价值的数据
通过自动或半自动化的方法，发掘和分析海量数据中有意义的部分

数据查询和数据挖掘的区别

查询方式的区别
- 数据查询通过SQL，查询预先定义好的数据
- 数据挖掘并没有查询语言或数据定义
可操作性
- 数据查询的数据可操作，数据挖掘的数据不可操作
输出
- 数据查询的结果是精确的，输出的是数据库的子集
- 数据挖掘的结果是模糊的，并不是数据库的子集
- 举例
  - Find all credit applicants with last name of Smith.
  - Find all credit applicants who are with poor credit risks. (classification)
  - Identify customers with similar buying habits. (Clustering)
  - Find all items which are frequently purchased with milk. (association rules)

数据挖掘算法

Classification
1. C4.5.
2. CART.
3. K Nearest Neighbours (kNN)
4. Naive Bayes Hand
Statistical Learning
5. SVM
6. EM
7. Apriori
8. FP-Tree
Link Mining
9. PageRank
10. HITS
Clustering
11. K-Means
12. BIRCH
13. AdaBoost
Sequential Patterns
14. GSP
15. PrefixSpan
Integrated Mining
16. CBA
Rough Sets
17. Finding reduct
Graph Mining
18. gSpan

数据预处理

不合格的数据会导致错误的挖掘结果

获取到的数据往往是脏数据
- 不完整的数据
  - 不同时期获取的数据
  - 人为或软硬件故障导致
- 错误的数据（噪声）
  - 数据收集中的故障
  - 人为或计算机错误
  - 数据传输中的错误
- 不一致的数据
  - 不同数据源
  - 违规操作数据
- 重复的数据

个性化推荐算法

个性化推荐为什么要实时

个性化因素的变化
用户需求的不同和不断变化

个性化搜索

用户档案
- 分析表面的行为，生成用户档案，进而生成未来点击的页面
个性化算法
- 在搜索结果融入个性化的排名

怎样收集用户数据

从商品的角度收集
- 用户的评论、打分、投诉等
从用户的角度收集
- 用户的主观的关于多个商品的相关信息

收集数据的粒度处理

原始数据的收集粒度
- 地址：国家、省、市、街道

数据应用例子

记录用户的购物流程
- 搜索记录
- 商品浏览记录
- 购买记录
通过其它用户的购买行为进行推荐
- 其他人都看了什么、买了什么
通过活动来吸引用户说出喜好和需求

一些有价值的数据举例

基于用户特征信息的用户细分；
基于用户的个性化页面设置；
基于用户行为数据的商品推荐；
基于用户的个性化搜索；
基于用户兴趣的定向营销；
用户有购买倾向却未购买原因分析；
文本挖掘技术和聚类模型分析的商品自动分类；
用户访问兴趣聚类；
用户等级自动分类；
商品用途和用户需求匹配分析；
新产品推广预测分析；
用户购买行为预测；
用户购买力判断

基于内容的个性化推荐

特点
- 推荐用户过去倾向于选择的东西
- 核心是用户档案
- 数据通过通过关键词表示
- 多维向量空间广泛使用
不足
- 关键词所能表述的内容有限
- 相同特征所描述的物品难以区分
- 过多的数据（购买物品宽泛）也会导致问题
- 冷启动问题（新用户没有历史数据，新物品也没有标签）

协同过滤的方法

特点
- 通过先前其它用户的标注为新的用户推荐
- 重点在于发现用户和用户群之间的匹配关系
- 用户越多结果越准确
不足
- 不同用户的衡量尺度难以统一
- 相似的用户（群组）较难发现
- 冷启动问题（新的用户没有偏好，新的物品也没有评价）
具体算法
- k-nearest neighbor,
- association rules based prediction, and
- matrix factorization
协同过滤的类型
- 用户与用户相关联
  - 相似的用户对相同的商品往往都会好评
- 商品与商品关联
  - 相似的商品，都可能获得相同用户的好评
- 参考网址
  - 协同过滤两种类型算法的解释
  - 协同过滤公式的解释

关联规则过滤

通过挖掘物品之间的关联，为用户做出推荐

混合推荐算法

将基于内容和协同过滤的方法相结合，通过基于内容的方法完善协同过滤所需要的数据。

推荐算法的过程

测量商品在商品组中的分数
测量用户在用户组中的分数
获得推荐分数
通过推荐分数预测用户是否会购买商品

推荐系统中的关键问题

冷启动问题
- 缺少用户购买、浏览记录等数据
- 无法进行用户对商品喜好的预测
单次推荐结果的多样化
- 在单次推荐中避免商品的单一
- 应全面考虑用户喜好（可能购买商品）的多样性
多次推荐结果的时序多样化
- 每次推荐的结果都一样会导致用户失去对推荐系统的信心
- 用户对某个商品的需求是有时间周期的
- 商品有使用寿命
不同情境下的推荐
- 不同情境下用户对同一个问题所持观点和考虑角度可能不一样
- 实现比较困难：用户情境的获得
- 可变性和复杂性：购买行为的动机、预算、使用环境等等
所推荐Top-K商品的选择
- 推荐系统只能返回有限个推荐结果给用户
- 考虑多样化问题
- 考虑推荐商品的排序
推荐结果的显示
- 有限（用户感兴趣的）属性的选取：性能、外观图片、价格。
- 推荐结果出现的位置和时机
避免大错误推荐
用户的个性化信息的收集和profile的构建
- 评价
- 标签
- 重复浏览记录
- 购买记录
- 浏览记录
- 搜索记录
- 购买力
- 个人基本数据：年龄、性别、国籍、教育程度等
- 用户喜好的时序迁移
用户社区信息的利用
- 用户在互联网上显式地或隐式地形成不同的社区，某个公司、喜欢某个明星、购买无敌兔等
- 兴趣社区内的用户有相似的喜好，对喜好的商品有类似的观点
- 提供更准确的信息过滤
推荐的响应时间
- 用户无法忍受长时间的等待
- 不耐其烦的推荐也不可取
Email主动推荐
- 吸引和重新激活不活跃用户
- 主动提供新资讯
用户信息缺失、需求模糊情况下的推荐
- 用户对网站不熟悉
- 用户对商品不熟悉
- 用户需求模糊，如只知道买手机，更多的功能不了解；
推荐结果的解释
- 让用户有购买和比较的理由
- 增强用户购买的欲望
- 从用户反馈可以更准确地找出推荐成功或失败的原因

总结

推荐系统是一个针对商品领域、商家和用户的个性化系统
- 没有“万金油”推荐方法
- 需要和电子商务网站本身紧密结合
个性化推荐、个性化搜索和数据挖掘在电子商务网站中的整合
- 推荐是被动地接受商家的商品信息
- 搜索是主动地寻找其需求的行为
- 数据的挖掘可以更好地给这两者提供更多更准确的信息
推荐系统的复杂性
- 是一个螺旋式上升的过程

语义网络

与传统网络的区别

资源含义和链接意义不同
是否需要人工操作

资源描述框架

资源描述框架用于描述和互换资源
提供机器学习的功能

资源描述框架的schema

提供对资源更高级别的描述
限制
- 没有数据类型的标准
- 没有关系描述的标准
- 没有比较数据的标准

高级数据库复习整理

Kevin Zhang

Kevin Zhang

数据

数据库

大数据

数据挖掘

个性化推荐算法

语义网络

前端开发知识总结

DM6437 使用PRD操作VPFE和VPBE时视频帧异常问题修复

TI C64x+ IMGLIB 学习笔记