数据

什么是数据?

数据是一系列对象及他们的属性的集合

  • 属性指对象的特征
  • 一个属性的集合描述一个对象

结构化数据和非结构化数据

结构化数据:
结构定义完整,具有数据模型,可以使用二维表表示
(传统的关系数据模型、行数据,存储于数据库)

非结构化数据:
没有很好的定义结构,不可以用数据模型或二维表表示
(类似XML、HTML之类,自描述,数据结构和内容混杂在一起)

半结构化数据:
部分定义良好,没有数据模型
(各种文档、图片、视频/音频等)

数据属性

属性分为数值型符号型

属性和属性意义的关系

  • 相同的属性可能有不同的意义
    • 高度属性可以用英寸也可以用米衡量
  • 不同的属性可能有相同的意义
    • 外键到id

数据集的类型

  • 记录
    • 数据矩阵
    • 文本
    • 万维网
  • 序列
    • 时间数据
    • 时序数据

数据库

什么是数据库

数据库是数据的集合,通常用来描述数据之前的组织关系

  • 数据库的大小和复杂度都是任意的

数据库是数据存储的抽象 - 它隐藏了数据的存储和维护细节

  • 物理层:数据如何存储
  • 逻辑层:数据对象的意义及对象之间的逻辑关系
  • 视图层:将数据展现给使用者

数据模型

  • ER模型
    • 主要用于数据库设计
  • 基于对象数据模型
    • 面向对象
    • 面向关系
  • 半结构化数据模型
    • XML
  • 其它
    • 网络模型
    • 层次模型

SQL - 数据库查询数据的语言

数据库设计

  • 逻辑设计 : 寻找数据的基础模型,反映业务逻辑
  • 物理设计 : 设计数据库的物理结构,选择RDBMS,设计数据库的存储方式

存储管理

  • 链接物理存储与应用之间的接口
    • 高效存储
    • 与文件管理接口接触

事务管理

  • 事务是一个逻辑功能下一系列操作的集合
  • 确保及时系统失效,数据仍能保持在一个正确的状态

存储过程

  • 解析SQL并建立事务
  • 优化
  • 执行请求

大数据

大数据的含义

大数据是一种资源,大数据是一门技术,大数据是一个产业,大数据是一种思维

大数据4V特性

  • Volume 体量
    • 非结构化数据的超大规模增长,占总数据量的80%~90%
    • PB是大数据层次的临界点
  • Variety 多样性
    • 异构和多样性
    • 形式不同(文本、图像、视频等)
    • 能够在不同的数据类型中进行交叉分析
  • Value 价值密度
    • 大量不相关信息
    • 价值密度低
  • Velocity 速度
    • 实时分析而非批量式分析
    • 实时处理的要求,是大数据和传统数据仓库技术的关键差别之一

大数据金融

大数据金融是指依托于海量、非结构化的数据,通过互联网、云计算等信息化方式对其数据进行专业化的挖掘和分析,并与传统金融服务相结合,创新性开展相关资金融通工作的统称。

数据挖掘

什么是数据挖掘

数据挖掘有很多定义

  • 从海量数据中提取隐藏的、先前未知的、具有潜在价值的数据
  • 通过自动或半自动化的方法,发掘和分析海量数据中有意义的部分

数据查询和数据挖掘的区别

  • 查询方式的区别
    • 数据查询通过SQL,查询预先定义好的数据
    • 数据挖掘并没有查询语言或数据定义
  • 可操作性
    • 数据查询的数据可操作,数据挖掘的数据不可操作
  • 输出
    • 数据查询的结果是精确的,输出的是数据库的子集
    • 数据挖掘的结果是模糊的,并不是数据库的子集
    • 举例
      • Find all credit applicants with last name of Smith.
      • Find all credit applicants who are with poor credit risks. (classification)
      • Identify customers with similar buying habits. (Clustering)
      • Find all items which are frequently purchased with milk. (association rules)

数据挖掘算法

  • Classification
    1. C4.5.
    2. CART.
    3. K Nearest Neighbours (kNN)
    4. Naive Bayes Hand
  • Statistical Learning
    5. SVM
    6. EM
    7. Apriori
    8. FP-Tree
  • Link Mining
    9. PageRank
    10. HITS
  • Clustering
    11. K-Means
    12. BIRCH
    13. AdaBoost
  • Sequential Patterns
    14. GSP
    15. PrefixSpan
  • Integrated Mining
    16. CBA
  • Rough Sets
    17. Finding reduct
  • Graph Mining
    18. gSpan

数据预处理

不合格的数据会导致错误的挖掘结果

  • 获取到的数据往往是脏数据
    • 不完整的数据
      • 不同时期获取的数据
      • 人为或软硬件故障导致
    • 错误的数据(噪声)
      • 数据收集中的故障
      • 人为或计算机错误
      • 数据传输中的错误
    • 不一致的数据
      • 不同数据源
      • 违规操作数据
    • 重复的数据

个性化推荐算法

个性化推荐为什么要实时

  • 个性化因素的变化
  • 用户需求的不同和不断变化

个性化搜索

  • 用户档案
    • 分析表面的行为,生成用户档案,进而生成未来点击的页面
  • 个性化算法
    • 在搜索结果融入个性化的排名

怎样收集用户数据

  • 从商品的角度收集
    • 用户的评论、打分、投诉等
  • 从用户的角度收集
    • 用户的主观的关于多个商品的相关信息

收集数据的粒度处理

  • 原始数据的收集粒度
    • 地址:国家、省、市、街道

数据应用例子

  • 记录用户的购物流程
    • 搜索记录
    • 商品浏览记录
    • 购买记录
  • 通过其它用户的购买行为进行推荐
    • 其他人都看了什么、买了什么
  • 通过活动来吸引用户说出喜好和需求

一些有价值的数据举例

  1. 基于用户特征信息的用户细分;
  2. 基于用户的个性化页面设置;
  3. 基于用户行为数据的商品推荐;
  4. 基于用户的个性化搜索;
  5. 基于用户兴趣的定向营销;
  6. 用户有购买倾向却未购买原因分析;
  7. 文本挖掘技术和聚类模型分析的商品自动分类;
  8. 用户访问兴趣聚类;
  9. 用户等级自动分类;
  10. 商品用途和用户需求匹配分析;
  11. 新产品推广预测分析;
  12. 用户购买行为预测;
  13. 用户购买力判断

基于内容的个性化推荐

  • 特点
    • 推荐用户过去倾向于选择的东西
    • 核心是用户档案
    • 数据通过通过关键词表示
    • 多维向量空间广泛使用
  • 不足
    • 关键词所能表述的内容有限
    • 相同特征所描述的物品难以区分
    • 过多的数据(购买物品宽泛)也会导致问题
    • 冷启动问题(新用户没有历史数据,新物品也没有标签)

协同过滤的方法

  • 特点
    • 通过先前其它用户的标注为新的用户推荐
    • 重点在于发现用户和用户群之间的匹配关系
    • 用户越多结果越准确
  • 不足
    • 不同用户的衡量尺度难以统一
    • 相似的用户(群组)较难发现
    • 冷启动问题(新的用户没有偏好,新的物品也没有评价)
  • 具体算法
    • k-nearest neighbor,
    • association rules based prediction, and
    • matrix factorization
  • 协同过滤的类型

关联规则过滤

通过挖掘物品之间的关联,为用户做出推荐

混合推荐算法

将基于内容和协同过滤的方法相结合,通过基于内容的方法完善协同过滤所需要的数据。

推荐算法的过程

  1. 测量商品在商品组中的分数
  2. 测量用户在用户组中的分数
  3. 获得推荐分数
  4. 通过推荐分数预测用户是否会购买商品

推荐系统中的关键问题

  • 冷启动问题
    • 缺少用户购买、浏览记录等数据
    • 无法进行用户对商品喜好的预测
  • 单次推荐结果的多样化
    • 在单次推荐中避免商品的单一
    • 应全面考虑用户喜好(可能购买商品)的多样性
  • 多次推荐结果的时序多样化
    • 每次推荐的结果都一样会导致用户失去对推荐系统的信心
    • 用户对某个商品的需求是有时间周期的
    • 商品有使用寿命
  • 不同情境下的推荐
    • 不同情境下用户对同一个问题所持观点和考虑角度可能不一样
    • 实现比较困难:用户情境的获得
    • 可变性和复杂性:购买行为的动机、预算、使用环境等等
  • 所推荐Top-K商品的选择
    • 推荐系统只能返回有限个推荐结果给用户
    • 考虑多样化问题
    • 考虑推荐商品的排序
  • 推荐结果的显示
    • 有限(用户感兴趣的)属性的选取:性能、外观图片、价格。
    • 推荐结果出现的位置和时机
  • 避免大错误推荐
  • 用户的个性化信息的收集和profile的构建
    • 评价
    • 标签
    • 重复浏览记录
    • 购买记录
    • 浏览记录
    • 搜索记录
    • 购买力
    • 个人基本数据:年龄、性别、国籍、教育程度等
    • 用户喜好的时序迁移
  • 用户社区信息的利用
    • 用户在互联网上显式地或隐式地形成不同的社区,某个公司、喜欢某个明星、购买无敌兔等
    • 兴趣社区内的用户有相似的喜好,对喜好的商品有类似的观点
    • 提供更准确的信息过滤
  • 推荐的响应时间
    • 用户无法忍受长时间的等待
    • 不耐其烦的推荐也不可取
  • Email主动推荐
    • 吸引和重新激活不活跃用户
    • 主动提供新资讯
  • 用户信息缺失、需求模糊情况下的推荐
    • 用户对网站不熟悉
    • 用户对商品不熟悉
    • 用户需求模糊,如只知道买手机,更多的功能不了解;
  • 推荐结果的解释
    • 让用户有购买和比较的理由
    • 增强用户购买的欲望
    • 从用户反馈可以更准确地找出推荐成功或失败的原因

总结

  • 推荐系统是一个针对商品领域、商家和用户的个性化系统
    • 没有“万金油”推荐方法
    • 需要和电子商务网站本身紧密结合
  • 个性化推荐、个性化搜索和数据挖掘在电子商务网站中的整合
    • 推荐是被动地接受商家的商品信息
    • 搜索是主动地寻找其需求的行为
    • 数据的挖掘可以更好地给这两者提供更多更准确的信息
  • 推荐系统的复杂性
    • 是一个螺旋式上升的过程

语义网络

与传统网络的区别

  • 资源含义和链接意义不同
  • 是否需要人工操作

资源描述框架

  • 资源描述框架用于描述和互换资源
  • 提供机器学习的功能

资源描述框架的schema

  • 提供对资源更高级别的描述
  • 限制
    • 没有数据类型的标准
    • 没有关系描述的标准
    • 没有比较数据的标准