数据分析 - liudan111/- GitHub Wiki

Welcome to the – wiki!

1.机器学习回归篇-多元线性回归
https://blog.csdn.net/ewfwewef/article/details/53054694
多元线性回归分析的优缺点
优点：
　　*1、回归分析法在分析多因素模型时，更加简单和方便；
　　*2、运用回归模型，只要采用的模型和数据相同，通过标准的统计方法可以计算出唯一的结果，但在图和表的形式中，数据之间关系的解释往往因人而异，不同分析者画出的拟合曲线很可能也是不一样的；
　　*3、回归分析可以准确地计量各个因素之间的相关程度与回归拟合程度的高低，提高预测方程式的效果；在回归分析法时，由于实际一个变量仅受单个因素的影响的情况极少，要注意模式的适合范围，所以一元回归分析法适用确实存在一个对因变量影响作用明显高于其他因素的变量是使用。多元回归分析法比较适用于实际经济问题，受多因素综合影响时使用。
缺点：
　　有时候在回归分析中，选用何种因子和该因子采用何种表达式只是一种推测，这影响了用电因子的多样性和某些因子的不可测性，使得回归分析在某些情况下受到限制。
2.（机器学习理论）请描述推荐系统中协同过滤算法的原理
*一、协同过滤算法描述
目前用的比较多、比较成熟的推荐算法是协同过滤（Collaborative Filtering，简称CF）推荐算法，CF的基本思想是根据用户之前的喜好以及其他兴趣相近的用户的选择来给用户推荐物品。
协同过滤算法，主要的功能是预测和推荐。通过对用户历史行为数据的挖掘发现用户的偏好，基于不同的偏好对用户进行群组划分并推荐品味相似的商品。
（1）一类为基于memory的（Memory-based）
包括：
1. 1.基于用户的协同过滤算法（user-based collaboratIve filtering）：
  基于用户的协同过滤算法是通过用户的历史行为数据发现用户对商品或内容的喜欢(如商品购买，收藏，内容评论或分享)，并对这些喜好进行度量和打分。根据不同用户对相同商品或内容的态度和偏好程度计算用户之间的关系。在有相同喜好的用户间进行商品推荐。
2. User-based算法存在两个重大问题：
  （1）. 数据稀疏性。一个大型的电子商务推荐系统一般有非常多的物品，用户可能买的其中不到1%的物品，不同用户之间买的物品重叠性较低，导致算法无法找到一个用户的邻居，即偏好相似的用户。
  （2）. 算法扩展性。最近邻居算法的计算量随着用户和物品数量的增加而增加，不适合数据量大的情况使用。
3. 2.基于物品的协同过滤算法（item-based collaborative filtering）
  Iterm-based的基本思想是预先根据所有用户的历史偏好数据计算物品之间的相似性，然后把与用户喜欢的物品相类似的物品推荐给用户。

因为物品直接的相似性相对比较固定，所以可以预先在线下计算好不同物品之间的相似度，把结果存在表中，当推荐时进行查表，计算用户

可能的打分值，可以同时解决上面user-based 两个问题。

Item-based算法详细过程：
1. （1）相似度计算
  Item-based算法首选计算物品之间的相似度，计算相似度的方法有以下几种：
1. 基于余弦（Cosine-based）的相似度计算：
2. 基于关联（Correlation-based）的相似度计算，计算两个向量之间的Pearson-r关联度

其中Ru,i表示用户u对物品i的打分,Ri表示第i个物品打分的平均值。
（2）另一类为基于Model的（Model-based），包括Aspect Model，pLSA，LDA，聚类，SVD，Matrix Factorization等，这种方法训练过程比较长，但是训练完成后，推荐过程比较快。

结果得出结论：1. Item-based算法的预测结果比User-based算法的质量要高一点。2. 由于Item-based算法可以预先计算好物品的相似度，所以在线的预测性能要比User-based算法的高。3. 用物品的一个小部分子集也可以得到高质量的预测结果。

数据分析 - liudan111/- GitHub Wiki

⚠️ **GitHub.com Fallback** ⚠️

⚠️ GitHub.com Fallback ⚠️