
上QQ阅读APP看书,第一时间看更新
1.8 评测指标
推荐算法的评测指标很多,针对推荐系统的侧重点不同,其评价标准也不尽相同。衡量算法的评分预测准确度时多采用平均绝对误差(Mean Absolute Error, MAE)和均方根误差(Root Mean Square Error, RMSE)指标;针对Top-N推荐的预测准确率时一般通过准确率(Precision)、召回率(Recall)度量F值(F-Measure)和P(u)@N指标。
推荐结果的召回率定义如式(1-18)所示。

推荐结果的精确率定义式(1-19)所示。

综合考虑精确率和召回率,将两者融合在一起形成F指标,定义式(1-20)所示。

Top-N推荐列表中的项目与测试集中评分最高项目的匹配度定义如式(1-21)所示。

为了衡量推荐系统发掘长尾的能力,使用覆盖率(Coverage)来计算系统所推荐的项目占项目集合的比例,这是商家最关心的指标,其定义如式(1-22)所示。

推荐列表Ru的多样性定义式(1-23)所示。

系统整体的多样性定义式(1-24)所示。

本书主要采用MAE和RMSE指标衡量评分预测准确度,MAE用来衡量推荐的精确率,能很好地反映预测值误差的实际情况。设在训练集上得到用户的预测评分集合为p={pu,1,pu,2,pu,3,…,pu,n},用户实际评分集合为r={ru,1,ru,2,ru,3,…,ru,n},通过计算两集合评分的差值来衡量推荐的精确率。MAE定义如式(1-25)所示。

RMSE同样用来衡量推荐的精确率,RMSE更侧重于预测评分与实际评分差值的绝对值,相对MAE加大了惩罚力度,RMSE值越小,则MAE值越小,推荐精确度越高。RMSE定义如式(1-26)所示。