探索足球球员位置数据的多重对应分析

更新时间：2024-07-23 09:49:10 作者：金义直播

数据集

球员在场上的位置

数据来自 FIFA 15 电子游戏。该游戏对每个球员在游戏各个方面的能力进行了评级。最初，评级是定量变量（介于 0 到 100 之间），但我们将它们转换为分类变量（我们将在后面讨论为什么选择这样做）。所有能力都编码为 4 个位置：1. 低 / 2. 平均 / 3. 高 / 4. 非常高。

加载和准备数据

首先，我们将数据集加载到 data.frame 中。需要注意的是，需要添加因子。

第二行还将整数列转换为因子。

数据分析

我们的数据集包含分类变量。一种合适的数据分析方法是多重对应分析。

这将生成三个图：类别和球员在阶乘轴上的投影，以及变量的图形。让我们看看其中的第二张图：

在尝试进一步分析之前，我们应该注意一些事情。这里显然有两组玩家！

解释

显然，我们必须首先将分析简化为一定数量的阶乘轴。我最喜欢的选择轴数的方法是肘形法。我们绘制特征值：

> barplot（mca_no_gk $ eig $ eigenvalue）

特征值图

在第三或第四个特征值附近，我们观察到值下降（即 MCA 解释的方差百分比）。这意味着在我们的分析中保留一个轴的边际效益在第三或第四个之后会降低。因此，我们选择将分析减少到前三个因子轴（我们也可以证明选择 4 个轴是合理的）。现在让我们继续解释，从前两个轴开始：

> plot.MCA（mca_no_gk  ）

前两个因子轴上的投影

我们可以通过阅读图表上最具代表性的变量和模式的名称来开始分析。

第一个轴最具代表性的能力是轴右侧的能力较弱，而左侧的能力非常强。因此，我们的解释是轴 1 根据球员的进攻能力来区分球员（左侧进攻能力较好，右侧能力较弱）。我们对轴 2 进行同样的分析，并得出结论，它根据球员的防守能力来区分球员：防守较好的球员位于图表顶部，而防守较弱的球员位于图表底部。

补充变量也可以帮助确认我们的解释，特别是位置变量：

> plot.MCA（mca_no_gk，invisible = c（“ind”，“var”））

将补充变量投影到前两个因子轴上

事实上，我们在图表的左侧发现了进攻位置 (LW, ST, RW)，而在图表的上方发现了防守位置 (CB, LB, RB)。

如果我们的解释是正确的法甲联赛的特点，那么图表中第二条二元曲线上的投影可以代表球员的整体水平。最左边的球员位于左上角，而较弱的球员位于右下角。有很多方法可以检查这一点法甲联赛的特点，例如查看“整体”变量模式的投影。正如预期的那样，“”位于左上角，“”位于右下角。此外，在补充变量的图表中，我们观察到“法甲”位于左上角法甲联赛的特点，而“法乙”位于右下角。

> plot.MCA（mca_no_gk，invisible = c（“ind”，“var”），axes = c（2,3））

在第二和第三因子轴上投影变量

第三条轴线最具代表性的形式是技术弱点：技术能力（盘带、控球等）较低的球员位于轴线的两端，而这些能力表现最高的球员往往位于轴线的中心：

将补充变量投影到第二和第三因子轴上

我们注意到，借助补充变量，中场球员平均拥有最高的技术能力，而前锋（ST）和后卫（CB、LB、RB）似乎并不以控球技巧而闻名。

最后两行使用轴 1 和 2 上的图，然后是轴 2 和 3：

1 号和 2 号轴补充了

2 号和 3 号轴由

因此，似乎拥有良好的进攻技巧（左），但他的整体水平也不错（他在第二条 2 分线的投射相对较高）。他还位于 3 轴的中央，这表明他拥有良好的技术能力。因此，我们不应该惊讶于最适合他的位置（当然是统计上的！）是中场位置（CAM、LM、RM）。再加几行代码，我们还可以找到法国联赛中最相似的球员：

我们得到：、Frédé、、N'é 和 Ben。

点击标题查看往期内容

主成分分析（PCA）原理及其R语言实现和分析实例

偏最小二乘回归（PLSR）和主成分回归（PCR）

R语言中主成分PCA和t-SNE算法进行高维数据降维及可视化分析案例报告

使用Keras进行主成分分析和神经网络构建进行图像重建

R 中的岭回归、套索回归、主成分回归：线性模型选择和正则化

R 中的无监督学习：PCA 主成分分析可视化

WEKA中降维算法的应用

主题 LDA 建模和 t-SNE 可视化

主题建模可视化LDA和T-SNE交互式可视化

本文标签：足球比赛结果主成分分析