为建设并打造以球员、球队和赛事为核心的数据分析系统,在东京奥运会期间,中国篮球协会在中科人工智能创新技术研究院的支持下组建了专业的数据分析团队,首次推出奥运赛后数据报告——“数读篮球—奥运版”。(更多详情点这里)中国篮协微博也在奥运会期间,将五人制篮球和中国三人篮球的所有比赛数据报告呈现给了球迷们,供大家学习研究。
奥运会结束后,中国篮协官微采访了数据分析团队的老师们,来为我们答疑解惑。数据分析到底是一项怎么样的工作?一张数据分析报告都运用到了哪些技术?数据分析能起到什么作用?......一起来看看老师们是怎么说的吧~
1.能简单介绍下比赛数据分析这项工作吗?数据分析大致可以分为数据的选择、采集、整理、呈现以及使用这么几个步骤。
选择:我们需要知道哪些数据对于篮球比赛的分析是有价值的。幸运的是,21世纪头20年正是篮球数据分析蓬勃发展的20年,关于数据的选择已经有很多成型的方法可供参考。这些方法都是源自于国际上篮球强国篮球分析领域的多年研究成果,是通过实战检验、几经迭代且有一个完整逻辑闭环体系的,并不是凭空没有基础的“发明创造”。
采集:数据的采集分为两种类型,一种是FIBA及奥运官方已经有采的数据,包括比赛的传统技术统计,投篮点等等。这类数据我们通常是直接拿来使用,只有部分特别不可靠的,比如本届奥运,FIBA有时会把投篮位置点得非常不精准,举例来说,篮下出手和中距离把握是完全不一样的,如果这个数据有误差,会影响球队的攻防分析,导致球队乃至个人数据画像不精准,尤其是这场比赛的画像还需要在对比信息库里对比,准确度更为重要。才会进行二次采集并修正。另一种是FIBA及奥运官方没做采集的数据类型,而我们又认为对比赛分析有帮助的数据。这类数据我们会通过采集员,辅以专门定制的培训流程和采集标准核对着比赛录像进行采集。
整理:数据采集完需要对无用的数据进行清洗,比如出场时间过少的球员,几分钟内打出的数据随机性过高,就不宜进入对比信息库和同位置球员对比,有价值的数据归档后进行标准化计算。
呈现:数据整理完会以图或者表的形式呈现,方便理解和筛选。
使用:光有数据不会使用肯定不行。篮球比赛数据的每个单项都有适合自身的应用场景,有的需要几项放在一起综合解读才有更大价值。中国篮球技战术平台走的是技术与应用并重的路线,有多名对比赛理解深刻,具备常年解读篮球比赛经验,熟练掌握国际化分析方法的分析师团队。
数据报告图基本还是遵循上述几个步骤的。具体来说,我们在奥运会之前已经把需要选择和采集的数据项定好了,在发现FIBA及奥运会官方许多数据不够可靠时,也做了相应的调整,避免僵化地依赖官方采集。
由于奥运会的重要性,我们在采集环节还使用了二次监评机制:由最初制定采集标准的人员亲自对每场比赛的采集结果进行核对,确保准确率和采集员团队的良性成长。
在数据分析的过程中,需要付出大量的人力劳动,我们通过人工智能的介入,逐步减少人工的投入,提高数据分析的效率。比如,我们可以通过对篮球运行的轨迹的追踪、触碰篮圈、进球次数等状态,来确定进攻转换的次数,每回合的进攻时间。再进一步,通过对场上每个球员的轨迹、球员与篮球,球员与球员之间的接触,对场上的态势去做一些基本的判断。虽然目前机器算法并不能完全取代人,但在一些基本的,非常繁重、枯燥、重复的工作上,比如清洗无效数据,提取攻防片段,检测目标轨迹等方面已经完全能胜任。
同时,我们也在创建一种算法,该算法可以通过我们采集的基础技术统计、play by play(即比赛事件),球员进攻方式和高阶视频追踪数据等所有采集数据的汇入,主动生成多维度的,对球队和球员的能力、效率、状态等更深层次的数据,从而知道一场比赛中影响到最后的胜负的各类数据指标,球员的表现如何。比如本次奥运会我们就尝试运用这些算法对球员能力做出了相对精准的评价,将球员的个人直接表现、球员在场时候对攻防的影响力变化,球员不在场和在场时候的攻防变化、球员在攻防中做出的非传统技术统计的正负面贡献,都结合了起来。