由TalkingData主办的“全球算法大赛”于北京时间7月11日正式拉开帷幕,截至发稿日,全球共有超过1000支队伍,约1200名选手报名参赛,总计进行了8450次提交,其中包含了超过1700次代码公开以及大量分析成果(kernel)的展示,目前比赛仍在如火如荼的进行中。
在过去的三周时间里,令我们惊叹的不仅仅是选手对赛事的高度热情,更难能可贵的是他们在数据领域天马行空的想象力以及面对未知勇于开拓的创新精神。在1600多个Kernel中,我们看到了选手设计精良的可视化和多种算法的尝试。
本次大赛的挑战题目是通过移动设备行为数据来预测设备使用者的性别和年龄分组
以下图表均来自Kaggle中参赛选手贡献的Kernel,我们此处所做的分析和说明均来自选手所做的分析结果,对应话题的链接将在文章的末端给出。
比赛上线的第一周,大量精美的可视化视图便脱颖而出,帮助选手更快捷的了解数据。图1显示了设备活动轨迹所在位置变化,这位选手对海量设备进行了可视化。如图所示,大部分设备在中国活动,美国、欧洲、东南亚、印度等地也有不少的设备。
从图2可以看出,在中国,大部分设备集中在中东部,特别是东南沿海地区,设备的数量呈现相对较为密集的分布。
如图3所示,在北京地区,从设备“性别”整体上看,男性相较女性更多,两张图示在细节分布上也略有不同,主要体现在郊区,设备所呈现的“女性”比例分布明显比“男性”稀少。
图4为我们呈现了年龄和采集密度的分布,从左图来看,密云的最东边是个相对年轻的区域,城区的年龄基本在平均值范围内,在个别位置上呈现明显的老龄化。很可惜这张图把北京地区的名字隐去了,熟悉北京的小伙伴们,开启侦探模式,请告诉我们你的发现!
另一位选手则为我们展示了全国设备的分布情况,图5是年龄分布,虽然不出意外,这是年轻人的世界,然而我们发现在国境的边缘,特别是西南地区,有不少中老年人的设备,让人感慨国内智能设备的普及程度正在快速提升。
图5 全国采集设备采样点年龄分布
那么这些地方的人用什么设备呢,从图6看出,西南边境地区有一定数量的vivo、小米,然而在东部地区呈现明显绿色主导的品牌主要是华为和三星这两个大户,但这一区域整体的用户数量相对中部较少。
图7为我们展示的是性别方面的设备分布,尽管整体上男性设备数量大于女性设备数量,但是在中西部,特别是从西安往西一直延伸到乌鲁木齐,设备性别男女比例分布差距尤其明显。这个结果不排除是由于本次数据提供或者选手采样本身带来的偏差,但是引发了我们对不同地域手机用户性别分布比例的好奇。
品牌和机型是这次比赛一个特别重要的特征。从图8来看,年轻女性对于OPPO和vivo的偏爱非常明显,不同年龄段的女性对小米的偏好差别不大,在年轻的男性用户中很受欢迎,三星用户多为30岁以上的人群。
从机型的数据上来看,我们不难发现各个品牌在机型设计战略上的差异。小米只打少数几款机型,且使用量很高;魅族在这方面像是弱化版的小米;华为和三星的机型都很多,使用量也不错;vivo和OPPO这两款针对女性用户的品牌在这方面也很接近。
从用户占有率上看,大约90%的用户被市场上的十大品牌占有,剩余品牌只占百分之五的用户。从机型上来看,用户的兴趣偏好分散较多,80%的用户覆盖了200款不同的机型!
联系客服