本文系大数据人翻译
作者:亚瑟·弗拉姆,企业家,数据科学家。现在在ECI电信的CTO办公室试验新项目。
投稿邮箱:admin@bigdata.ren
小编微信:data985
数据科学是技术中最不明确的领域之一。可以这篇文章激励你接下来的采访,作为招聘人员或候选人!
招聘人员有工作要
访谈很困难,数据科学也是如此。每个公司对数据科学都有不同的看法。更糟的是,许多搞清楚自己想要什么时/后的招聘过程。
您作为招聘人员的责任是尽可能清楚地说明工作描述:您是否需要数据工程师,可视化专家,数据分析师,算法工程师或机器学习研究员?知道你想要什么,并及早过滤。
本文涉及“机器学习者”数据科学家。
这个工作的不确定性将使最好的候选人逃跑 - 除非你是Google / etc。他们会想知道已经建立了什么工具,他们的工作的投资回报率如何衡量,谁在团队中?
数据科学家有非常多样的背景。每次访问都不可能做好准备:他们应该学习“标准”计算机科学吗?统计?贝叶斯的东西?深入学习?机器学习?你公司的领域?
良好的候选人有许多主题的基础知识,动手实践,并在一些领域拥有丰富的知识。谈论那些如果你想进行技术讨论。一些例子:
问题类型:回归/分类/聚类/异常检测...
数据类型:计算机视觉/时间序列/ NLP /推荐...
复杂数据:维度降低,多元学习...
观点:深度学习/贝叶斯机器学习/图形模型...
专长:行业洞察/优化/数值方法...
具有行业经验的候选人应该有失败的项目。这些课程是必需品
我的意见是,“开放”1-1采访比写在室内测试更好。许多公司给出收购数据集并要求进行分析。它可以帮助显示谁是真实的!对于经验丰富的候选人,可以要求很多工作 - 询问他们的项目,或在Kaggle / Github上的存在。
尽管如此,许多话题似乎公平的游戏数据科学的采访。记住,目标是促进讨论:很少有一个独特的正确答案!
您正在讨论的任务有哪些算法存在?
他们什么时候好,足够好,良好的基准等
他们如何工作?它们如何扩展?他们的参数拟合如何进行优化?
你如何评价一个模特的表现?根据上下文,这可以导致关于假阳性/阴性,准确性,召回,AUC,升高的讨论...应该如何决定?
你如何选择最终的模型?性能?训练时间?评估速度?复杂?
了解交叉验证和偏差/方差是至关重要的。
你如何做变量和模型选择?您可以谈论基于信息的指标,正则化,稀疏性诱导方法,如L1正则化,前向/后向搜索...
你如何设计X?
你会对任务X做什么预处理?
不平衡数据怎么样?缺失数据?异常值
和高基数的分类变量?
如何处理大数据?谈论在线学习,地图/缩小,(迷你批次)随机梯度下降...
你知道什么工具/语言来实现X?你使用哪些,为什么?
你使用哪些可视化工具?为什么?
这是信仰的飞跃。您如何可靠地评估候选人对过去项目的参与,专业知识的广度,甚至在几个小时内与他们合作的能力?
不要害怕选择具有不同背景和经验水平的候选人。数据科学团队需要这个。如果你正在开始这样一个团队,就要依靠有专业知识的人:这是避免浪费时间的唯一办法。
联系客服