宽潮组合课量化培训9月24日第3日学习笔记（峰回路转）

　　今天在非常安静的情况下，通过后台数据观察到大家的热心和期待，虽然是周末，依然给予我们很高的回应。

　　今天的讲师也比较给力，早晨讲解了matlab的一般应用，李洋老师已在某基金公司成为基金经理，对于matalb仅作为主要工具之一使用，对于策略的理解才是最深入的，下午重要嘉宾主要和民间资本合作，实际上已经构建了全品种对冲和超强的资金管理获利能力，晚上出乎意料两位大师，一位讲解套利交易中基本面分析的重要因素，另一位则是22岁已经管理3个亿资本的郑玉峰老（同）师（学）……

　　做好准备，老司机踩油门了。

　　早间课程

　　《matlab在量化投资中的具体应用》　李洋

　　首先讲解了如何快速学习matlab，然后介绍了一些使用matalb开发的策略模型。

　　然后展开讲解了一个open range breaker，也就是经典的RB经典策略。这个策略刚开始赚钱很容易。该模型使用开盘价，形成一个benchmark，目前的改良方法，是benchmark = open + n*ATR，上下轨类似。

　　李老师说：我这边的策略细节，也是benchmark做改良，我是在当天开盘价N分钟内，对价格求均值，我们用的是1分钟K线，然后生成上沿下沿，做突破操作。

　　很遗憾没能拍到李洋老师照片，虽然中午一起进餐竟然都忘记了，只能用他的书来替代了。

　　如果我们再抽象一层，这个benchmark是某些变量的函数，比如开盘价、昨日收盘价、波动率，上沿下沿的生成，应该是不一样的，跌容易，上涨难。各品种的多空状态，并不是很对称的。

　　比如我可以用一个值，来生成新的benchmark，这就是我们自己的RB，区别于其他团队。如果策略太相似，冲击成本会特别高。我们应该思考，这类策略为什么一直存货。

　　纵轴是频数，横轴是收益率。答案是：收益率分布肥尾（大家可以绘图分析，尖峰肥尾）。广发做过分析，上下沿用随机数生成，也是可以盈利的。

　　我们可以看一个跨期套利的案例，协整，ADF检验，得到价差。交易的时候，是对价差进行交易。模型不难，但是远月交易成本较高。还有跨市场跨品种套利，豆油和棕榈油，铜和锌。在matlab高级计量经济学工具箱，有一个协整检验。

　　matlab内置的函数可以进行K线绘制。还有技术指标，SMA、EMA（以指数式递减加权价格，递归方式来计算，越远离当下，权重外衰）。在未来计算大批量代码编写的时候，注意编程风格问题。AMA方面也值得使用，他的平滑系数，是用ER系数进行变化的。通过效率系数ER，可以给出曲线和震荡的定义。

　　AMA这部分量化投资训练营之前的夜报已经多次分析过。ER系数来自Kaufman的自适应均线系统。

　　步骤1：价格方向

　　价格方向被表示为整个时间段中的净价格变化。比如，使用n天的间隔（或n小时）：

　　direction = price – price[n];

　　其中，direction是当前价格差或方向数值，price是当前价格（当日收盘价或小时收盘价），price[n]是n日前的收盘价（或n个周期前）。

　　步骤2：波动性

　　波动性是市场噪音的总数量，它可以用许多不同的方法定义，但是这个计算使用了所有“日到日”或“小时到小时”的价格变化的总和（每一个都作为一个正数），在同样的n个周期上。

　　如下表达：

　　volatility = @sum(@abs(price – price[1]), n);

　　其中，volatility是指波动性数值，@abs是绝对值函数，@sum(value, n)是n个周期中的数值之和函数。

　　步骤3：效率系数（ER）

　　以上两个成分被组合起来，以表达方向移动对噪音之比，称之为效率系数，ER：

　　Efficiency_Ratio = direction/volativity;

　　用“方向性”除以“噪音”，该系数的值就从0到1变化。当市场在全部n日以同一方向移动时，则方向=波动性，效率系数=1。如果波动对于同样的价格移动是增加了，“波动性”就变得较大并且ER往小于1的方向移动。如果价格不变化，则方向=0，ER=0。

　　每一个技术指标，一定要了解背后的意义，然后使用。比如MACD等其他很多指标，其实你把均线梳理很透彻的情况下，会发现很多技术指标都是均线的再复合（我强烈认同该观点，并对此进行了长达一年多的分析）。

　　最后介绍了万德和大奖章接口，同花顺ifind接口，都是可以使用的。当公司创建初期，规模没上去的时候，建议先用第三方平台把产品跑起来，然后规模上去之后，可以自己开发平台。

　　接下来做一个基于matalb的交易品种分析。

　　比如PTA没有外盘，连续性很好，2013年制度修改存量资金少了，不好操作的了。我们给出两个方式进行定义：

流动性：

规则1：成交量/持仓量每一个时间截面（监控），给出全市场流动性排序，实战中，我们一般做一个N日平均处理，每一个月，半个月，进行调整。这个N周期，和你的策略持仓周期也有很直接的关系。

规则2：对于开始交易的品种，监控流动性实际走势，历史分布，左侧可以少交易、低仓位。

波动性：

趋势性系统的盈利能力，和波动性成正比。

波动性，有3个描述方式。是高相关性的。

最直观的方式，是定义一个波动率，波动率小于某一阈值的情况下，可以少交易，不交易。

规则1：20日波动性MA > 25分位数，就交易

规则2：用这个对比值进行仓位控制，满仓、半仓、暂停

　　有了流动性规则、波动性规则，就可以放在一起，进行交易品种控制。那么针对震荡策略呢？可以想象，当某个时间级别的趋势类策略关闭的时候，震荡类策略可以开启。

　　相关性检验的时候，要记得做时间轴校正（数据清洗），这是很多人忽略的，否则日期不能对应。如果剔除了太多，显然统计意义是不强的，所以要做差值来弥补。那么到底需要向后回溯多远，计算相关性合理呢？这部分没有定论，因为牵扯到很多基本面影响因素。

　　相关性分析方面，求出他们之间的相关系数。这个课题有利于构建一个收益和风险互相包容，能够实现对冲效果的投资组合。

　　通过数值回测给出交易系统的表现，这是大家都知道的，所以我们可以用matlab构建一个回测系统。

原始策略提出的源泉：

1、国内卖方金工报告，万德，迈博汇金

2、计量金融分析报告《高级计量经济学》

3、SSRN.COM，如国外有一个futures magazine

4、团队自己的Alpha挖掘，团队交流，挖掘交易策略

　　关于期货主力合约定义，有不同方式，大致是成交量/持仓量最大，即可。隔夜策略的测试，会有很大区别，各个第三方平台都不一样，所以这是需要注意的。期货数据这块的坑，是巨大的，近月远月，升贴水问题。我们做量化的，第一步就是做数据，不要用回测自己骗自己。

　　我也求证了几个问题：

　　通道类策略的上下轨，针对商品，多空相似，用一个比率是否可以？李阳老师认为：其实不合适。因为上涨下跌启动点的形态，是不一样的。这里应该设置不同参数，不要怕拟合。

　　某个主力连续合约数据失真，存在大跳空，但是主力指数，也失真吗？答——也失真，比较尴尬，隔夜策略的评估效果，在实盘中可能不能令人满意。

　　关于分散参数，分析参数热图，我的办法是，如果有多块高点区域，寻找交易次数较高的参数组合。李老师还是老观点：关于参数优化，找到参数高原图，或者说热图之后，不要去赌某个参数，而是去分散参数。因为后期实战中，你会发现参数漂移。

　　下午课程

　　《全市场全周期全品种全通用多元化的全智能》　陈海龙

　　首先提出几个问题，大家心里要有自己的答案，然后带着问题听讲。

　　1、你交易多少个品种？股票多少只？

　　2、赚钱主要是依靠趋势，还是震荡？

　　3、历史数据写出来的有没有用？失效，改进，失效，再改进，有没有用？

　　4、期货和股票主要依靠什么在赚钱？

　　5、补仓或者抄底行为，是对还是错？

　　6、如何判断程序是否失效？

　　7、趋势和震荡，能否判断？

　　8、1万亿以上资金容量的模型是否存在？

　　我会给大家全新的思路，不是书本上能够看到的，我只生产永动机，不是永动机我还不用。

　　我写过4000多个模型，很多用历史数学写的，改的很痛苦。都进入垃圾桶了。我实盘用的只有一个程序。

　　我的模型，全市场、全品种、全周期都通用。

　　我的团队，把所有不可能的变成可能。但是所有的可能，又变成不可能。很多风险（万一）全部都要变成不可能。我们设计交易系统的时候，只有一万，没有万一。

　　我认为，根据历史数据训练出的模型，是没用的。历史根本不可靠。谁告诉你加载出来的就一定有行情？万一没有呢？没有行情就是死路。

　　我们不用历史，而是用概率。比如明天新上一个品种，我就可以做。而很多机构，必须等待非常多的历史数据，才可以做。

　　我做的是全品种，任何一个单品种和我没关系。我看文化商品指数，就知道怎么回事。震荡我就亏钱，趋势我就赚钱。我的一个朋友，40多天震荡都在赚钱，是震荡策略，还有所谓的纪律，但是遇到大的单边行情，他开始逆势加仓。这就是人，关键时刻会由于人性崩溃，没有纪律。最终爆仓了。而做趋势的人，这短时间，都是小亏，赚的时候都是大赚，绝对不会爆仓。

　　这里牵扯到一个问题：趋势和震荡市可以判断的。

　　另外，我是只做日内为主的，绝对的日内交易为主，隔夜都是没有仓位，或者很低仓位。

　　很多东西都是一环扣一环的，判断趋势和震荡，就能赚钱。另外固定品种，这就是个错误。我们的系统，事实扫描所有品种，这个品种没行情，你根本赚不到。

　　那我们到底是靠什么在赚钱？是仓位管理。有行情重仓，没行情轻仓，什么买卖点都行。你研究历史写出来的，训练出来的模型，有意义吗？

　　大部分人眼中的模型，就是一个多个模型，然后自动下单。我看着就是个下单工具，根本就不是程序化。

　　我们的系统，买卖点很弱，资金管理很强，这意味着，我们的容量可以超级大。我们公司的整个系统，可以容纳1.2万个亿。我可以把华尔街很多人干掉，他们已经做了几十年投资，他们相对于我输在哪里，就是输在仓位管理。

　　2015年，2016年，震荡的时间达到90%，程序化大部分都死了。

　　我要知道每个账户的总资金，还要知道系统评估后能承受的亏损额。

　　我们在90%的时间，账户里，只有1成仓位不到。59个合约，哪个最有机会的，我才略大一些交易手术。一旦来行情，我的账户就是50%甚至满仓。但是加仓是有前提的，亏钱是不能加仓的，盈利才能加仓。

　　我可以明确告诉你们，所有补仓的人都是亏的，追涨杀跌是对的还是错的？答案是对的。涨停板策略，也是对的。而所有逆势策略，抄底，摸顶，都是危险的。我们的账户，达到亏损限制了，直接砍。

　　如何判断程序失效还是不失效？比如股指5分钟模型，我让你测试4分钟，6分钟，白银，橡胶，我就是不测试你股指5分钟。我就是要考核程序的通用性。历史数据是结果，你知道了结果，再去写程序，写出来的程序，那必然是很好的效果。但是有价值吗？

　　我是一个做概率的人，做的越多，概率越准确。我可以告诉各位，做13个品种以下，都是赔钱的。我玩概率游戏的胜率可以达到70%，每次押注，我在各品种都押注。就和做期货一样，全品种覆盖。我用仓位去管理这个东西，哪个轻，哪个重，亏的时候，亏的小，赚的时候，绝对要大赚。盈亏比要非常高，才能在市场上生存下去，最后就是一直赚钱。

　　财经栏目、波浪理论、缠论、江恩理论，这些东西都是狗屁。

　　通过现场讲解的饼图，可以看到波动性仓位管理。

　　我选择品种，只看成交量、持仓量大的品种，如果控制不好滑点，特别是焦炭铁矿，一定会亏钱。另外我不赞成选股指，特别是现在，复利效果是很慢的。加仓很少的。

　　我的单均线模型，都在赚钱，这能失效吗。必须有仓位管理。比如用8成仓位开螺纹，2009年到现在，均线模型，1万元本金开始，30亿。

　　突破高低点的时候，可以认为是趋势来了，重仓。正常做趋势的，更容易做的就是突破。追涨杀跌，低卖高买。判断趋势之后，还要判断趋势大小。我有一套方法，识别品种、方向、仓位、趋势和震荡。很多人用一生精力研究买卖点。我不仅能判断趋势，才能判断趋势力量。

　　所有时间，都是静态的，凝固的，而行情是连续性的。要提醒大家的是，我们做的是概率，比如说盘中的概率是80%，盘后的概率是70%，我这里的表格，就是一张概率表。

　　我会用到很多过滤技术，一个单均线系统，胜率从不过滤的25%，到56%。我现在的模型，无周期，无均线，无指标。如果大家做震荡，要记得它不是赚钱的，它就是趋势策略亏钱的时候，用来弥补的。

　　白糖、股指、黄金，我的一个模型，都可以做出比较好的资金曲线，一个程序，各位看清了。我做所有品种赚钱的原因，是我区分趋势和震荡，趋势行情来了，所有的模型都能赚钱。

　　开盘20分钟内，都不做，或者仓位很轻。

　　下面说说过滤方法，可以参考：

　　大级别（跨级别）均线过滤（也可以理解为单向过滤）：我不用跨周期调用，而是设置一个大周期均线，用的是换算方法。

　　幅度过滤：好像没说明细

　　指数过滤：比如豆油、棕榈、菜籽油，做成一个篮子数据，然后去过滤

　　时间过滤：开盘某些时间，不交易。

　　大权重指数过滤：主力合约过滤非主力合约。

　　智能过滤：？没记录下来

　　滑点过滤：计算好买卖点，我用挂单方式，我会多挂一个点。

　　我容纳一万亿资金，用多个方法：

　　1、全品种分散，我会选择其他国家市场

　　2、指数基金，和外盘新华富时A50

　　3、信号是概率发出的，买卖点是不重要的，但是基本上每个买卖点时间上是不同的，基本上都能错开

　　4、滑点控制：通过控制交易频率、提高网络速度，硬件设备。阿里云是共享资源，速度慢，不安全，交易所直连是一种方法。

　　从交割单可以看出，策略基本上是在tick级别数据运行，开仓持仓时间非常短。

　　谈到补仓，再次说明，我们是不补仓的，我设置好止损，到了肯定会走。不补仓的原因是，如果开始下跌了，下跌会更加严重，补仓方法是逆势的。

　　我描述我的产品：多元化、多周期、多策略、多市场。组合的越多，越平滑。我的目标是全智能，我们是一个全智能的下单系统，资金、仓位、亏损、风险增速、收益增速。后两个值和资金权益相关。我计算出今天收益可能性很高的时候，我下很大的仓位，设置比较宽的止损。

　　资金管理30%，仓位管理更多，选品种25%，择时交易系统20%，滑点控制15%，心态管理是最小的。因为量化有刚性的风控系统，其要求是很严的，如果加的仓位，经常会平掉，和我系统同方向的，先留着观察，反的立刻平掉。

　　用系统防止有人来干预，风控系统的权限是最高的，可以随时控制风险（仓位）。我们管理1600多个账号，就是这样管理的。

　　通过我的买卖点可以看出，我就是过滤震荡，做趋势。只要趋势来，所有的反向运行都是反弹而已，趋势形成，很难反转。

　　大道至简、由简到繁。这是课间交流时候讲的，希望大家记忆。

　　仓位分配：保证金同比例分配，震荡趋势分配。我的仓位下单的时候，是实时复利的，这一秒赚的1万，下一秒我就要用上。

　　回答问题中：有以下重要内容：

　　我只有1成仓位90%时间，大行情来，会快速加仓

　　日内高频+日内趋势，是交易择时模型的总体描述

　　趋势级别，和运动速度有直接关系，我只是说这条路是通的

　　目前我一个品种一天，只交易1-2次，频率不高了

　　晚间课程　一

　　《对冲套利——稳健盈利模式的探讨》　王一博

　　主持人说：王老师是巨大的专家，好（我是说巨大这个词用的牛逼），今晚的两节课鏖战开始。

　　王老师很谦虚地说，大家参加学习，我们也是自我总结提高。期货市场任何一个你性格的优点，都会10倍回报你。我主要是做套利，半年时间，我就转到套利。对于一个交易者，对一个个人、家庭、公司，是最为重要的。

　　我们从2012年成立到2016年，资产管理规模有50亿元。

　　趋势交易，基本上是一战成名。但是他的缺点是，一年或者几年，70~80%时间里，都是震荡，这个时间点，趋势没有走出来，是非常考验交易者资金管理和操作心里的。

　　但是，有现货和贸易背景的团队个人，在趋势交易中，远远胜于个人投资者。且优秀交易者，凤毛麟角。观察了别人，结合自己的性格，我选择了套利交易，这是一个日久生辉，复利增长的交易模式。这几年套利模式的公司，资金规模都在快速放大，所以大家需要仔细甄选。

　　王老师展示了自己的一个产品。赚钱的交易模式，有时候是很简答的，不要把赚钱想得很复杂。2005年上了IC和IH，这是套利的盛宴，IC和IH自己的跨期，和IC-IH跨品种套利，都是非常好的机会。后来股指受限，流动性降低，我们就走的慢了。去年我们100%收益，在套利方面，但是我知道，这不是常态。今年到现在，我半年的收益也就6%，我接受这个收益率。

　　比如豆油、豆粕套利，这是一个大级别的宏观经济机会。无论是个人，公司，都需要抓住机会，机会来的时候，全力以赴。没有风的时候，我们也要站在风口等风来。凯丰600万到4000万，就是抓住这个机会。

　　套利领域也有失败的案例，2010年，棉花起涨，内盘带动外盘，内外盘有2000点利润（价差）。当时上海一家公司买入纽约棉，卖出国内棉。后来价差竟然拉倒4000点，加仓一次，浮亏加仓，这种回归机会，4000点难遇。后来价差拉倒6000点的时候，扛不住了，棉花冲击33000，砍仓了。这就是做套利交易，不要刻舟求剑，很多条件已经不具备了。

　　07~08年的时候，只做少数品种，收益不错，第一桶金。2010年，PTA，RU跨期，2012年，焦炭焦煤。当时高波动率，不用太深入研究，现在是低波动率，必须精细化操作。人无完人，我们要找到自己适合的，符合自己的交易模式。

　　我们是在交易行情吗？我们是在交易自己的资金曲线，我们要控制资金向上，低回撤。在某些特殊时段，我们要集中全部火力在一些品种上，大胆做，带来资金曲线的大幅度提升。

　　说到软件，目前文化财经WH4，达钱，TB，2006年我一直用易盛交易软件，有非常多的好处。

　　股指的收敛是很好的，在贴水情况下，买近空远，是没有资金能够操纵的。

　　大豆提油套利，买大豆，卖出豆油豆粕期货。在大豆1号上，有一段时间，炒作非转基因大豆，豆粕猛跌，大豆猛涨，价差迅速拉大。当时亏了150个点，迅速平仓了。当时也是因为急躁，使用了较大仓位。

　　在一点就是要选对对手，比如油脂，产业机构已经非常成熟了，难以套利了。很多品种留给投机者的空间，是在压缩的，因为产业客户已经开始在这里获取利润。

　　需要说明的是：历史规律不会简单重复。人的天然的惯性思维是回忆历史，但是并不是这样。我的套利策略，是产业逻辑分析套利机会，而不是统计套利。

　　目前阶段，我认为商品里，黑色套利还是不错的。螺纹、热卷、焦炭、焦煤、动力煤跨期跨品种套利还是不错的。钢厂没有什么科技含量，是一个产业链，最重要的核心，是螺纹钢和铁矿石的利润，没有高科技，高利润是周期性的，是不可维持的。螺纹铁矿比价在6，钢厂利润很好。钢厂利润好，加大铁矿石采购量，能复产的都要复产。

　　笔记到此突然中断一下，昨天有读者说，量化行业没有女生参与，气场不协调啊。其实是有的，我们今天在会场终于找到一位很甜美的，刚毕业的金融专业ＭＭ。

　　嗯，这就是今天标题里所说的峰回路转，谁说没有女生的，看来量化这个行业，还是孕育着希望的。由于此照片分散了精力（改善了量化行业生态环境），本节课后面的笔记无法完成记录……

　　晚间课程　二

　　《深度学习(deep learning)方法在量化投资实战当中的应用》郑玉峰

　　郑老师本科大四，22岁，目前管理3亿元人民币资金，其策略早已在更多更大的资管公司使用。他使用了很多前沿的科技，比如机器学习算法，大量融入到量化中。

　　他讲公司发展称作一群量化革命者的自述，我们是一个团队在作战，这就是全天候量化科技团队发起成立的故事。2012年团队在西安成立，是一只90后团队。我们去年在北京，发行第一只公开管理计划，当时21岁，募集资金管理3000万。

　　2014年我们从30万元管理规模，到年底2000多万，2015年底搬到杭州，再搬到北京。

　　目前数据抓取技术，在急剧地改变量化的生态。一家科技公司，根据京东数据，构建了一个消费品指数，构建了因子库。然后以此为基础，构建了一个多因子选股模型。这个模型的结果还是比较不错的，从2014年-2016年，这个收益率的alpha非常高，实现了250%。

　　这说明了一个什么问题？很多人把个性化的，非结构化的，非公开的数据，应用到量化投资体系里。

　　我想说的是：有效信息的提取，反映到量化中，超额信息就是超额收益的重要来源。超额信息比模型的构建方法，研究方法，更重要。比如说徐翔，每年200%的回报率，他的优势就是大量的内幕信息，他获取了普通人无法获知的信息。

　　我们普通人应该怎么办？我们应该合理合法地获取信息，在此基础上，建模分析，成为稳定超额收益的来源。我们在构建量化模型过程中，是这个思路。

　　有一个很火的国外对冲基金公司，使用了VHF跟踪全球市场的船只形成，购买了卫星，来监控大型货轮是否按时到达港口，这是在获取数据，数据爆发增长，如何科学的挖掘，如何科学有效有技巧地抓取，是我们量化投资者的分析研究课题。还是老话：超额信息，有决定性的作用。

　　我们认为：股票市场，尤其是中国的股票市场，是非常复杂的非线性系统，有显性和隐形因素。隐形因素，本质上大众可以获取，但是获取的难度大，门槛高。

　　大家应该了解随机漫步游走理论，认为股票是完全随机的，没有规律。所以造就了ETF和共同基金比较多，但是我觉得这种理论是非常愚蠢的。我们肉眼都可以看到，市场上有相当数量的，能够跑赢市场的人，长期、稳定、远远跑赢市场。

　　中国的金融市场（特指股票），是成熟度非常低，容量大，机会超级多的市场，明显的是波动率非常高，相比于国外，波动率不止大了两三倍。股票交易量基本1个亿保底，大的都是几十亿。我们A股每天的流动性，是非常巨大的。我们的市场介于确定性和非确定性的动力系统。

　　股票价格，行情数据，非行情数据，在未来预测股票价格信息。有一个函数关系，是成立的。T+1天的股票价格，是T天的价格，和行情等基本面的因素共同决定的。量化的建模，就是通过现有的训练数据，通过实战方法，无限逼近函数F，也就是构造函数。但是大多数我们做出来的F，只在样本内有效，或者有效性非常短。

　　我们认为传统线性量化模型，都是针对训练样本，做加权求和做择时和预测，这是原始不科学的，需要有新的思维和血液进来。

　　我们注意到：随着硬件的飞速发展，价格下降，我们普通人也可以拥有性能比较好的计算机，这给我们做量化投资一个好的条件，我们可以把传统计算机行业的数据处理方法，应用到股票价格中，ANN SVM 小波等等。

　　机器学习是什么？它是建立一个模拟人脑建立一个分析学习的神经网络，解决数据问题，这种方法，其实是能够很好地应用到金融建模。数据大，维度多，成分复杂，这个方法非常好。可以无限逼近金融市场的真实函数F。

　　我想提醒大家一点，机器学习很火，都在推，尤其是DP深度学习，但是目前机器学习应用到实际场景，是比较难的。很多说法，都是很扯淡的，我们的观点是：机器学习要应用到实际量化投资：你得有数据，你得有数据，你得有数据。

　　机器学习，不仅对数据质量要求高，数据的有效信息多，数据预处理细致合理，国内大学的计算机专业，都有这个研究方向，但是水平不好说，极少数的人，深刻掌握理解机器学习方法。我们有过惨痛的教训，我们走了很多的坑。我们去年到北京的时候，做了一个实验室。4个博士，8个硕士，10个本科，国内比较好的学校都招了，结果比较惨，最终根据数据做优良结果的，样本外检验的，只有2个人。需要深刻理解，才可以做出来。

　　机器学习有一个很重要的概念：经验的反馈，这个概念很重要。人类与生俱来的的，从生活和实践中，通过对已经发生的事实观测，归纳总结。机器学习也是这个过程，模拟人类。一个叫做样本外推广能力，是核心的，致命的问题。只要训练时间长，一般都是拟合度高的，但是如果你过优化了，样本外数据，是需要质疑的，这太常见了，这是最大的坑。

　　我用了Adaboost算法，多个训练分类器的方法做示意。就像多个评委打分，我们需要评价股票好坏，我们需要建立标准体系。多个评价体系，构成终极分类器。比如有2700多个股票，我们需要机器学习模型做评级、评分。我们要找到相对好的东西，基于这个思路，我们要学习出分类器，最终用这个分类器，去评价所有股票。当模型有效，评价体系得分在前面的股票，预期收益是比较高的，这就是这个策略的思路。

　　我们看来量化投资有五个模块：

　　1、收集数据、收集各种原始数据，这是5个模块中，最重要的，这是70%左右重要的。

　　2、数据预处理，对原始数据进行加工。比如缺失值，比如不需要的数据去除，这是一个非常复杂的工作。这样才能保证数据的可学习性。

　　3、训练算法，用10年整体长度，随机抽取时间段，做样本内交叉验证数据（训练集）

　　4、样本外测试，基于之前的成果，测试算法的工作效果。我们样本外数据会留20%，我们对过拟合比较敏感。

　　5、实盘测试，实盘也需要三个月左右数据，没有明显衰减，使用这个模型。

　　第一部分是我们引以为傲的，我们做了一个事，依托复杂算法，以海量舆情数据，财经新闻、社交网站、上市公司公告，多层次语义匹配，形成知识图谱。可以提取关键词，匹配版块，个股，最终形成一张网，这是知识图谱。这是策略最基本的策略框架。

　　以一个上市公司图谱，它产生了很多标签，信息，各种好听的名字概念。公告中，可以分析到被机构表扬还是出发。还有定增的协议，子公司诉讼等。还有产品标签，比如新能源汽车。还有股东标签，没那么重要了。

　　我们用基本面数据，是做反向排除工作。A股比较奇葩，基本面信息，是可以找到比较坏的股票，排除掉它。我们的优势，就是在新闻数据分析方面，做数据清洗、网络训练。

　　我们用了一个比较新的技术，大部分是关键字分析阶段，但是只是这样分析，误差比较大的。当网络出现某一个关键字的时候，是积极的？消极的？正向的？反向的？我们用了一种技术，做这个结论的产生。以股民对万科的评价为例，有一个思维情绪的结果。

　　最终形成了数据链，数据图谱，形成了最基础的数据。目标函数是：保证拓展能力的情况下（也就是样本外外推），对训练数据做处理，这个Y最大。这是我们的训练目标。

　　最终我们形成打分体系的时候，肯定是很多因子，连接在一起。首先是构建因子库，作为训练参数的材料，我们采用的是多因子选股的投资方法，我们将其抽象成一个二元分类问题：强势股（前10%）、弱势股（其他的）。构建能够解释收益率高低差异的因子。

　　数据分为样本内训练，样本外检验，要得到样本内优秀的因子集合，参数集合。外推检验证明合格。从因子选股角度来说，运算过程中，大概是先做样本划分，给样本给权重。对因子按照大小进行排序，分组，然后分别计算每个分组中，强势股和弱势股的比重，我们以此方式，要检验因子的对于股票涨跌的解释能力。

　　我们可以从大量复杂的因子库里，初步提取有效因子。一个弱分类器就完成了。

　　然后进行算法训练，我讲过Adaboost是一种迭代算法，其核心思想是针对同一个训练集训练不同的分类器(弱分类器)，然后把这些弱分类器集合起来，构成一个更强的最终分类器（强分类器）。AdaBoost算法中不同的训练集是通过调整每个样本对应的权重来实现的。

　　如果迭代的分类器有效，做回测的时候，是比较稳健的。错误率为0不可信，难以实现的。比如我们看到一个因子，远远跑输大盘，收益率差，比较低。

　　我们先淘汰无效因子，然后留下有效的，反复训练迭代，最终可以构建更强的因子组合。不同有效性因子组合积累到一定量，就会产生质的飞跃。我们在做模型的交易，暂时不考虑回撤的控制，如果测试的回撤小，实际中不会给你任何的保障。我们寻找的是超额收益，和超额收益的稳定性。

　　关于时间窗口推进建模测试，我们加了时间窗口，测试得到不稳定。所以就一次性把数据分为样本内、样本外即可。

　　机器学习量化投资中，我们看中的，是：

　　1、注重数据采集收集，我们的理念就是超额信息，产生超额收益。

　　2、一脉相承的，个性化数据方面，很下功夫。我们最宝贵的，就是很早开始积攒构建的舆情数据库。

　　3、这部分没有记录到……

　　舆情数字地形图，经过几层处理后，最终留下的东西：

　　从0到2400左右，2400个股票的信息量，纵轴是信息强度。

　　机器学习还有一个优势是，能够大规模地，批量地生产策略。它可以帮助公司快速拓展投资容量和规模。

　　1、少数派思维，走在大众思维的反方向。少数人能够赢，避免大众化思维。

　　2、不与狼群争草原，守住自己的树林。自己的水平、团队能力，还有就是对手是谁。如果对手太强，比如期货市场，就避免这些成熟度比较高的市场，找成熟度低的市场。

　　我对未来发展趋势的一些看法：

　　1、方法趋同化。我会用机器学习，你也会，大家都会。

　　2、数据差异化。数据的差异化，是决定成败的来源，基础数据做的好，正则化提炼清洗好，就有超额信息优势。

　　3、量化建模的模型是否有效，能否赚钱，不是用研究方法和挖掘方法决定的，最终是数据质量决定的。如果信息有效性低，不可能挖掘出好的策略，只有包含的有效信息多，足，才是战胜大盘，产生超额收益的最终来源。

　　未来专业化分工

　　1、基本的模式验证，需要人来做——策略模式研究员

　　2、最优参数调节，批量生产——数据挖掘专家

　　我的提问：

　　小波右侧数据怎么办？lowess等方式呢？

　　——需要用到右侧数据的，都不能用。可能实验过程中可以用，但是实战过程中，貌似不好用。我提出回归出后几个数据，郑老师没有直接解答是否可以

　　我听您的意思，价格信息，并不是主要了，是这样吗？

　　——是的，舆情数据很重要。价格数据也是需要的。

　　最终负责决策的因子，是能够解释的清晰明确的因子，还是合成的因子，不容易解释的？

　　——都是一些合成因子。郑老师对因子有效性（也就是对于价格的解释能力）很有信心。

　　舆情数据，基本上都要反着用的（因子强度和语义度，对价格起到反作用力）。

　　——舆情是韭菜的观点，不解释了……

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。