打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
前沿!人工智能在投研的实际应用——智能投研产业链调研报告【中泰金融·戴志锋/陆婕】

核心观点

智能投研的产业链分析:1、智能投研的核心是提升金融数据的分析能力,提高人工的工作效率。2、智能投研的产业链涉及数据的获取、处理及应用。上游是数据源,包含传统金融数据、爬虫数据及另类数据等;中游是数据的采集和标准化;下游是数据的需求方和应用场景,包括投资机构、监管部门及非金融机构等。3、智能投研行业的参与者:传统的金融数据服务商、创业公司、互联网巨头及投资机构内部研发。

三种智能投研的商业模式:1、金融文本处理工具。针对特定场景的金融数据处理的工具,所处理的文本以标准化为主,功能是审核检查,交付方式是项目制。客户是金融监管职能部门,其次是金融机构审核部门。2、一级市场数据库。提供全方位了解一级市场公司的数据库和搜索工具。产品的核心是标签体系;一般采用数据终端或者数据接口的方式交付。3、二级市场数据库。提供颗粒度更高的金融数据产品,重点在非结构化数据的处理。客户主要是二级市场投资者,尤其是量化投资;国内的客户还包括券商和综合金融集团。

底层技术:在智能投研中主要应用的人工智能技术包括图像识别、自然语言处理、情感分析、知识图谱等。1、优势:人工智能拓展了数据来源,大幅提升了数据运算的能力。机器能分析多元、非线性关系,寻找相关性而非局限于因果关系。2、不足:就现阶段来看,人工智能在有明确边界、规则和目标的场景中,效果才会明显。3、技术运用的约束条件:数据质量影响智能投研的效果,底层数据质量不断提升,智能投研的效果才会增强。

市场空间及行业趋势:1、中长期来看,智能投研的潜在市场空间远大于现有金融数据行业规模。产业要从数据服务广义的角度看智能投研的市场空间:收入的增量空间还包括对数据量、数据维度、数据综合服务的需求提升,以及投资机构增长和其他机构对金融数据的需求。2、智能投研的发展趋势:资产管理机构在数据及技术方面的投入增速大于资产管理规模的增速;传统的金融数据公司通过并购整合保持持续的竞争优势;大量创业公司在努力拓展人工智能的边界;成功的智能投研公司在数据服务的广度或深度上超越对手。

风险提示:金融行业监管政策变化、人工智能技术发展不及预期

智能投研的产业链分析

智能投研的定义

狭义:人工智能在投资研究上的应用。通过人工智能技术拓宽投资信息来源,提高获取信息的及时性,减少基础数据处理的工作量,通过自动化的数据分析,为投资决策提供参考,从而提高投资研究的效率。

广义:人工智能在资本市场相关领域的应用。从使用者的角度来看,智能投研的受众包括各种类型的投资者(买方)、券商(卖方)、监管机构、银行和财经媒体等。从投资的标的来看覆盖一级市场公司、股票、债券、外汇等。而人工智能的应用场景涉及业务的各种环节,与投研直接相关的就包括研究、投资、交易和风险管理。

智能投研产业链的供求关系

智能投研的产业链涉及数据的获取、处理及应用。大部分独立的智能投研公司主要在数据的处理环节。最终与投资交易直接挂钩的智能投研由投资机构自己搭建为主,同时会采购外部第三方的数据和服务,在内部进行整合。

产业链的上游是数据源。(1)传统数据。金融行业本身已经存在大量标准化的数据,包括公司财务数据、公司公告、交易数据、宏观数据、行业数据、券商研报等,这些数据主要由金融数据公司进行整合。(2)爬虫数据。这些数据来自于互联网,相比传统金融数据库,这些数据的颗粒度更细,数据来源主要是地方政府网站、地方监管部门网站、社交网站、媒体网站等。(3)另类数据,主要指通过智能设备采集的数据,包括卫星图片、天气数据等,更多的是通过个人移动终端采集的各种数据。

产业链的中游主要是数据的采集和标准化。产品形态包括数据处理的工具或者处理之后的数据产品。(1)数据抓取工具:直接对客户开放的基础产品,也是开发其他高级工具的底层技术。应用于标准化金融文本的关键信息摘取。(2)核查类工具:对于有明确规则的金融文本提供自动核查,包括核对财务数据。(3)产业链图谱:通过打标签和标签之间的关系建立,细化行业分类,展现产业链上下游、竞争对手、股权投资等关系,寻找潜在的投资标的或发现潜在的风险传导路径。

产业链的下游是数据的需求方和应用场景,以金融机构为主。(1)券商主要包括三个部门的需求。投行部门:提交文件的审核、找项目。网金部:APP智能投顾功能的底层支持。研究所:报告的质控检查、信息搜索、公告数据提取。(2)投资机构。一级市场投资者:找项目,监控竞争对手。二级市场投资者:量化投资的策略因子、资产组合的监控及风险预警。(3)证监会&交易所:标准金融文本的审核、信息披露的监控等监管科技范畴。(4)其他需求。如银行的小微企业信贷风控、寻找潜在的企业客户;企业寻找合作伙伴等。

智能投研行业的参与者

传统的金融数据服务商。智能投研对于这些数据服务商来说可以提升数据采集的自动化程度,增加数据功能模块。彭博、汤森路透是全球市占率最高的两家金融数据公司,其优势在于数据全、颗粒度细、服务好,但价格比较高。商业模式也较为类似,除了提供数据终端之外,也是财经媒体,拥有自己的电视台、电台。Captital IQ、Factset、MorningStar与头部的两家公司形成一定的差异化竞争,虽然数据不够全,但在细分领域上做更深的数据挖掘和加工,且价格相对便宜。国内金融数据服务市场的集中度更高,基本处于万得一家独大的状态。

创业公司。在智能投研领域有大量的创业公司。这些创业团队一般都具有人工智能的技术背景和金融行业从业经历。根据不同的团队基因,每家公司的切入角度有所不同。有望在细分领域取得突破。业务路径选择与团队背景有关。

互联网巨头。具有明显的数据优势,可提供独家因子给量化基金。BAT在人工智能领域均有布局,重点放在通用的基础技术研发上。其中蚂蚁金服在金融行业的布局较广。蚂蚁金服在底层通用技术的研发包括人脸识别技术、图像识别技术、自然语言处理等,应用在泛金融场景中的包括智能客服、智能营销、智能推送、智能定损、安全风控等。从整个资产管理行业来看,蚂蚁金服在获客、客户运营方面有优势,在投研领域,互联网巨头在另类数据方面有明显的优势,可以提供独家的因子给投资机构。

投资机构内部研发。就投资而言,外部第三方以提供数据工具为主,具体落地到投资策略制定和交易执行一般在投资机构内部。投资机构通常会外部采购标准模块,叠加内部投资策略,构建内部智能投研系统。(1)海外智能投研使用已经较为普遍。成熟的金融市场有充足的投资工具,运用人工智能的量化投资已积累了一定量的历史数据。部分由人工智能管理的基金取得了超过业绩基准的超额收益。(2)国内的资本市场仍处于发展早期,历史数据和交易工具比较缺乏,前几年推出的大数据基金并未取得理想的业绩表现。目前国内有部分公募基金正在积极探索智能投研的应用,包括嘉实基金、天弘基金、富国基金、华夏基金等,智能投研的发展是资产管理行业的大势所趋。

商业模式

金融文本处理工具

产品定位及目标客户。(1)针对特定场景的金融数据处理的工具。这里所指的数据处理本身有明确的规则,例如招股书有标准的格式、财务要遵循会计准则等,通过使用智能化的数据工具,可以减少人工审核的工作量,提升效率。(2)所处理的文本以标准化的金融文本为主,包括债券募集说明书、IPO招股书、上市公司公告、审计报告、信贷报告、金融产品说明书、监管函、券商研报、保险合同等。(3)实现的功能包括关键信息的抽取、文件内容及格式的审核、财务审核、智能搜索、自动问答、会计勾稽关系验证、公告合规性检查、信贷业务合规性审核、券商研报质控等。(4)由于大部分功能是审核检查,所以需求最刚性的是证监会、交易所等监管职能部门,其次是券商投行部门、银行信贷审核部门等。

竞争优势及核心技术。(1)底层技术主要是自然语言处理,相关算法都有公开的论文可以参考。在此基础上,每家公司会有不同的切入点、具体标注数据的方法和效率与团队背景和能力有关。(2)评价指标主要是标注的准确率和标注速度。准确率根据客户的要求决定,不同的文本类型和任务存在差异。最终技术能力的认可要看客户是否买单。(3)算法和数据都很重要,一般来说,标注的数据越多,准确率越高。现实中的文本对于机器来说永远会有无法识别的新问题出现,因此机器的准确率无法达到100%。

交付方式及收费模式。从调研的情况来看,由于行业处于发展早期,公司主要收入来源还是项目制,根据客户需求开发系统,收取一次性的系统开发费加每年的升级服务费。在做项目的过程中可以了解客户需求,完善产品,未来有望实现标准化产品的输出。

一级市场数据库

产品定位及目标客户。(1)提供全方位了解一级市场公司的数据库和搜索工具。一级市场公司的数量远大于二级市场,但数据颗粒的清晰程度度远低于二级市场。因此这类公司要从更大范围获取数据、清洗并将其结构化,最终形成一级市场公司以及一级市场投资机构的画像。(2)产品的核心是标签体系,对每一个公司设定一系列标签,通过标签形成产业链、投资链的关系网络。其中行业标签是重中之重,它是串联起产业链关系、竞争对手、投资机构偏好的关键。基于这样一个底层数据网络,可以满足客户不同的数据需求,包括竞品分析(商业模式、经营情况、相似程度等)、上下游风险的传导以及供求关系、企业经营的实时跟踪等。这些信息能帮助投资机构更好地分析行业及公司,提升效率,抓住业务机会。(3)目标客户包括一级市场投资机构、券商投行部门及直投部门、银行企业客户部门、咨询公司、媒体、产业园区、产业基金和企业等。

竞争优势及核心技术。(1)在数据源上差异不大,大部分都是公开数据,包括工商数据、证监会官网、基金业协会官网、公司官网和公众号、专利、招聘网站、新闻等,核心能力是抓取数据并处理数据的能力。在数据标签的设定上需要专家支持和金融行业实务操作经验。(2)底层技术是图像识别、自然语言处理和知识图谱。(3)数据特色。就我们调研的公司来看,各家在公司标签的选择和行业的侧重点上呈现出差异,例如:因果树注重小型科技型企业的数据挖掘,建立了技术词汇的知识图谱;视野金服在投融资数据上具有特色,公司覆盖广,一级市场投资机构的投资情况,包括投资偏好、退出情况、投资和管理关系等,资本市场标签包括启动上市辅导、科创板潜在企业、IPO审核意见等;烯牛数据重点覆盖新经济公司,实时跟踪这些公司的产品和业务情况,挖掘热门的细分行业。

交付方式及收费模式。一般采用数据终端或者数据接口的方式交付。如果客户本身有系统基础,即可采用数据接口方式,将其接入业务系统。数据终端按照数量收取年费,数据接口按数据调用量收费。

二级市场数据库

产品定位及目标客户。(1)提供比传统金融数据服务商颗粒度更高的数据产品,重点在非结构化数据的处理,与传统的结构化数据形成互补,形成更完整的数据体系。(2)产品的逻辑基本上与上述一级市场数据库类似,差别在于二级市场公司信息披露多、交易数据丰富,因此在数据处理上颗粒度更细。首先在财务数据上做更细化的拆解,例如营业收入的构成,抽取每个产品的收入、成本和毛利率水平,使同业比较的有效性更强;其次是智能搜索引擎,从海量信息中找到与标的公司有关的内容,或设定条件,实现个性化的信息推送功能;最后是事件标签,对各类事件进行分类分组,提取事件要素,结合情感分析,预测事件对公司股价的影响,包括风险事件在产业链上的传导。(2)成熟资本市场客户主要是二级市场投资者,尤其是量化投资。国内的客户还包括券商和综合金融集团。券商的需求包括券商APP里智能投顾的底层数据支持、研究所研究支持等。

竞争优势及核心技术。(1)数据挖掘的广度和深度是构建竞争优势的主要途径。核心是通过数据积累形成的产业知识体系,早期依赖于专家支持,后续主要由算法驱动,不断迭代。一般来说,积累时间越长、处理数据越多,产业知识体系越完善,搜索及预测效果越好。(2)底层技术是图像识别、自然语言处理、情感分析和知识图谱。

交付方式及收费模式。比较成熟的数据库采用数据终端的销售模式,按数量收取年费。此外,也可以与系统开发相结合。

底层技术

人工智能

在智能投研中主要应用的人工智能技术包括图像识别、自然语言处理、情感分析、知识图谱等。这些技术的使用本身存在递进的关系。首先通过图像识别技术,对图像中印刷或者手写的文字进行识别,输出可以编辑的文档格式。其次是通过自然语言处理及情感分析对本文进行结构化处理,变成机器可读的数据。最后结合专家知识和机器学习等算法,建立起数据之间的关系网络,实现一定程度的分析功能。

人工智能的能力边界。(1)优势:相比人工模式,人工智能拓展了数据来源,大幅提升了数据运算的能力。人脑习惯于线性关系和因果关系的分析,而机器能分析多元、非线性关系,寻找相关性而非局限于因果关系。(2)不足:就现阶段来看,人工智能在有明确边界、规则和目标的场景中,效果更明显。例如:数据工具类产品主要应用于审核、检查、核对等场景,这些场景的特征就是规则明确、目标清晰;人工智能已经可以实现自动写新闻,但自动写的研究报告可用性不强,更适合上市公司财务数据披露使用,原因在于研究报告的分析角度受撰写者的思考逻辑和知识背景差异而不同;人工智能在防范风险上的表现优于寻找机会,历史数据积累有助于风险模型的不断优化,而潜在的投资机会往往会突破原有的分析框架。(3)约束条件:数据质量影响智能投研的效果,随着底层数据质量不断提升,智能投研的效果会越来越好。

自然语言处理

自然语言处理(NLP)就是将复杂的人类自然交流的语言转化成标准化的计算机语言。自然语言处理包括两个部分,一是自然语言理解(NLU),使计算机理解人类的语言,二是自然语言生成(NLG),把计算机运算的结果以人类自然语言的形式呈现。

情感分析是自然语言处理中的一个重要研究方面,主要是对带有感情色彩的主观性文本进行分析、处理、归纳和推理。情感分析的发展得益于社交媒体的兴起,产生了大量个体参与的、对于人物、事件和产品的评论信息,通过机器学习,得出可量化的数据结论。

自然语言处理的应用场景:大数据分析、日志挖掘及分析、自动摘要、文本分类、信息提取、文本朗读/语音合成、语音识别、信息检索、文字校对、机器翻译、问答系统等。在金融行业的应用包括舆情监测、智能风控、智能客服等。

知识图谱

知识图谱:将知识结构绘制成以各个知识单元概念为节点的地图。知识图谱的基础是自然语言处理,在计算机对文本中的知识点理解之后,再建立起各个知识单元之间的关系,形成知识网络,最后以可视化的形式展现出来,或者通过智能搜索引擎呈现。知识图谱的底层是文本、标签和表格,在此基础上构建图表、模式、本体和规则。

投研领域的知识图谱。在投研领域,知识单元包括公司、产品、股东、管理层等,知识单元之间的关系包括上下游、竞争对手、合作、股权、担保等。知识图谱可以知识单元之间的关系网络直观地显示出来,当其中某个节点发生变化时,能快速识别出这个变化在关系网络中的传导过程及对特定主体的具体影响。

市场空间及行业趋势

智能投研的市场空间

要从数据服务广义的角度看智能投研的市场空间。(1)如果仅从投资机构的付费能力看,智能投顾的市场空间有限。头部的券商和具有一定资产管理规模的投资机构是收入的主要来源,机构数量和资产规模成为主要的限制条件。目前国内传统的金融数据服务被万得基本垄断,市占率超过80%,万得2016年的营业收入为13.3亿元,整个市场规模在20-30亿元左右。(2)增量空间1:投资机构需求的多元化。从数据层面,从传统的结构化数据向非机构化数据拓展,而非结构化数据的规模占到80%。从服务层面,在数据功能上要不断完善,提高自动化程度,减少简单重复的人工作业;此外数据服务与软件服务相结合,形成综合性的投资管理平台。(3)增量空间2:目标客户的多元化。从金融行业领域来看,除了投研部门之外,金融数据服务的对象丰富,包括投行业务部门、银行信贷部门、监管审核部门等。其他潜在客户还有媒体、企业、政府、法律机构等。

从长期来看,智能投研的潜在市场空间远大于现有金融数据行业规模。根据第三方市场调研机构Burton-Taylor的数据,全球金融数据市场的规模达到260亿美元,全球的资产管理规模约为80万亿美元;由证券业协会统计的国内资产管理行业的约为50万亿元,而金融数据行业的规模仅为20-30亿,与海外市场相比,市场潜力巨大。

资产管理行业长期保持增长。资产管理行业是智能投研的主要客户来源,资产管理行业的机构数量、资产规模决定了智能投研行业的收入规模。根据证券业协会的统计,截止2018年末,资产管理业务总规模约为50万亿元,其中包含了公募基金、私募基金、基金子公司、证券公司及期货公司。从增速来看,由于近两年宏观经济增速下滑、资本市场波动及监管趋严等因素影响,资产管理规模增速放缓,其中2018年整体规模有所下滑,但从2014年以来,规模的复合增速达到了25%。随着资产管理行业成熟度提升,更多机构(保险机构、外资机构等)和资金(养老金、居民储蓄等)进入资本市场,资产管理行业规模长期将保持增长态势。

智能投研的发展趋势

顺应资产管理行业精细化的发展趋势,资产管理机构在数据及技术方面的投入增速大于资产管理规模的增速。一方面,投资机构通过自动化程序不断提升运营效率,包括投资研究和交易;另一方面,投资交易的风格越来越偏被动和量化,逐渐降低人为主观操作的比例,或者说通过技术手段更好的执行投资经理的投资策略,这些需求都要提升投资机构的科技投入。具体来说,β收益产品要求更低的管理成本和交易成本,提升跟踪标的的准确度,α收益产品的管理难度不断提升,需要持续发现新的、有效的投资策略才能获取超额收益。Smart β产品介于主动及被动管理之间,人工智能可以帮助该类产品进行动态的因子调整,进一步提升获取超额收益的可能性。

传统的金融数据公司通过并购整合保持持续的竞争优势。传统的金融数据服务公司在数据积累及客户资源上具备优势,通过外部并购优秀的创业公司可提升数据产品能力,利用最前沿的人工智能技术,赋能已有的数据业务,增强客户粘性、做大收入规模。例如标普全球公司最近两年连续收购了固定收益技术供应商Algomi、替代数据技术公司Ursa Space Systems和Kensho以及机器学习与分析公司Panjiva Inc。

大量创业公司在努力拓展人工智能的边界。尽管海外金融数据市场非常成熟,头部几家基本都有数十年的历史,但在一级市场上仍有大量的初创公司在细分领域进行探索,运用自然语言处理、知识图谱等人工智能技术开发差异化的数据产品。

智能投研公司成功路径:深度和广度必取其一。(1)所谓广度,是指智能投研产品定位的目标市场的大小。一是把握资本市场的变化趋势,瞄准资产规模占比提升的细分市场,例如前几年的债券市场、近期快速拓展的ETF市场。由于这些市场处于扩张期,参与机构数量会增加,相应的智能投顾市场也会扩容,把握机会就能快速做大客户规模。二是关注非投资机构的需求,自然语言处理是相对底层的技术,从金融本文中训练出来的算法也可以向其他行业的标准化文本进行复制,从而扩大受众范围。(2)所谓深度,是指智能投研产品的数据挖掘能力及智能化水平。根据现有公开数据构建更加细化的产业链知识图谱,发现潜在的相关性,并持续将更多维度的数据纳入。另一种路径是做出有市场影响力的数据产品,如行业指数等,这也是成为头部数据公司的标志。

海外案例分析

数据分析公司Kensho

Kensho的公司定位是数据分析公司,运用机器学习,建立事件与资产价格之间的相关性。(1)底层是一个庞大的数据库,事件库覆盖全球的政治、经济、行业、技术、自然等9万种事件,资产包括股票、基金、大宗商品、外汇等。(2)中间层是金融数据的知识图谱,从事件到资产价格,Kensho运用了机器学习技术,涉及各种指标之间的相关性、各种因素的不同组合,最后经过复杂的计算给出最有可能的结果(3)前台是基于自然语言处理技术的智能搜索引擎,使人与系统可进行自然的对话。用户只需按照人际交流的方式进行提问,系统就能理解用户的意思,并快速计算,输出结果是预测某一事件发生之后某一种资产的价格变化趋势。Kensho曾正确预测英国脱欧对英镑汇率的影响、美元反弹对科技股股价的影响。

与传统数据服务商的合作使效用最大化。Kensho在2018年3月以5.5亿美元的价格被标普收购,是近几年来人工智能领域最大金额的一笔收购。Kensho成为标普旗下成员对于其业务发展有明显的促进作用,一方面能获得标普积累多年的数据资源,独特的数据资源是构成竞争壁垒的重要因素;另一方面标普服务全球主要金融机构,客户基础扎实,对于客户需求了解深入,原有数据服务结合Kensho前沿的数据产品能进一步巩固市场地位,并引领金融数据服务行业的技术发展。

资产管理系统Aladdin

贝莱德的阿拉丁是一个集风险分析、资产组合管理、交易和运营工具为一体的资产管理平台系统,贝莱德通过阿拉丁平台向资产管理公司输出行业领先的风险管理能力。阿拉丁的优势在于丰富的数据积累,并且仍在不断从第三方获取数据和信息,基于庞大的数据库对风险因子进行实时监测,基于蒙特卡洛测试,模拟各种市场极端情况,对资产组合进行压力测试。通过大量的情景分析来协助资产管理公司预测、分析并应对风险。

阿拉丁是贝莱德科技服务的主要收入来源。阿拉丁的收费模式是在平台上管理的资产规模乘以固定的费率。阿拉丁的数据中心有六千台服务器,为全球170多家金融机构、1.7万名交易员提供服务,这些客户管理的资产规模达到11万亿美元,贝莱德本身也在阿拉丁平台上管理资产。阿拉丁的营业收入呈现出持续上升态势,2018年贝莱德的科技收入达到7.87亿美元,其中主要是来自于阿拉丁的收入贡献。

国内公司案例分析

庖丁科技

公司定位专注于金融文档语义理解的人工智能公司。通过语义理解对富格式文档(文字、表格、图表)进行文档结构识别,使机器读懂。公司有120人,背景包括AI、金融和IT,其中金融来自券商投行部、四大等。50人的研发团队,AI有10人,工程开发40人。

四个产品:(1)AutoDoc:2017年5月推出,主要分析债券募集说明书、IPO招股书,实现交叉复核、勾稽关系检查、完备性审核等功能,客户包括监管部门、券商银行的投行、风控、质控部门。30多家券商提交了6000多份文档(债券募集说明书为主)。其中有95%的文档出现错误,错别字平均12个/篇,数值错误10个/篇。(2)Scriber:在长文档中抽取重要要素。先人工标注,再实现AI模型自动抽取要素。以方案简介为例,抽取准确率达到95%以上,可提升人工的工作效率。(3)PDFlux:底层技术,前两种产品都有用到,能自动识别出段落、无框线表格、跨页表格、复杂编排页面等。该产品目前已在官网公开免费测试,已有2000个用户使用。(4)Foundry:底层AI平台。智能机器学习及智能计算平台本地化部署。

客户及交付方式:从监管部门切入市场,目前以监管部门客户为主,还包括部分头部券商。监管客户项目包括:(1)证监会“1号工程”:在招股书中提取约500个信息要素。(2)深交所证券文本信息抽取技术研究项目:并购重组报告的关键信息抽取。(3)上交所科创板招股说明书审核项目。

技术能力:计算机属于实验科学,核心竞争力在于大量数据标注,算法和数据都很重要,具体要看标注数据的效率。公司注重内部底层技术的打造,底层是通用的,再根据客户需求做少量的定制化开发。目前标注的准确率达到99%。

文因互联

公司2015年11月成立,2017年初将发展方向确定为监管科技,目前主要服务监管部门和银行,提供自动化和智能化方向的解决方案,目前收入占比约为2:1,未来预计银行业务的占比会提升。服务上交所、全国股转公司等核心监管机构接近两年半,期间完成多个核心监管系统开发项目。银行客户包括平安银行、招商银行、南京银行、江南农商行等。公司团队具有海外研究及工作经验,创始人是国内仅有的参与过知识图谱领域创建的从业者(W3C知识图谱标准OWL作者之一,W3C顾问委员会委员,XBRL语义建模作者)。公司目前超过65%为技术开发人员,硕士和博士占比超50%。

产品定位:一是金融文本自动解析平台,运用自然语言处理和知识图谱技术解析100多类金融文档,包括招股书、产品说明书、监管函、研报、公告等,实现搜索、问答、自动生成报告、财务审核等,从非结构化文本中提取结构化数据;二是金融行业标准化流程的自动化应用,包括财务分析、会计勾稽关系验证、公告合规性检查、信贷业务合规性审核等。

技术能力达到工业级可用,近乎实时。(1)质量方面,表格准确率99%,文本95%以上。准确率是指目标信息点的准确率(例如招股书大约有300-400个信息点),具体由客户来定义。审计客户的准确率要求更高(原则上要求100%,能达到99.8%)。(2)速度:200页的文档处理时间为30秒,行业平均水平为10分钟。

拥有完整知识图谱能力。知识图谱包括四个层级,图、模式、本体和规则,实现在文本中提取出实体以及关系的效果,并做进一步逻辑推演。基于语言解析和知识的整体抽取,运用先验知识和常识知识,训练了100多个模型,综合运用多种模型,实现小时级迭代,提高整体的准确率,而不是单个指标的提升。

犀语科技

公司成立于2017年02月,专注于金融行业的文本处理,是百度AI加速器合作伙伴。创始人具有金融行业背景,首席科学家是自然语言处理、机器学习方面的专家。公司取得CMMI3(软件能力成熟度模型集成)认证,16项专利著作权以及4项发明专利。

三个产品:(1)犀察:主要应用于金融文本的校验和检查。主要针对招股说明书、投资报告、银行信贷报告等强规则的文本,进行自动化的审核,查找错误、疏漏等并提示修正。例如:1、财务报表审核系统:表内检测、跨表检测、文表检测、明细加总、衍生指标、同比变动检测等。各种情况不可能枚举,NLP技术能识别。2、债券的发行文件审核,合规性、真实性、风险预警等。3、IPO文件的合规性审核、实质性审核、真实性审核、财务指标异常的识别、企业舆情监控、多文档检测。4、研报质控。引用事件的准确性、合规性、敏感词、黑名单、查重等。(2)犀文:主要是金融文档的提取和结构化处理,包括图片/扫描件。将非结构化数据变成结构化数据,便于存档及查找。报告比对,第一稿和最后一稿的比对。(3)犀见:主要用于舆情监测、事件影响等。给民生银行做的项目。针对海量的金融信息,智能化的解读分析,判断市场事件对金融业务的影响,协助决策及风控。

目前是项目制交付,本地化部署。四个个典型客户案例:(1)华泰证券:投行智能审核系统,招股书申报稿的校验,提高审核人员的效率。后续再做债券和并购的文本校验。(2)民生银行:智能事件预警系统,能识别风险事件的主体、主题和相关方,目前对5000家企业进行监控,每天对上万份相关事件报道进行筛选。(3)产交所(交付中):智能合同文本审核系统,扫描件识别,运用OCR计算机视觉技术。根据机构要求进行文本检测。(4)KPMG(交付中):财务报表智能核查系统,针对财务审计报告进行表内校验,表表校验,辅助检验等。

视野金服

公司定位: 2B模式,一级市场的wind,数据终端的模式。不生产数据,运用算法整合数据,便于客户使用。团队背景:4个创始人,其中2个技术合伙人。创始人投行出身,中金、华尔街投行的工作经历。14年公司注册,15年开始做业务,16年开始转型2B数据库模式。公司一共有80人,其中有60个开发人员。目前主要客户为银行以及券商的投行和直投部门,另有部分PE和国资背景的投资机构。

企业入库的三个条件:目前有300多万家企业数据。(1)与资本市场相关的40 万家企业。其中与二级市场相关的有8 万家,新三板近1万家,IPO排队2000 家,私募投过的24 万家。(2)20 万家外商投资企业,国企投资约20万家企业,央企投资约3.6万家核心企业。(3)有各类牌照的公司约150万家。

产品特色:(1)投融资数据:一级市场投资机构的投资情况、投资偏好(行业分布)、退出情况、投资和管理关系等。库内投资机构共40 万家,其中GP16万家,备案的私募2.4万家。(2)产业链及行业数据:同业公司(商业模式、经营情况)、新三板公司、启动上市辅导公司、科创板潜在企业、美股和港股可比公司。(3)数据标签:客户画像,行业分类更加细,二级分类,加产业链,一共1200个行业标签。其他标签包括资本市场状态、IPO审核意见等。

因果树

公司于2014年12月成立,创始团队背景包括国内投行、一级市场投资,海外技术研发、技术企业并购等。先做了企业、技术专业和产业的图谱集群,然后进行企业评估,智能匹配,服务金融机构、政府部门,金融科技公司,通过数据和数据分析系统赋能这些组织做各种创新资源(政策,资本,技术,人员)之间的匹配。公司目前定位为商业情报公司、数据及数据分析工具公司,从提供数据分析工具开始。未来通过数据系统逐步向前台业务延展,实现从数据到信用到交易的商业闭环。公司认为未来中国的机会在创新经济,创新动力在小公司,所以专注于小型科技型企业的数据分析,目前覆盖3000万家企业相关的数据。公司目前有60个员工,70-85%是产品 技术,10%是专家和行业分析师,5%后台人员。

产品功能。(1)企业标签:公司搜索、竞品分析等。(2)贸易型和科技型企业的征信:技术的尽职调查,单项技术的估值。(3)智能匹配推荐(并购、投资、商业合作):关联的业务方向、潜在的并购标的、战略意图识别、企业相似度、风险传递方向、派系分析等。

客户及交付方式。目标客户是2G和2B,包括金融机构、咨询公司、产业园区、企业等。PE/VC不是最主要的客户,主要客户是有大量资源需要匹配的公司,如具有政府背景的公司或者协会等。产品形态包括开放式API接口、SAAS、知识图谱服务KGAAS、全栈解决方案。

技术路径:知识图谱 模型。(1)给企业打标签(商业模式、业务逻辑等),一个公司最多有上千个标签,总共有40万商业模式和技术节点标签。(2)标签之间有网络关系。30亿条边关系。人工设定的产业链关系,自动计算不同标签之前的强度关系。(3)智能搜索功能,设定标准,筛选企业,小赛道分析,企业有哪些,投资机构有哪些,行业发展等。

技术专业知识图谱。定义概念有一套方法论,运用自然语言处理技术处理文献、资料、新闻等。启动阶段有60-70%是标签是专家标注的,初步形成体系后再用技术自动标注。能实现用技术名词来找公司、找全球技术发展情况、找技术的价格、技术应用领域大小等。目前已覆盖50个产业。客户可以也可以自己定义,设定层次关系,系统可以找出相关所有信息。

烯牛数据

产品定位:一级市场数据库(搜索) 功能(数据价值挖掘、追踪、项目发现)。2016年6月成立,2016年12月推出产品,2018年8月推出付费产品。创始人包括VC投资背景、VC的CTO、数据科学家有NLP学术背景。公司目前有50人,70%为技术人员。

数据库包括公司、行业、机构、人物、资讯、指标。功能包括对标、管理系统、追踪、项目发现。融资信息比较全,包括FA、信息来源等,数据来源包括新闻和工商信息。其他信息包括专利、产品、APP、网站、历史产品、招聘数据、新闻、竞争对手等。数据源包括公开数据和战略合作交换的数据。重点做100万家新经济公司(TMT、新消费等)的数据,收录11万融资数据、2万家投资机构、220万条新闻;每天新增大几千条新闻、800家公司、融资信息50-100条。

数据标签包括公司优势、行业分类和活动表现等。公司优势标签包括招聘活跃、知名风投、连续获投、团队优秀、高新技术企业等。行业分类有三层,第一层有20多个行业,二三层有几千个行业标签(网状结构),另外还有赛道标签(热度标签)。机器先发现热门词,人工判断是否进入赛道标签。标签总数上万个。另外,也可以从投资机构的角度进行搜索,看一级市场投资机构的投资情况,最近一段时间投哪些领域,退出情况,前后投、同时投的统计,投资机构旗下基金的投资情况,未公开融资事件(工商数据挖掘),企业人物包括创业者和投资人,市场报告、券商报告、财务指标等,打通了LP到GP项目的数据链条,清晰呈现合作和上下游机构情况以及与自己风格相似的机构情况。

前台业务协作的管理系统,功能涵盖了一键录入项目、项目流程管理 、 项目知识沉淀、例会、项目复盘等功能。管理系统可批量导入公司进行跟踪包括融资事件、产品动态、媒体报道、工商变更、竞品消息、招聘异动、司法、知识产权等。客户可自行设置条件,支持邮件推送。另外也可以追踪投资机构、牛人创业者项目等。

客户及交付方式。客户包括投资机构、媒体、市场研究公司、银行及企业。投资机构一般购买用户账号,需求主要包括找投资标的、监控竞品、投后管理等。银行和企业服务公司采用API接口,与系统对接,银行主要是企业贷款和投资部门,主要需求是找客户或者合作伙伴,数据接口按数据量收费。从收入来看,账号和数据接口各一半,账号数量多,客单价小。

数库

公司定位为数据智能公司,运用数据科学提供数据流服务(未来的投研),用于量化投资和系统化交易。不帮客户做决策,定位是服务商。公司2009年成立,之前主要满足海外投资机构对中国资本市场数据的需求,海外有付费习惯,成立之初就采用数据终端的产品形式。2012年开始做大数据架构,2013年开始研究NLP和弱机器学习,主要是为了优化数据生产的成本效率。目前有100个员工,IT部门40-50人,数据部门30人。二级市场分析需要精准匹配,采用机器 人工方式,需要100%准确。

数据产品:(1)SAM(Segment Analysis & Mapping)产业链:拆分上市公司的产品分项,进行高度标准化,把实体经济的产业链系统化地描述出来,在每一个产业节点上面显示相关公司、营收、成本和毛利率。覆盖A股和港股的2万家公司,数据源包括研报、公告等,通过行业标签找到上下游产业链企业,行业包括4级GICS和8级衍生共12级,一共4000个行业标签。基本实现数据自动化处理,有一定的容错机制,将研报、公告中的信息变成结构化数据。产业链的范畴大于供应链(有实际业务关系),可以通过产业链上已经发生的事件及影响,来预测该产业链上其他公司可能会出现的情况。具体应用看客户自己的投资策略,数库提供高质量的数据材料。(2)SmartTag智能标签:运用NLP技术,提取的标签会进入数据体系,自动连接产业链数据,形成知识图谱,98.5%的进程是自动化的。每天有15000篇财经资讯,去重后7000-8000篇,但关于标的公司的新闻又很少,基于产业链体系的标签,会推送最相关的资讯给客户,客户可自行选择关联性程度进行筛选。标签包括公司、产品、行业、时间、投资主体、情感面等。(3)知识图谱:基于NLP技术。覆盖20万家公司,50种关系。一共有100万节点、300万关系。今年会增加9000家发债企业和3000万家工商登记企业。挖掘公司与公司、人与人关系的路径。(4)基本面数据:覆盖A股、港股、新三板。(5)公告:900 种事件类型,单时间线概念。关于公告的处理,细化公告种类到事件,对事件也进行标签化,融入数据体系。(6)研报信息流:覆盖A股。观点和事件的对接。

客户及销售模式。(1)国内客户主要是券商和综合金融集团,如华泰证券、平安集团等。券商需求包括网金部门的APP、固收、投研。2017年主要是项目制,目前产品比较标准化了,数据流或者数据接口。自营团队开拓头部券商客户,采用与软件商合作模式拓展小机构客户。平安集团客户主要包括平安资管(智能资讯,应用于投研,研究员的定制化桌面)、平安证券(智能资讯标签,应用于手机APP,类似于今日头条,提高客户使用时长)、平安科技(提供欧拉图谱的产业链体系)等。(2)海外客户主要是量化基金,海外市场空间有3000家资管公司。销售方式是挂到数据平台或数据交易市场上。

宽拓科技

智能投研产品架构:底层是基本面分析、研报分析,数据源包括万得、通联、聚源等结构化数据,还有挖掘的数据。积木式的产品形态,搭建大中台,根据客户需求来组合。顶层通过搜索进入,包括基本面投研、量化投研、智能投研平台。智能搜索包括事件列表和可视化的知识图谱。交付方式目前是项目制,由客户提需求,客户提供知识体系。未来可将部分功能产品化,另外向客户提供定制化服务。投研系统可以作为独立的项目来做,再通过项目衍生出产品。舆情信息与基金经理的资产组合打通。

智能投研平台主要包括债券信评、事件预警、预测分析,核心是事件分析,通过自然语言处理技术,主要监控和分析政策、互联网媒体、社交媒体上的文本数据,对事件进行分类及量化。例如股东的股东出现违约事件、上下游公司突发事件,对事件影响进行打分。债券打分采用传统的专家打分 模型学习的方式。事件分析采用历史数据分析方式,同类事件的回归分析,结合其他量化数据建立模型,来预测对股价的影响。

事件数据库:目前有过去5年发生的200多万事件,40多个大分类,500个细小分类。大致分为社会、宏观及公司三大类,具体包括公司、高管、法人、财务、行业、宏观、国际、自然灾害等。细分事件要素,例如处罚事件有处罚额度、并购时间的交易金额等量化指标。

核心优势在于:可与投资端打通,根据客户的需求开发舆情事件、风控信息等功能,把客户的投资逻辑和体系做成系统。做完数据,再做指标体系。自己做非结构化数据,再跟购买的结构化数据结合。公司主要产品是一体化的资管平台,用智能投研去赋能。

风险提示:金融行业监管政策变化、人工智能技术发展不及预期

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
人工智能+金融:如何突破你的想象
银行如何拥抱人工智能
海致杨娟:知识图谱是金融机构迈向智能金融的重要台阶
亮相云栖大会 民生银行引领数字化转型新高度
百融云创的风控“智能范”
智能化的互联网金融,客户服务是最佳切入口
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服