数学之美里的机器学习

章节

概述

关键字

第1章文字和语言 vs 数字和信息

人们在自然语言处理里曾经走过弯路——过于关注句法和文本分析。但这种方法复杂度过大且无法很好适配新句法，1970s后人们提出基于[通信系统]和[隐含马尔科夫模型]的自然语言处理方法。而随着计算机技术的发展，[统计]方法更为人所知，在工业界广泛应用[数据挖掘/网页搜索/语音识别/机器翻译]机器智能图灵测试隐含马尔科夫模型 FrederickJelinek IBM华生实验室 PeterBrown

第2章自然语言处理——从规则到统计

第3章统计语言模型

用统计的方法做自然语言处理，不再深究句法是否合理，而是统计哪一种句法在语料库里最常出现。

依据[马尔代夫假设]/条件概率，统计语言模型的计算变得更加简单有效，逐渐在分词、语音识别、机器学习里大展头角。

达特茅斯会议马尔科夫假设马尔科夫链隐含马尔科夫模型二元模型 BigramModel 语料库大数定理 Rosetta

第4章谈谈中文分词

[统计语言模型]虽然有效，但在实际工作中需要更高效的算法。

[通信模型]的引入，把自然语言处理等价于通信模型的解码问题。结合[隐含马尔科夫模型]。让分词问题/多义词问题，成为[更小范围]内的条件概率，提高了运算效率

查字典最少次数的分词理论分词二义性郭进动态规划孙茂松吴德凯

第5章隐含马尔可夫模型

通信模型 LenoardBaum 随机变量随机过程独立输出假设维特比算法语音识别

第6章信息的度量和作用

引入[信息熵]概念，把[信息]与[不确定性]结合起来。减少信息[不确定性]，其实是一个条件概率(已知Y，若X/Y相关，则能更了解X)，为[互信息]香农信息熵比特信息量冗余度通信的数学原理消除不确定性联合概率分布条件概率分布互信息语料 DavidYarowsky

第7章贾里尼克和现代语言处理

人物传记信息六要素 RomanJakobson 最大熵迭代算法 BCJR算法维特比算法 ICASSP CLSP

第8章简单之美-布尔代数和搜索引擎的索引

搜索的核心：按[图]下载尽可能多的网页，用[TRUE/FALSE]建立网页关键词的索引，利用[PageRank]决定排序，再通过[TF-IDF]衡量关键词权重，提高查询与网页之间的[相关性]二进制布尔代数 GottfriedLeibniz 二进制计算机香农量子力学离散数学索引分布式存储

第9章图论和网络爬虫

离散数学数理逻辑/布尔运算图遍历Traverse 广度优先搜索深度优先搜索弧网络爬虫散列表HashTable

第10章 PageRank -Google的民主表决式网名

网页质量信息 PageRank 民主表决链接权重稀疏矩阵计算系统论信息检索课程

第11章如何确定网页和查询的相关性

概率模型 TF-IDF 关键词权重词频停止词 KarenSparckJones 文献学学报交叉熵 Kullback-LeiblerDivergence

第12章有限状态机和动态规划——地图和本地搜索的最基本技术

利用[有限状态机]进行地址分析(省/市/县定位识别)，又因为有些地址不标准，要用到[基于概率的马尔科夫链]进行分析。而在两个地址之间规划路线，采用[图]里的[动态规划]进行快速检索有限状态机有向图有向弧开始状态终止状态模糊匹配基于概率的有限状态机离散的马尔科夫链 AT&T 加权图最短路径动态规划DynamicProgramming

第13章 Google AK-47 的设计者 — 阿米特·士

人物传记：寻找简单有效的解决方法AmitSinghal Ascorer 网络搜索中的作弊问题模型压缩简单方法的有效性 UdiManber 文本的句法分析机器学习分析不好的结果

第14章余弦定理和新闻的分类

对于新闻分类，利用TF-IDF描绘新闻文本（特征向量），认为向量夹角(余弦定理)可以描述两者间的相关性。但当向量过大时，需要引用[矩阵]中的[奇异值分解]，以缩减计算过程。另外，由于数据量过大，工业界在研究如MapReduce等并行算法。新闻自动分类 TF-IDF 特征向量特征向量之间的相似性向量代数余弦定理余弦相似性自底向上不断合并 RaduFlorian 自动分类论文评审

第15章矩阵运算和文本处理中的两个分类问题

数值分析线性代数矩阵奇异值分解 SVD 加权词频矩阵特征值数值分析奇异值分解的并行算法

第16章信息指纹及其应用

在[网络爬虫]时，要在[散列表]中记录曾经访问过的网址。当长文本不利于数据匹配，为了效率，利用[伪随机数产生器]，将信息变为二进制随机数。这个可用于[加密]、[文章相似度匹配]等领域信息熵无损压缩编码散列表随机映射 128位二进制信息指纹伪随机数产生器算法 PRNG 梅森旋转算法Mersenne Twister 加密的伪随机数产生器CSPRNG 判断集合基本相同想死哈希关键帧的提取视频特征提取

第17章由电视剧《暗算》所想到的 — 谈谈原理

凯撒大帝信息论跳舞的小人反函数自变量亚德利HerbertOsborneYardley 中国黑室公开秘钥 RSA算法 Rabin算法互素公约数

第18章闪光的不一定是金子

除了排序和看相关性以外，要排除噪音[搜索引擎作弊]和判断搜索结果的[权威性]。对噪音消除做[解卷积]，对全文进行[句法分析]，找到[提及]信息，判断信息源的权威性网页排名作弊反作弊重复关键词买买链接通信模型抗噪声振幅相反汽车噪声解卷积卷积相关性高斯白噪声抗干扰出链余弦距离图论 Clique 去噪音搜索结果权威性提及句法分析信息源描述互信息聚合收敛

第19章谈谈数学模型的重要性

通过天文学的例子再次强调数学模型的重要性椭圆模型

第20章不要把鸡蛋放到一个篮子里 — 谈谈型

最大熵模型，即保留却不得不确定性，这是[指数模型]。在很多地方都用到最大熵椭圆模型 AT&T 不确定性指数模型 I.Csiszar 归一化因子 AdwaitRatnaparkhi 词性标识系统句法分析器对冲基金文艺复兴技术公司

第21章拼音输入法的数学原理

输入法的效率，利用词和上下文相关性提高效率。涉及[动态规划]及[语料库]平均击键次数消除歧义香浓第一定理信息熵词库语言模型概率论动态规划通信问题有向图

第22章自然语言处理的教父马库斯和他的学生

介绍一些科学家的研究思路MitchMarcus LDC语料库句子分析分析器柯林斯基于变换规则的机器学习方法词性标注

第23章布隆过滤器

用于判断一个元素是否在一个集合里散列表布隆过滤器二进制向量随机映射信息指纹垃圾邮件过滤

第24章马尔可夫链的扩展 — 贝叶斯网络

介绍[马尔科夫]系列推广。如[贝叶斯网络]是马尔科夫链的推广，解决多个节点的概率计算，在[分词]上有卓越成就。而[条件随机场]类似于[贝叶斯网络]，只不过它属于[无向图]，与[最大熵]联系起来。另外，[括括号]把[文法分析]与数学模型关联起来，更有效进行文本分析。贝叶斯网路可信度贝叶斯公式联合概率分布结构训练参数训练 NP完备问题词分类文本分类 Rephil局部最优蒙特卡罗方法 EM过程

第25章条件随机场和句法分析

联合概率分布文法分析语义分析拉纳帕提括括号最大熵模型对数函数浅层分析条件随机场无向图隐含马尔科夫模型边缘分布大数定理指数函数 Gparser 犯罪预测模式识别机器学习生物统计预防犯罪率

第26章维特比和他的维特比算法

[维特比算法]属于[动态规划算法]，针对[篱笆网络]这种特殊的图，可解决大多[隐含马尔科夫链]的模型。AndrewViterbi 高通动态规划篱笆网络有向图最短路径隐含马尔科夫模型状态跳跃状态自环输入法解码扩频传输噪音时分多址频分多址 FDMA TDMA CDMA 高通公司

第27章再谈文本自动分类问题 — 期望最大化算法

介绍了如Kmeans聚类，逻辑回归，分布式运算、人工神经网络的基础内容。期望最大化文本自动分类自底向上文本中心收敛迭代

第28章逻辑回归和搜索广告

逻辑回归一层的人工神经网络训练最大熵模型 IIS

第29章各个击破算法和Google 云计算的基础

分治算法各个击破 MapReduce 归并排序

第30章 Google大脑和人工神经网络

深度学习 Google大脑有向元贝叶斯网络人工神经网络

第31章大数据

切比雪夫不等式

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。