打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
数学之美里的机器学习

章节

概述

关键字

第1章 文字和语言 vs 数字和信息

人们在自然语言处理里曾经走过弯路——过于关注句法和文本分析。但这种方法复杂度过大且无法很好适配新句法,1970s后人们提出基于[通信系统]和[隐含马尔科夫模型]的自然语言处理方法。而随着计算机技术的发展,[统计]方法更为人所知,在工业界广泛应用[数据挖掘/网页搜索/语音识别/机器翻译]机器智能 图灵测试 隐含马尔科夫模型 FrederickJelinek IBM华生实验室 PeterBrown

第2章 自然语言处理——从规则到统计

第3章 统计语言模型

用统计的方法做自然语言处理,不再深究句法是否合理,而是统计哪一种句法在语料库里最常出现。

依据[马尔代夫假设]/条件概率,统计语言模型的计算变得更加简单有效,逐渐在分词、语音识别、机器学习里大展头角。

达特茅斯会议 马尔科夫假设 马尔科夫链 隐含马尔科夫模型 二元模型 BigramModel 语料库 大数定理 Rosetta

第4章 谈谈中文分词

[统计语言模型]虽然有效,但在实际工作中需要更高效的算法。

[通信模型]的引入,把自然语言处理等价于通信模型的解码问题。结合[隐含马尔科夫模型]。让分词问题/多义词问题,成为[更小范围]内的条件概率,提高了运算效率

查字典 最少次数的分词理论 分词二义性 郭进 动态规划 孙茂松 吴德凯

第5章 隐含马尔可夫模型

通信模型 LenoardBaum 随机变量 随机过程 独立输出假设 维特比算法 语音识别

第6章 信息的度量和作用

引入[信息熵]概念,把[信息]与[不确定性]结合起来。减少信息[不确定性],其实是一个条件概率(已知Y,若X/Y相关,则能更了解X),为[互信息]香农 信息熵 比特 信息量 冗余度 通信的数学原理 消除不确定性 联合概率分布 条件概率分布 互信息 语料 DavidYarowsky

第7章 贾里尼克和现代语言处理

人物传记信息六要素 RomanJakobson 最大熵迭代算法 BCJR算法 维特比算法 ICASSP CLSP

第8章 简单之美-布尔代数和搜索引擎的索引

搜索的核心:按[图]下载尽可能多的网页,用[TRUE/FALSE]建立网页关键词的索引,利用[PageRank]决定排序,再通过[TF-IDF]衡量关键词权重,提高查询与网页之间的[相关性]二进制 布尔代数 GottfriedLeibniz 二进制计算机 香农 量子力学 离散数学 索引 分布式存储

第9章 图论和网络爬虫

离散数学 数理逻辑/布尔运算 图 遍历Traverse 广度优先搜索 深度优先搜索 弧 网络爬虫 散列表HashTable

第10章 PageRank -Google的民主表决式网名

网页质量信息 PageRank 民主表决 链接权重 稀疏矩阵计算 系统论 信息检索课程

第11章 如何确定网页和查询的相关性

概率模型 TF-IDF 关键词权重 词频 停止词 KarenSparckJones 文献学学报 交叉熵 Kullback-LeiblerDivergence

第12章 有限状态机和动态规划——地图和本地搜索的最基本技术

利用[有限状态机]进行地址分析(省/市/县定位识别),又因为有些地址不标准,要用到[基于概率的马尔科夫链]进行分析。而在两个地址之间规划路线,采用[图]里的[动态规划]进行快速检索有限状态机 有向图 有向弧 开始状态 终止状态 模糊匹配 基于概率的有限状态机 离散的马尔科夫链 AT&T 加权图 最短路径 动态规划DynamicProgramming

第13章 Google AK-47 的设计者 — 阿米特·士

人物传记:寻找简单有效的解决方法AmitSinghal Ascorer 网络搜索中的作弊问题 模型压缩 简单方法的有效性 UdiManber 文本的句法分析 机器学习 分析不好的结果

第14章 余弦定理和新闻的分类

对于新闻分类,利用TF-IDF描绘新闻文本(特征向量),认为向量夹角(余弦定理)可以描述两者间的相关性。但当向量过大时,需要引用[矩阵]中的[奇异值分解],以缩减计算过程。另外,由于数据量过大,工业界在研究如MapReduce等并行算法。新闻自动分类 TF-IDF 特征向量 特征向量之间的相似性 向量代数 余弦定理 余弦相似性 自底向上不断合并 RaduFlorian 自动分类 论文评审

第15章 矩阵运算和文本处理中的两个分类问题

数值分析 线性代数 矩阵 奇异值分解 SVD 加权词频 矩阵特征值 数值分析 奇异值分解的并行算法

第16章 信息指纹及其应用

在[网络爬虫]时,要在[散列表]中记录曾经访问过的网址。当长文本不利于数据匹配,为了效率,利用[伪随机数产生器],将信息变为二进制随机数。这个可用于[加密]、[文章相似度匹配]等领域信息熵 无损压缩编码 散列表 随机映射 128位二进制 信息指纹 伪随机数产生器算法 PRNG 梅森旋转算法Mersenne Twister 加密的伪随机数产生器CSPRNG 判断集合基本相同 想死哈希 关键帧的提取 视频特征提取

第17章 由电视剧《暗算》所想到的 — 谈谈原理

凯撒大帝 信息论 跳舞的小人 反函数 自变量 亚德利HerbertOsborneYardley 中国黑室 公开秘钥 RSA算法 Rabin算法 互素 公约数

第18章 闪光的不一定是金子

除了排序和看相关性以外,要排除噪音[搜索引擎作弊]和判断搜索结果的[权威性]。对噪音消除做[解卷积],对全文进行[句法分析],找到[提及]信息,判断信息源的权威性网页排名作弊 反作弊 重复关键词 买买链接 通信模型 抗噪声 振幅相反 汽车噪声 解卷积 卷积 相关性 高斯白噪声 抗干扰 出链 余弦距离 图论 Clique 去噪音 搜索结果权威性 提及 句法分析 信息源描述 互信息 聚合 收敛

第19章 谈谈数学模型的重要性

通过天文学的例子再次强调数学模型的重要性椭圆模型

第20章 不要把鸡蛋放到一个篮子里 — 谈谈型

最大熵模型,即保留却不得不确定性,这是[指数模型]。在很多地方都用到最大熵 椭圆模型 AT&T 不确定性 指数模型 I.Csiszar 归一化因子 AdwaitRatnaparkhi 词性标识系统 句法分析器 对冲基金 文艺复兴技术公司

第21章 拼音输入法的数学原理

输入法的效率,利用词和上下文相关性提高效率。涉及[动态规划]及[语料库]平均击键次数 消除歧义香浓第一定理 信息熵 词库 语言模型 概率论 动态规划 通信问题 有向图

第22章 自然语言处理的教父马库斯和他的学生

介绍一些科学家的研究思路MitchMarcus LDC语料库句子分析 分析器 柯林斯 基于变换规则的机器学习方法 词性标注

第23章 布隆过滤器

用于判断一个元素是否在一个集合里散列表 布隆过滤器 二进制向量 随机映射 信息指纹 垃圾邮件过滤

第24章 马尔可夫链的扩展 — 贝叶斯网络

介绍[马尔科夫]系列推广。如[贝叶斯网络]是马尔科夫链的推广,解决多个节点的概率计算,在[分词]上有卓越成就。而[条件随机场]类似于[贝叶斯网络],只不过它属于[无向图],与[最大熵]联系起来。另外,[括括号]把[文法分析]与数学模型关联起来,更有效进行文本分析。贝叶斯网路 可信度 贝叶斯公式 联合概率分布 结构训练 参数训练 NP完备问题 词分类 文本分类 Rephil局部最优 蒙特卡罗方法 EM过程

第25章 条件随机场和句法分析

联合概率分布 文法分析 语义分析 拉纳帕提 括括号 最大熵模型 对数函数 浅层分析 条件随机场 无向图 隐含马尔科夫模型 边缘分布 大数定理 指数函数 Gparser 犯罪预测 模式识别 机器学习 生物统计 预防犯罪率

第26章 维特比和他的维特比算法

[维特比算法]属于[动态规划算法],针对[篱笆网络]这种特殊的图,可解决大多[隐含马尔科夫链]的模型。AndrewViterbi 高通 动态规划 篱笆网络 有向图最短路径 隐含马尔科夫模型 状态跳跃 状态自环 输入法解码 扩频传输 噪音 时分多址 频分多址 FDMA TDMA CDMA 高通公司

第27章 再谈文本自动分类问题 — 期望最大化算法

介绍了如Kmeans聚类,逻辑回归,分布式运算、人工神经网络的基础内容。期望最大化 文本自动分类 自底向上 文本中心 收敛 迭代

第28章 逻辑回归和搜索广告

逻辑回归 一层的人工神经网络 训练最大熵模型 IIS

第29章 各个击破算法和Google 云计算的基础

分治算法 各个击破 MapReduce 归并排序

第30章 Google大脑和人工神经网络

深度学习 Google大脑 有向元 贝叶斯网络 人工神经网络

第31章 大数据

切比雪夫不等式
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
【每周一本书】之《深入浅出强化学习:原理入门》:零起点入门掌握AlphaGo的核心强化学习算法
An Introduction to 隐马尔科夫模型(viterbi算法)--逆水行舟
自然语言处理(NLP)知识结构总结
隐马尔科夫模型HMM自学 (6)尾声
抗癌新武器:谷歌网页排名算法
清华硕士爆料:这些才是机器学习必备的数学基础
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服