2022《数学之美》读书笔记_2.docx
《2022《数学之美》读书笔记_2.docx》由会员分享,可在线阅读,更多相关《2022《数学之美》读书笔记_2.docx(36页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第 1 1页共 3636页20222022数学之美读书笔记数学之美读书笔记数学之美读书笔记当细细地品读完一本名著后,信任你心中会有不少感想,此时须要仔细地做好记录,写写读书笔记了。千万不能认为读书笔记随意应付就可以,下面是我帮大家整理的数学之美读书笔记,仅供参考,大家一起来看看吧。数学之美读书笔记 1数学之美,一个从事多年工作的谷歌探讨员眼中的数学。令我大饱眼福的是,高校里面的数学学问竟能如此广泛运用到了计算机行业中。在语音识别、翻译,还有密码学领域,有着很多基于概率统计的模型和思想。当然,贝叶斯公式是基础,应用到隐含马尔科夫链模型,神经网络模型。在搜寻中,一些相关性的计算,无不用到了概率的学
2、问。在新闻分类中,用到了一些有关矩阵特征值、相像对角化的学问。当然,在图像处理方面,矩阵变换可谓是无处不在。另外,在识别方面,有一第 2 2页共 3636页些通信模型,涉及到了信道、误码率、信息熵。最近刚开学也没什么事,所以就想随意找几本书看一下,但最好别是那种太艰深晦涩的书。8 月份始终到现在,吴军写的这本 12 年 5月出版的数学之美始终盘踞京东、亚马逊等各大网上商城科技类图书的榜首,当然,还有早些时候出版的浪潮之巅也排在很靠前的位置。心想市场的力气应当能帮我挑出好书吧,于是就从图书馆借了一原来,始终到今日晚上把它给看完了。因此想写一点东西来总结、反思一下,反正刚开完班会也没什么事干。写在
3、前面的建议:假如你不厌烦数学的话,剧烈举荐这本书,网上也可以下到电子版,不过阅读感觉上还是很不一样的。废话就不多说了,数学之美其实是一本科普类的读物,所面对的是接受过一般高等教化的人,完全不须要在特定领域有很深的造诣就可以看懂,也许懂一点线性代数、概率统计、组合数学、信息论、计算机算法、模式识别最好(虽然列举了这么多,其实有些不懂也没关系),所以尤其适合信科的人看。内容大部分是和人工智能、计算机相关的,这并非我所学的专业,但作者比较擅长将看似困难的原理第 3 3页共 3636页用简明的语言表达出来,所以可读性还是很好的。吴军是清华高校毕业的,之前任职于 Google,后来到了腾讯,这些文章都是
4、发表在 Google 黑板报上的,后来经过了重写,所以网上下载的和书本内容有所差异。由于吴军本人是探讨自然语言处理和语音识别的,所以统计语言模型的东西可能会多一点,不过我觉得这丝毫不阻碍全书数学之美的呈现感觉收获还是挺多的,学问上的有一些,但更多还是思维方式上的。作者举了许多例子试图让人明白许多看似困难的高科技背后,基本原理其实是出乎意料简洁的(当然,必需承认第一个想到这些方法的人还是特别了不得的)。比如高精确率的机器翻译,看上去似乎是计算机能够理解各国语言,隐藏在背后的却是许多具有高校理科学历的人都特别清晰的统计模型和概率模型;再比如拼音输入法的数学原理,早期的探讨主要集中在缩短平均编码长度
5、,比如曾经流行一时的五笔输入法,而现今真正好用的输入法却是有许多信息冗余、编码长度比较长的拼音输入法,作者从信息论和市场的角度做了简洁的阐述;又比如新闻的自动分类,很多非 IT 领域的人可能会认为计算机可以读懂新闻并进行分类,而事实上只是特征向量的抽取、多维空间中向量夹角的计算,特别特别简洁,但凡学过第 4 4页共 3636页一点线性代数的人肯定是一看就懂的当然,完备的实现还须要考虑许多细微环节和现实的状况,但这并不是这本书所关注的地方,数学之美在于其简洁而不是繁琐。除了对于详细信息技术的剖析之外,作者还花了很大篇幅来讲一些杰出人士的成长过程,特殊是把这些人的成长经验和中国学生的成长经验作对比
6、。虽然作者并没有明说,但字里行间多少流露出对于中国高等教化以及许多中国企业的指责,一是教化的功利性,缺乏宽松的独立思索的环境,即使学了一堆理论也难有用武之地,自然也就缺乏创新性的成果;二是中国企业的短视,大部分都不舍得在新框架开发上投资,而是坐享学术界和国外企业的探讨成果。总结一下呢,数学之美事实上不能带给你编程实力的提升,也没法让人的数学水平有显着的提升,但它在很大程度上让你跳出教科书式的繁琐细微环节的束缚,能够从更宏观的角度来思索信息世界背后的数学引擎的运行原理,让人明白看似很高级、困难的东西背后其实并不如我们所想象的那样困难,而我们所学的“枯燥”的数学真的可以“四两拨千斤”,变更亿万人的
7、生活。数学之美读书笔记 2第 5 5页共 3636页这本书一共 3 章,主要介绍了这些数学方法:统计方法、统计语言模型、中文信息处理、隐含马尔科夫模型、布尔代数、图论、网页排名技术、信息论、动态规划、余弦定理、矩阵运算、信息指纹、密码学、搜寻技术、数学模型、最大熵模型、拼音输入法、贝叶斯网络、句法分析、维特比算法、各个击破算法等。从第一章起先其明白幽默的语言就深深的吸引了我,让我觉得假如早一点看这本书,或许数学之于我就是另一番天地。第一章里作者从原始人类的通信方式起先入手,人类最早利用声音进行的通信依靠于开篇给出的编码传输解码的基本原理,指出原始人的通信方式和今日的通信方式没什么不同,这世界上
8、近现代最普遍的原理大部分都在人类发展的历史上被无意识的运用着。第六章信息论给出了信息的度量,它是基于概率的,概率越小,其不确定性越大,信息量就越大。引入信息量就可以消退系统的不确定性,同理自然语言处理的大量问题就是找相关的信息。信息熵的物理含义是对一个信息系统不确定性的度量,这一点与热力学中的熵概念相同,看似不同的学科之间也会有着很强的相像性。事务之间是存在联系的,要学会借鉴其他学问。第 6 6页共 3636页这本书里也能找到不少在学的课程学问,如高校专业课里,数电总是要比模电简洁不少,而自然界里大部分的信号都属于模拟信号。所谓模拟信号,是指从时间和数值两种维度上看来都是连续改变的信号。在实际
9、电路中,模数转换是一个很重要的过程,将预处理的模拟信号经过模数变换为数字信号,然后进行数字信号处理。而数字化处理有许多优点,比如功能强大、抗干扰实力强、易于传输等。简而言之,假如没有数学,就没有数字信号处理和传输的概念,而数字信号传输在当下大规模的集成电路里是必不行少的,这是通信胜利的基本要求。作者把生活中遇到的困难的问题,以简洁清楚,直观的模型或者公式呈现出来。我们可能过于留意生活中的种种奇异现象,往往忽视了追求其理论逻辑的演绎,而这,也是大部分问题的主要根源。罗素曾经说过:数学,假如正确地看,不但拥有真理,而且也具有至高的美;爱因斯坦也曾说过:纯数学使我们能够发觉概念和联系这些概念的规律,
10、这些概念和规律给了我们理解自然现象的钥匙。数学在全部科学领域起着基础和根本的作用。哪里有数,哪里就有美。在这里,我也想把数学之美真诚举荐给每一位对自然、科学、第 7 7页共 3636页生活有爱好有热忱的挚友,不管你是从事职业,读一读它,会让你受益良多。吴军老师在数学之美中提到:这本书的目的是讲道而不是讲术。许多详细的搜寻技术很快会从独门绝技到普及,再到落伍,追求术的人一辈子工作很辛苦。只有驾驭了搜寻的本质和精髓才能恒久游刃有余。回到我们日常的生活中,须要学习的东西、技术太多太多,假如一味地只为去追技术的脚步,那么我们也会很累很累。然而基本的原理却是没有怎么改变的。只见森林,不见树木,难免迷失;
11、站在高处向下看,或许我们始终看不究竟,但是站在底处却是可以望见底的。数学之美读书笔记 3数学之美是一本事域相关的数学概念书,生动形象地讲解了关于数据挖掘、文本检索等方面的基础学问,可以作为数据挖掘、文本检索的入门普及书。另外,就像作者吴军老师提到的,关键是要从中学到道-解决问题的方法,而不仅仅是术。书中也启发式的引导读者形成自己解决问题的道。下面记录一下自己读这本书的一些感想:第 8 8页共 3636页第一章文字和语言 vs 数字和信息:文字和语言中自然隐藏着一些数学思想,数学可能不仅仅的是一门特别理科的学问,也是一种艺术。另外,遇到一个困难的问题时,可能生活中的一些常识,一些简洁的思想会给你
12、带来解决问题的灵感。其次章 自然语言处理-从规则到统计:试图模拟人脑处理语言的模式,基于语法规则,词性等进行语法分析、语义分析的自然语言处理有着很大的困难度,而基于统计的语言模型很好的解决了自然语言处理的诸多难题。人们相识这个过程,找到统计的方法经验了 20多年,特别庆幸我们的前辈已经帮我们找到了正确的方法,不用我们再去苦苦摸索。另外,这也说明在发觉真理的过程中是充溢坎坷的,感谢那些曾经奉献了青春的科学家。自己以后遇到问题也不能轻易放弃,真正的成长是在解决问题的过程中。事情不行能一帆风顺的,这是自然界的普遍真理吧!第三章 统计语言模型:自然语言的处理找到了一种合适的方法-基于统计的模型,概率论
13、的学问起先发挥作用。二元模型、三元模型、多元模型,模型元数越多,计算量越大,简洁好用就是最好的。对于某些不出现或出现次数很少的词,会有零概率问题,这是就要找第 9 9页共 3636页到一数学方法给它一个很小的概率。以前学概率论的时候觉的没什么用,现在起先发觉这些学问可能就是你以后解决问题的利器。最终引用作者本章的最终一句话:数学的魅力就在于将困难的问题简洁化。第四章谈谈中文分词:中文分词是将一句话分成一些词,这是以后进一步处理的基础。从起先的查字典到后来基于统计语言模型的分词,如今的中文分词算是一个已经解决的问题。然而,针对不同的系统、不同的要求,分词的粒度和方法也不尽相同,还是针对详细的问题
14、,提出针对该问题最好的方法。没有什么是肯定的,驾驭其中的道才是核心。第五章 隐马尔科夫模型:隐马尔科夫模型和概率论里面的马尔科夫链相像,就是该时刻的状态仅与前面某几个时刻的状态有关。基于大量数据训练出相应的隐马尔科夫模型,就可以解决好多机器学习的问题,训练中会涉及到一些经典的算法(维特比算法等)。关于这个模型,没有实际实现过,所以感觉好生疏,只是知道了些概率论讲过的原理而已。第六章信息的度量和作用:信息论给出了信息的度量,它是基第 1010页共 3636页于概率的,概率越小,其不确定性越大,信息量就越大。引入信息量就可以消退系统的不确定性,同理自然语言处理的大量问题就是找相关的信息。信息熵的物
15、理含义是对一个信息系统不确定性的度量,这一点与热力学中的熵概念相同,看似不同的学科之间也会有着很强的相像性。事务之间是存在联系的,要学会借鉴其他学问。第七章 贾里尼克和现代语言处理:贾里尼克是为世界级的大师,不仅在于他的学术成就,更在于他的风范。贾里尼克教授少年坎坷,也并非起先就投身到自然语言方面的探讨,关键是他的思想和他的道。贾里克尼教授治学严谨、专心对待自己的学生,对于学生的教育,教授告知你最多的是“什么方法不好”,这很像听到的一句话“我不赞同你,但我支持你”。贾里克尼教授一生专注学习,最终在办公桌前过世了。读了这章我总结出的一句话是“思想确定一个人的高度”。在这章中对于少年时的教化,以下
16、几点值得借鉴:1、少年时期其实没有必要花那么多时间读书,他们的社会阅历、生活实力以及在那时树立起的志向将帮助他们一生。2、中学时花大量时间学会的内容,在高校用特别短的时间就可以第 1111页共 3636页读完,因为在高校阶段,人的理解力要强许多。3、学习(和教化)是一个人一辈子的过程。4、书本的内容可以早学,也可以晚学,但是错过了成长阶段却是无法补回来的。第八章简洁之美-布尔代数和搜寻引擎的索引:布尔是 19世纪英国的一位中学老师,但他的公开身份是啤酒商,提出好的思想的人不肯定是大师。简洁的建立索引可以依据一个词是否在一个网页中出现而设置为 0 和 1,为了适应索引访问的速度、附加的信息、更新
17、要快速,改进了索引的建立,但原理上依旧简洁,等价于布尔运算。牛顿的一句话“(人们)发觉真理在形式上从来是简洁的,而不是困难和含混的”。做好搜寻,最基本的要求是每天分析 10-20 个不好的搜寻结果,积累一段时间才有感觉。有时候,学习、处理问题,可以从不好的方面入手,效果可能更好。第九章图论和网络爬虫:图的遍历分为“广度优先搜寻(Breadth-FirstSearch,简 称 BFS)”和“深 度 优 先 搜 寻(Depth-FirstSearch,简称 DFS)。互联网上有几百亿的网页,须要大量的服务器用来下载网页,须要协调这些服务器的任务,这就是网第 1212页共 3636页络设计和程序设计
18、的艺术了。另外对于简洁的网页,没必要下载。还须要存储一张哈希表来记录哪些网页已经存储过(假如记录每个网页的 url,数量太多,这里可以用后面提到的信息指纹,只须要一个许多位的数字即可),避开重复下载。另外,在图论出现的很长一段时间里,实际需求的图只有几千个节点,那时图的遍历很简洁,人们都没有怎么特地探讨这个问题,随着互联网的出现,图的遍历一下子有了用武之地,许多数学方法就是这样,看上去没有什么用途,等到详细的应用出来了一下子起先派上大用场了,这可能就是世界上许多人毕生探讨数学的缘由吧。一个系统看似整体简洁,但里面的每个东西都可能是一个困难的东西,须要很好的设计。第十章PageRank-Goog
19、le 的民主表决式网页排名技术:搜寻返回了成千上万条结果,如何为搜寻结果排名?这取决与两组信息:关于网页的质量信息以及这个查询和每个网页的相关性信息。PageRank 算法来衡量一个网页的质量,该算法的思想是假如一个网页被许多其他网页所链接,说明它收到普遍的承认和信任,那么它的排名就高。谷歌的创始人佩奇和布林提出了该算法并用迭代的方法解决了这个问题。PageRank 在 Google 全部的算法中依旧是至关重要的。第 1313页共 3636页该算法并不难,可是当时只有佩奇和布林想到了,为什么呢?第十一章 如何确定网页和查询的相关性:构建一个搜寻引擎的四个方面:如何自动下载网页、如何建立索引、如
20、何衡量网页的质量以及确定一个网页和某个查询的相关性。搜寻关键词权重的科学度量TFIDF,TF 衡量一个词在一个网页中的权重,即词频。IDF 衡量一个词本身的权重,对主题的预料实力。一个查询和该网页的相关性公式由词频的简洁求和变成了加权求和,即TF1*IDF1+TF2*IDF2+.+TFN*IDFN。看似困难的搜寻引擎,里面的原理竟是这么简洁!第十二章地图和本地搜寻的最基本技术有限状态机和动态规划:地址的解析依靠有限状态机,当用户输入的地址不太标准或有错别字时,希望进行模糊匹配,提出了一种基于概率的有限状态机。通用的有限状态机的程序不是很好写,要求很高,建议干脆采纳开源的代码。图论中的动态规划问
21、题可以用来解决两点间的最短路径问题,可以将一个“找寻全程最短路途”的问题,分解成一个个找寻局部最短路途的小问题。有限状态机和动态规划问题须要看相关的算法讲解,才能深化理解,目前对其并未完全理解。第 1414页共 3636页第十三章GoogleAK-47 的设计者阿米特辛格博士:辛格坚持选择简洁方案的一个缘由是简单说明每一个步骤和方法背后的道理,这样不仅便于出了问题时查错,而且简单找到今后改进的目标。辛格要求对于搜寻质量的改进方法都要能说清晰理由,说不清晰理由的改进即使看上去有效也不会采纳,因为这样将来可能是个隐患。辛格特别激励年轻人要不怕失败,大胆尝试。遵循简洁的哲学。第十四章余弦定理和新闻的
22、分类:将新闻依据词的 TF-IDF 值组成新闻的特征向量,然后依据向量之间的余弦距离衡量两个特征之间的相像度,将新闻自动聚类。另外依据词的不同位置,权重应当不同,比如标题的词权重明显应当大点。大数据量的余弦计算也要考虑许多简化算法。第十五章 矩阵运算和文本处理中的两个分类问题:将大量的文本表示成文本和词汇的矩阵,然后对该矩阵进行奇异值 SVD 分解,可以得到隐含在其中的一些信息。计算余弦相像度的一次迭代时间和奇异值分解的时间困难度在一个数量级,但计算余弦相像度须要多次迭代。另外,奇异值分解的一个问题是存储量大,而余弦定理的聚类则不须要。奇异值分解得到的结果略显粗糙,实际工作中一般先进行奇第 1
23、515页共 3636页异值分解得到粗分类结果,在利用余弦计算得到比较精确地结果。我觉得这章讲的 SVD 有些地方不是很清晰,已向吴军老师请教了,等待回信。第十六章 信息指纹及其应用:信息指纹可以作为信息的唯一标识。有许多信息指纹的产生方法,互联网加密要运用基于加密的伪随机数产生器,常用的算法有 MD5 或者 SHA-1 等标准。信息指纹可以用来判定集合相同或基本相同。YouTobe 就用信息指纹来反盗版。128位的指纹,1.8*1019 次才可能重复一次,所以重复的可能性几乎为 0。判定集合是否相同,从简洁的逐个比对到利用信息指纹,困难度降低了许多许多。启发我们有时候要用变通的思想来解决问题。
24、第十七章由电视剧暗算所想到的谈谈密码学的数学原理:RSA 加密算法,有两个完全不同的钥匙,一个用于加密,一个用于解密。该算法里面蕴含着简洁但不好理解的数学思想。信息论在密码设计中的应用:当密码之间分布匀称并且统计独立时,供应的信息最少。匀称分布使得敌人无从统计,而统计独立能保证敌人即使知道了加密算法,也不能破译另一段密码。第十八章闪光的不肯定是金子谈谈搜寻引擎反作弊问题:第 1616页共 3636页把搜寻反作弊看成是通信模型,作弊当做是加入的噪声,解决噪声的方法:从信息源动身,增加排序算法的抗干扰实力;过滤掉噪声,还原信息。只要噪声不是完全随机并且前后有相关性,就可以检测到并消退。作弊者的方法
25、不行能是随机的,且不行能一天换一种方法,及作弊是时间相关的。因此在搜集一段时间的作弊信息后,就可以将作弊者抓出来,还原原有的排名。一般作弊都是针对市场份额较大的搜寻引擎做的,因此,一个小的搜寻引擎作弊少,并不肯定是它的反作弊技术好,而是到它那里作弊的人少。第十九章 谈谈数学模型的重要性:早期的行星运行模型用大圆套小圆的方法,精确地计算出了全部行星运行的轨迹。但其实模型就是简洁的椭圆而已。一个正确的数学模型应当在形式上是简洁的;一个正确的模型可能起先还不如一个精雕细琢过的错误模型来的精确,但是,假如我们认定大方向是对的,就应当坚持下去;大量打算的数据对研发很重要;正确的模型可能受到噪声干扰,而显
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数学之美 2022 数学 读书笔记 _2
限制150内