欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    2022年《数学之美》读书笔记.docx

    • 资源ID:22854658       资源大小:50.41KB        全文页数:38页
    • 资源格式: DOCX        下载积分:10金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要10金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    2022年《数学之美》读书笔记.docx

    2022年数学之美读书笔记数学之美读书笔记当细致品读一部作品后,你心中有什么感想呢?现在就让我们写一篇走心的读书笔记吧。你想好怎么写读书笔记了吗?以下是我为大家收集的数学之美读书笔记,仅供参考,大家一起来看看吧。数学之美读书笔记1最近看了这本数学之美,不得不感叹一句,惋惜早已身不在起点。我读书的时候,数学成果始终都很好,虽然离开学校已经10多年,自觉当时的学问还是记得许多,67年前再考线性代数和概率论,还是得到了很高的分数。不过我也和大部分人一样,觉得数学没有太多用处,特殊是中学和高校里面学的,那些三角函数,向量,大数定律,解析几何,除了在考试的题目里面用一下,平常又有什么地方可以用呢?看了数学之美,惊羡于数学的浩瀚和简洁,说它浩瀚,是因为它的分支涵盖了科学的方方面面,是全部科学的理论基础,说它简洁,无论多困难的问题,最终总结的数学公式都简洁到只有区区几个符号和字母。这本书介绍数学理论在互联网上的运用,平常我们在运用互联网搜寻或者翻译功能的时候,时常会感叹电脑对自己的了解和它的聪慧,其实背后的原理就是一个个精致的算法和大量数据的训练。那些或者熟识或者生疏的数学学问(联合概率分布,维特比算法,期望最大化,贝叶斯网络,隐形马尔可夫链,余弦定律,etc),一步步构建了我们现在所赖以生存的网上世界。之所以觉得自己早已身不在起点,是因为上面这些数学学问,早已经不在我的学问框架之内,就算曾经学过,也不过是整个吞枣一样的强记硬背,没有领悟过其中的真正意义。而今日想重头在来学一次,其实已经不行能了。且不说要花费多少的精力和时间,还须要的是领悟力。而这一些,已经不是我可以简洁付出的。不像物理、化学须要困难的试验来验证,许多数学的证明,几乎只要有一颗聪慧的头脑和多数的草稿纸,可是光是这颗聪慧的头脑,就可以阻拦掉许多人。有人说多读书就会聪慧,我不否认,书本的确会供应许多学问,可是不同的人读同一本书也会有不同的收货,这就限制于每个人的学问框架和认知水平。就如一个数学功底好过我的人,看这本书,就会更简单理解里面的公式和推导出这些公式的其他运用点,而我,只能站在数学的门口,感叹一句,它真的好美吧。当然,我短暂无法在实际生活中运用这些数学公式,可是书中提到的一些方法论,还是很有帮助的1)一个产业的颠覆或者创新,大部分来自于外部的力气,比如用统计学原理做自然语言处理。2)基础学问和基础数据是很重要性,只有足够多和足够广的数据,才可以供应有效的分析,和验证分析方法的好坏。3)先帮用户解决80%的问题,在渐渐解决剩下的20%的问题;4)不要等一个东西完备了,才发布;5)简洁是美,坚持选择简洁的做法,这样会简单说明每一个步骤和方法背后的道理,也便于查错。6)正确的模型也可能受噪音干扰,而显得不精确;这时不应当用一种凑合的修正方法加以弥补,而是要找到噪音的根源,从根本上修正它。7)一个人想要在自己的领域做到世界一流,他的四周必需有特别多的一流人物。数学之美读书笔记2数学之美,一个从事多年工作的谷歌探讨员眼中的数学。令我大饱眼福的是,高校里面的数学学问竟能如此广泛运用到了计算机行业中。在语音识别、翻译,还有密码学领域,有着很多基于概率统计的模型和思想。当然,贝叶斯公式是基础,应用到隐含马尔科夫链模型,神经网络模型。在搜寻中,一些相关性的计算,无不用到了概率的学问。在新闻分类中,用到了一些有关矩阵特征值、相像对角化的学问。当然,在图像处理方面,矩阵变换可谓是无处不在。另外,在识别方面,有一些通信模型,涉及到了信道、误码率、信息熵。最近刚开学也没什么事,所以就想随意找几本书看一下,但最好别是那种太艰深晦涩的书。8月份始终到现在,吴军写的这本12年5月出版的数学之美始终盘踞京东、亚马逊等各大网上商城科技类图书的榜首,当然,还有早些时候出版的浪潮之巅也排在很靠前的位置。心想市场的力气应当能帮我挑出好书吧,于是就从图书馆借了一原来,始终到今日晚上把它给看完了。因此想写一点东西来总结、反思一下,反正刚开完班会也没什么事干。写在前面的建议:假如你不厌烦数学的话,剧烈举荐这本书,网上也可以下到电子版,不过阅读感觉上还是很不一样的。废话就不多说了,数学之美其实是一本科普类的读物,所面对的是接受过一般高等教化的人,完全不须要在特定领域有很深的造诣就可以看懂,也许懂一点线性代数、概率统计、组合数学、信息论、计算机算法、模式识别最好(虽然列举了这么多,其实有些不懂也没关系),所以尤其适合信科的人看。内容大部分是和人工智能、计算机相关的,这并非我所学的专业,但作者比较擅长将看似困难的原理用简明的语言表达出来,所以可读性还是很好的。吴军是清华高校毕业的,之前任职于Google,后来到了腾讯,这些文章都是发表在Google黑板报上的,后来经过了重写,所以网上下载的和书本内容有所差异。由于吴军本人是探讨自然语言处理和语音识别的,所以统计语言模型的东西可能会多一点,不过我觉得这丝毫不阻碍全书数学之美的呈现感觉收获还是挺多的,学问上的有一些,但更多还是思维方式上的。作者举了许多例子试图让人明白许多看似困难的高科技背后,基本原理其实是出乎意料简洁的(当然,必需承认第一个想到这些方法的人还是特别了不得的)。比如高精确率的机器翻译,看上去似乎是计算机能够理解各国语言,隐藏在背后的却是许多具有高校理科学历的人都特别清晰的统计模型和概率模型;再比如拼音输入法的数学原理,早期的探讨主要集中在缩短平均编码长度,比如曾经流行一时的五笔输入法,而现今真正好用的输入法却是有许多信息冗余、编码长度比较长的拼音输入法,作者从信息论和市场的角度做了简洁的阐述;又比如新闻的自动分类,很多非IT领域的人可能会认为计算机可以读懂新闻并进行分类,而事实上只是特征向量的抽取、多维空间中向量夹角的计算,特别特别简洁,但凡学过一点线性代数的人肯定是一看就懂的当然,完备的实现还须要考虑许多细微环节和现实的状况,但这并不是这本书所关注的地方,数学之美在于其简洁而不是繁琐。除了对于详细信息技术的剖析之外,作者还花了很大篇幅来讲一些杰出人士的成长过程,特殊是把这些人的成长经验和中国学生的成长经验作对比。虽然作者并没有明说,但字里行间多少流露出对于中国高等教化以及许多中国企业的指责,一是教化的功利性,缺乏宽松的独立思索的环境,即使学了一堆理论也难有用武之地,自然也就缺乏创新性的成果;二是中国企业的短视,大部分都不舍得在新框架开发上投资,而是坐享学术界和国外企业的探讨成果。总结一下呢,数学之美事实上不能带给你编程实力的提升,也没法让人的数学水平有显着的提升,但它在很大程度上让你跳出教科书式的繁琐细微环节的束缚,能够从更宏观的角度来思索信息世界背后的数学引擎的运行原理,让人明白看似很高级、困难的东西背后其实并不如我们所想象的那样困难,而我们所学的“枯燥”的数学真的可以“四两拨千斤”,变更亿万人的生活。数学之美读书笔记3这本书一共3章,主要介绍了这些数学方法:统计方法、统计语言模型、中文信息处理、隐含马尔科夫模型、布尔代数、图论、网页排名技术、信息论、动态规划、余弦定理、矩阵运算、信息指纹、密码学、搜寻技术、数学模型、最大熵模型、拼音输入法、贝叶斯网络、句法分析、维特比算法、各个击破算法等。从第一章起先其明白幽默的语言就深深的吸引了我,让我觉得假如早一点看这本书,或许数学之于我就是另一番天地。第一章里作者从原始人类的通信方式起先入手,人类最早利用声音进行的通信依靠于开篇给出的"编码传输解码"的基本原理,指出原始人的通信方式和今日的通信方式没什么不同,这世界上近现代最普遍的原理大部分都在人类发展的历史上被无意识的运用着。第六章信息论给出了信息的度量,它是基于概率的,概率越小,其不确定性越大,信息量就越大。引入信息量就可以消退系统的不确定性,同理自然语言处理的大量问题就是找相关的信息。信息熵的物理含义是对一个信息系统不确定性的度量,这一点与热力学中的熵概念相同,看似不同的学科之间也会有着很强的相像性。事务之间是存在联系的,要学会借鉴其他学问。这本书里也能找到不少在学的课程学问,如高校专业课里,数电总是要比模电简洁不少,而自然界里大部分的信号都属于模拟信号。所谓模拟信号,是指从时间和数值两种维度上看来都是连续改变的信号。在实际电路中,模数转换是一个很重要的过程,将预处理的模拟信号经过模数变换为数字信号,然后进行数字信号处理。而数字化处理有许多优点,比如功能强大、抗干扰实力强、易于传输等。简而言之,假如没有数学,就没有数字信号处理和传输的概念,而数字信号传输在当下大规模的集成电路里是必不行少的,这是通信胜利的基本要求。作者把生活中遇到的困难的问题,以简洁清楚,直观的模型或者公式呈现出来。我们可能过于留意生活中的种种奇异现象,往往忽视了追求其理论逻辑的演绎,而这,也是大部分问题的主要根源。罗素曾经说过:"数学,假如正确地看,不但拥有真理,而且也具有至高的美"爱因斯坦也曾说过:"纯数学使我们能够发觉概念和联系这些概念的规律,这些概念和规律给了我们理解自然现象的钥匙。"数学在全部科学领域起着基础和根本的作用。"哪里有数,哪里就有美"。在这里,我也想把数学之美真诚举荐给每一位对自然、科学、生活有爱好有热忱的挚友,不管你是从事职业,读一读它,会让你受益良多。吴军老师在数学之美中提到:"这本书的目的是讲道而不是讲术。许多详细的搜寻技术很快会从独门绝技到普及,再到落伍,追求术的人一辈子工作很辛苦。只有驾驭了搜寻的本质和精髓才能恒久游刃有余"。回到我们日常的生活中,须要学习的东西、技术太多太多,假如一味地只为去追技术的脚步,那么我们也会很累很累。然而基本的原理却是没有怎么改变的。只见森林,不见树木,难免迷失;站在高处向下看,或许我们始终看不究竟,但是站在底处却是可以望见底的。数学之美读书笔记4数学之美是一本事域相关的数学概念书,生动形象地讲解了关于数据挖掘、文本检索等方面的基础学问,可以作为数据挖掘、文本检索的入门普及书。另外,就像作者吴军老师提到的,关键是要从中学到道-解决问题的方法,而不仅仅是术。书中也启发式的引导读者形成自己解决问题的道。下面记录一下自己读这本书的一些感想:第一章文字和语言vs数字和信息:文字和语言中自然隐藏着一些数学思想,数学可能不仅仅的是一门特别理科的学问,也是一种艺术。另外,遇到一个困难的问题时,可能生活中的一些常识,一些简洁的思想会给你带来解决问题的灵感。其次章自然语言处理-从规则到统计:试图模拟人脑处理语言的模式,基于语法规则,词性等进行语法分析、语义分析的自然语言处理有着很大的困难度,而基于统计的语言模型很好的解决了自然语言处理的诸多难题。人们相识这个过程,找到统计的方法经验了20多年,特别庆幸我们的前辈已经帮我们找到了正确的方法,不用我们再去苦苦摸索。另外,这也说明在发觉真理的过程中是充溢坎坷的,感谢那些曾经奉献了青春的科学家。自己以后遇到问题也不能轻易放弃,真正的成长是在解决问题的过程中。事情不行能一帆风顺的,这是自然界的普遍真理吧!第三章统计语言模型:自然语言的处理找到了一种合适的方法-基于统计的模型,概率论的学问起先发挥作用。二元模型、三元模型、多元模型,模型元数越多,计算量越大,简洁好用就是最好的。对于某些不出现或出现次数很少的词,会有零概率问题,这是就要找到一数学方法给它一个很小的概率。以前学概率论的时候觉的没什么用,现在起先发觉这些学问可能就是你以后解决问题的利器。最终引用作者本章的最终一句话:数学的魅力就在于将困难的问题简洁化。第四章谈谈中文分词:中文分词是将一句话分成一些词,这是以后进一步处理的基础。从起先的查字典到后来基于统计语言模型的分词,如今的中文分词算是一个已经解决的问题。然而,针对不同的系统、不同的要求,分词的粒度和方法也不尽相同,还是针对详细的问题,提出针对该问题最好的方法。没有什么是肯定的,驾驭其中的道才是核心。第五章隐马尔科夫模型:隐马尔科夫模型和概率论里面的马尔科夫链相像,就是该时刻的状态仅与前面某几个时刻的状态有关。基于大量数据训练出相应的隐马尔科夫模型,就可以解决好多机器学习的问题,训练中会涉及到一些经典的算法(维特比算法等)。关于这个模型,没有实际实现过,所以感觉好生疏,只是知道了些概率论讲过的原理而已。第六章信息的度量和作用:信息论给出了信息的度量,它是基于概率的,概率越小,其不确定性越大,信息量就越大。引入信息量就可以消退系统的不确定性,同理自然语言处理的大量问题就是找相关的信息。信息熵的物理含义是对一个信息系统不确定性的度量,这一点与热力学中的熵概念相同,看似不同的学科之间也会有着很强的相像性。事务之间是存在联系的,要学会借鉴其他学问。第七章贾里尼克和现代语言处理:贾里尼克是为世界级的大师,不仅在于他的学术成就,更在于他的风范。贾里尼克教授少年坎坷,也并非起先就投身到自然语言方面的探讨,关键是他的思想和他的道。贾里克尼教授治学严谨、专心对待自己的学生,对于学生的教育,教授告知你最多的是“什么方法不好”,这很像听到的一句话“我不赞同你,但我支持你”。贾里克尼教授一生专注学习,最终在办公桌前过世了。读了这章我总结出的一句话是“思想确定一个人的高度”。在这章中对于少年时的教化,以下几点值得借鉴:1、少年时期其实没有必要花那么多时间读书,他们的社会阅历、生活实力以及在那时树立起的志向将帮助他们一生。2、中学时花大量时间学会的内容,在高校用特别短的时间就可以读完,因为在高校阶段,人的理解力要强许多。3、学习(和教化)是一个人一辈子的过程。4、书本的内容可以早学,也可以晚学,但是错过了成长阶段却是无法补回来的。第八章简洁之美-布尔代数和搜寻引擎的索引:布尔是19世纪英国的一位中学老师,但他的公开身份是啤酒商,提出好的思想的人不肯定是大师。简洁的建立索引可以依据一个词是否在一个网页中出现而设置为0和1,为了适应索引访问的速度、附加的信息、更新要快速,改进了索引的建立,但原理上依旧简洁,等价于布尔运算。牛顿的一句话“(人们)发觉真理在形式上从来是简洁的,而不是困难和含混的”。做好搜寻,最基本的要求是每天分析10-20个不好的搜寻结果,积累一段时间才有感觉。有时候,学习、处理问题,可以从不好的方面入手,效果可能更好。第九章图论和网络爬虫:图的遍历分为“广度优先搜寻(Breadth-FirstSearch,简称BFS)”和“深度优先搜寻(Depth-FirstSearch,简称DFS)。互联网上有几百亿的网页,须要大量的服务器用来下载网页,须要协调这些服务器的任务,这就是网络设计和程序设计的艺术了。另外对于简洁的网页,没必要下载。还须要存储一张哈希表来记录哪些网页已经存储过(假如记录每个网页的url,数量太多,这里可以用后面提到的信息指纹,只须要一个许多位的数字即可),避开重复下载。另外,在图论出现的.很长一段时间里,实际需求的图只有几千个节点,那时图的遍历很简洁,人们都没有怎么特地探讨这个问题,随着互联网的出现,图的遍历一下子有了用武之地,许多数学方法就是这样,看上去没有什么用途,等到详细的应用出来了一下子起先派上大用场了,这可能就是世界上许多人毕生探讨数学的缘由吧。一个系统看似整体简洁,但里面的每个东西都可能是一个困难的东西,须要很好的设计。第十章PageRank-Google的民主表决式网页排名技术:搜寻返回了成千上万条结果,如何为搜寻结果排名?这取决与两组信息:关于网页的质量信息以及这个查询和每个网页的相关性信息。PageRank算法来衡量一个网页的质量,该算法的思想是假如一个网页被许多其他网页所链接,说明它收到普遍的承认和信任,那么它的排名就高。谷歌的创始人佩奇和布林提出了该算法并用迭代的方法解决了这个问题。PageRank在Google全部的算法中依旧是至关重要的。该算法并不难,可是当时只有佩奇和布林想到了,为什么呢?第十一章如何确定网页和查询的相关性:构建一个搜寻引擎的四个方面:如何自动下载网页、如何建立索引、如何衡量网页的质量以及确定一个网页和某个查询的相关性。搜寻关键词权重的科学度量TFIDF,TF衡量一个词在一个网页中的权重,即词频。IDF衡量一个词本身的权重,对主题的预料实力。一个查询和该网页的相关性公式由词频的简洁求和变成了加权求和,即TF1*IDF1+TF2*IDF2+.+TFN*IDFN。看似困难的搜寻引擎,里面的原理竟是这么简洁!第十二章地图和本地搜寻的最基本技术有限状态机和动态规划:地址的解析依靠有限状态机,当用户输入的地址不太标准或有错别字时,希望进行模糊匹配,提出了一种基于概率的有限状态机。通用的有限状态机的程序不是很好写,要求很高,建议干脆采纳开源的代码。图论中的动态规划问题可以用来解决两点间的最短路径问题,可以将一个“找寻全程最短路途”的问题,分解成一个个找寻局部最短路途的小问题。有限状态机和动态规划问题须要看相关的算法讲解,才能深化理解,目前对其并未完全理解。第十三章GoogleAK-47的设计者阿米特·辛格博士:辛格坚持选择简洁方案的一个缘由是简单说明每一个步骤和方法背后的道理,这样不仅便于出了问题时查错,而且简单找到今后改进的目标。辛格要求对于搜寻质量的改进方法都要能说清晰理由,说不清晰理由的改进即使看上去有效也不会采纳,因为这样将来可能是个隐患。辛格特别激励年轻人要不怕失败,大胆尝试。遵循简洁的哲学。第十四章余弦定理和新闻的分类:将新闻依据词的TF-IDF值组成新闻的特征向量,然后依据向量之间的余弦距离衡量两个特征之间的相像度,将新闻自动聚类。另外依据词的不同位置,权重应当不同,比如标题的词权重明显应当大点。大数据量的余弦计算也要考虑许多简化算法。第十五章矩阵运算和文本处理中的两个分类问题:将大量的文本表示成文本和词汇的矩阵,然后对该矩阵进行奇异值SVD分解,可以得到隐含在其中的一些信息。计算余弦相像度的一次迭代时间和奇异值分解的时间困难度在一个数量级,但计算余弦相像度须要多次迭代。另外,奇异值分解的一个问题是存储量大,而余弦定理的聚类则不须要。奇异值分解得到的结果略显粗糙,实际工作中一般先进行奇异值分解得到粗分类结果,在利用余弦计算得到比较精确地结果。我觉得这章讲的SVD有些地方不是很清晰,已向吴军老师请教了,等待回信。第十六章信息指纹及其应用:信息指纹可以作为信息的唯一标识。有许多信息指纹的产生方法,互联网加密要运用基于加密的伪随机数产生器,常用的算法有MD5或者SHA-1等标准。信息指纹可以用来判定集合相同或基本相同。YouTobe就用信息指纹来反盗版。128位的指纹,1.8*1019次才可能重复一次,所以重复的可能性几乎为0。判定集合是否相同,从简洁的逐个比对到利用信息指纹,困难度降低了许多许多。启发我们有时候要用变通的思想来解决问题。第十七章由电视剧暗算所想到的谈谈密码学的数学原理:RSA加密算法,有两个完全不同的钥匙,一个用于加密,一个用于解密。该算法里面蕴含着简洁但不好理解的数学思想。信息论在密码设计中的应用:当密码之间分布匀称并且统计独立时,供应的信息最少。匀称分布使得敌人无从统计,而统计独立能保证敌人即使知道了加密算法,也不能破译另一段密码。第十八章闪光的不肯定是金子谈谈搜寻引擎反作弊问题:把搜寻反作弊看成是通信模型,作弊当做是加入的噪声,解决噪声的方法:从信息源动身,增加排序算法的抗干扰实力;过滤掉噪声,还原信息。只要噪声不是完全随机并且前后有相关性,就可以检测到并消退。作弊者的方法不行能是随机的,且不行能一天换一种方法,及作弊是时间相关的。因此在搜集一段时间的作弊信息后,就可以将作弊者抓出来,还原原有的排名。一般作弊都是针对市场份额较大的搜寻引擎做的,因此,一个小的搜寻引擎作弊少,并不肯定是它的反作弊技术好,而是到它那里作弊的人少。第十九章谈谈数学模型的重要性:早期的行星运行模型用大圆套小圆的方法,精确地计算出了全部行星运行的轨迹。但其实模型就是简洁的椭圆而已。一个正确的数学模型应当在形式上是简洁的;一个正确的模型可能起先还不如一个精雕细琢过的错误模型来的精确,但是,假如我们认定大方向是对的,就应当坚持下去;大量打算的数据对研发很重要;正确的模型可能受到噪声干扰,而显得不精确,这是不应当用一种凑合的修正方法来弥补它,要找到噪声的根源,这或许能通往重大的发觉。其次十章不要把鸡蛋放在一个篮子里谈谈最大熵模型:对一个随机事务预料时,当各种状况概率相等时,信息熵达到最大,不确定性最大,预料的风险最小。最大熵模型的训练特别困难,须要时查看资料做进一步的理解。其次十一章拼音输入法的数学原理:输入法经验了以自然音节编码,到偏旁笔画拆字输入,再回来自然音节输入的过程。任何事物的发展,螺旋式的回来不是简洁的重复,而是一种升华。输入法的速度取决于编码的场地*找寻这个键的时间。传统的双拼,记住编码太难,找寻每个键的时间太长,并且增加了编码上的歧义。依据香农第肯定理可以计算理论上每个汉字的平均最短码长。全拼不仅编码平均长度较少,而且依据上下文的语言模型可以很好的解决歧义问题。利用统计语言模型可是实现拼音转汉字的有效算法,而且可以转换为动态规划求最短路径问题。如今各家输入法的效率基本在一个量级,进一步提升的关键就在于建立更好的语言模型。可以依据每个用户建立特性化的语言模型。输入的过程本身就是人和计算机的通信,好的输入法会自觉或者不自觉的的遵循通信的数学模型。要做出最有效的输入法,应当自觉运用信息论做指导。其次十二章自然语言处理的教父马库斯和他的优秀弟子们:将自然语言处理从基于规则到基于统计,贡献最大的两个人,一个是前面介绍的贾里尼克教授,他是一个开创性任务;另一个是将这个方法发扬光大的米奇·马库斯。马库斯的贡献在于建立了造福全世界探讨者的宾夕法尼亚高校LDC语料库以及他的众多优秀弟子。马库斯的影响力很大程度上是靠他的弟子传播出去的。马库斯教授有许多值得敬佩的地方:赐予他的博士探讨生自己感爱好的课题的自由,高屋建瓴,给学生关键的指导;宽松的管理方式,培育各有特点的年轻学者;是一个有着远见卓识的管理者。他的学生为人做事风格迥异,但都年轻有为,例如追求完备的迈克尔·柯林斯和寻求简洁美的艾克尔·布莱尔。大师之所以能成为大师,确定有着一些优秀的品质和追求。其次十三章布隆过滤器:推断一个元素是否在一个集合当中时,用到了布隆过滤器,存储量小而且计算快速。其原理是:建立一个很长的二进制,将每个元素通过随机数产生器产生一些信息指纹,再将这些信息指纹映射到一些自然数上,最终在建立的那个很长的二进制上把这些自然数的位置都置为1。布隆过滤器的不足之处是它可能把不在集合中的元素错判成集合中的元素,但在某些条件下这个概率是很小的,补救措施是可以建立一个小的白名单,存储那些可能误判的元素。布隆过滤器背后的数学原理在于完全随机的数字其冲突的可能性很小,可以用很少的空间存储大量的信息,并且由于只进行简洁的算术运算,因此速度特别快。编程珠玑中第一章的那个例子就是布隆过滤器的思想。开阔思维,找寻更好更简洁的方法。其次十四章马尔科夫链的扩展贝叶斯网络:贝叶斯网络是马尔科夫链的扩展,由简洁的线性链式关系扩展为网络的关系,但贝叶斯网络仍旧假设每一个状态只与它干脆相连的状态相关。确定贝叶斯网络的拓扑结构和各个状态之间相关的概率也须要训练。在词分类中,可以建立文章、主题和关键词的贝叶斯网络,用来得到词的分类。贝叶斯网络的训练包括确定拓扑结构和转移概率,比较困难,后者可以参考最大熵训练的方法。贝叶斯网络导出的模型是特别困难的。其次十五章条件随机场和句法分析:句法分析是分析出一个句子的句子结构,对于不规则的句子,对其进行深化的分析是很困难的,而浅层的句法分析在许多时候已经可以满意要求了。条件随机场就是进行浅层句法分析的有效的数学模型。条件随机场与贝叶斯网络很像,不用之处在于,条件随机场是无向图,而贝叶斯网络是有向图。条件随机场的训练很困难,简化之后可以参考最大熵训练的方法。对于条件随机场的具体参数及原理还不理解。其次十六章维特比和他的维特比算法:维特比算法是一个动态规划算法,凡是运用隐马尔科夫模型描述的问题都可以用它来解码。维特比算法采纳逐步渐进的方法,计算到每步的最短距离,到下步的最短距离只用接着本步的计算即可,相比穷举法,大大缩短了计算的时间,并且基本可以实现实时的输出,这看似简洁,但在当时确是很了不得的。维特比并不满意停留在算法本身,他将算法推广出去,并应用到了实际中,创立了高通公司,成为了世界上其次富有的数学家。高通公司在其次代移动通信中并不占很强的市场地位,而其利用CDMA技术霸占了3G的市场,可见远见的洞察力是多么的重要。其次十七章再谈文本分类问题期望最大化算法:该章讲的其实就是K均值聚类问题,设置原始聚类中心,然后不断迭代,直至收敛,将每个点分到一个类中。其实隐马尔科夫模型的训练和最大熵的训练都是期望最大化算法(EM)。首先,依据现有的模型,计算各个观测数据输入到模型中的计算结果,这个过程称为期望值计算过程,或E过程;接下来,重新计算模型参数,以最大化期望值,这个过程称为最大化的过程,或M过程。优化的目标函数假如是个凸函数,则肯定有全局最优解,若不是凸函数,则可能找到的是局部最优解。在以后的一些问题求解过程中,应当考虑其是否是EM问题,也可以考虑参考这种思想,不断迭代以优化目标的过程。其次十八章逻辑回来和搜寻广告:雅虎和百度的竞价排名广告并不比谷歌的依据广告的预估点击率来客观的推送广告收入多。点击预估率有许多影响因素,一种有效的方法是逻辑回来模型,逻辑回来模型是一种将影响概率的不同因素结合在一起的指数模型。其训练方法和最大熵模型相像。同样不是很理解其详细内涵。其次十九章各个击破和Google云计算的基础:分而治之,各个击破是一个很好的方法,Google开发的MapReduce算法就应用了该方法。将一个大任务分成几个小任务,这个过程叫Map,将小任务的结果合并成最终结果,这个过程叫Reduce,该过程如何调度、协调就是工程上比较困难的事情了。可见大量用到的、真正有用的方法往往简洁而又朴实。附录计算困难度:计算机中困难度是以O()来表示的,假如一个算法的计算量不超过N的多项式函数,则称算法为多项式函数困难度的(P问题),是可以计算的。若比N的多项式函数还高,则是非多项式问题,事实上是不行计算的。非多项式问题中一种非确定的多项式问题(简称NP),是科学家探讨的焦点,因为现实中好多问题都是NP问题。另外还有NP-Complete问题(NP问题可以在多项式时间内规约到该问题)和NP-Hard问题,对于这两种问题,须要简化找到近似解。整体上,数学之美这本书让我了解了许多文本处理,数据挖掘相关的学问,学到了许多。其中,简洁美以及一些科学家的大师风范让我印象深刻!书中提到的一些思想(即道)让我受益匪浅!数学之美读书笔记5我在想,为什么我们要学习数学?或许这个问题成年人有一万个答案,可是当我们第一次走进教室,学习数学的时候,也许率还是个孩子,你怎么跟一个孩子说明为什么要学习数学呢?我把这个问题抛给了一个挚友,他说:“为了提高思维逻辑实力,这是我初中老师在第一节数学课上告知我们的”。或者一位5岁的小挚友又会问:“什么是逻辑实力呢?”或许从诞生第一天,我们就始终在被动的接收一些东西,父母的劝导,老师的传授,可5岁的孩子还是会把玩具散落一地,6岁的孩子仍旧会因为父母不给买玩具而嗷嗷大哭,无论你怎么劝导一个人,怎么劝诫一个人,他可能仍旧会犯你认为会出现的错误。我记得有位教化专家这么说:“你告知宝宝他把玩具弄坏了,就等于丢了10个棒棒糖”,从今以后这个宝宝可能会更加珍惜玩具。这个方法很简洁,但是貌似最有效。数学是什么?数学不就是把困难的东西简洁化么?现在我们再回答前面的问题:为什么我要学习数学?我们可以这么跟5岁的小挚友说:“妈妈给你10元钱,让你买酱油,酱油7元、棒棒糖1元一个,剩下的钱你可以买几个棒棒糖?”或许想吃棒棒糖的就会苦思冥想一番,或许将来妈妈真的给他10元钱去买酱油,结果回来就变成了一瓶酱油和3个棒棒糖。或者再过一段时间,这位小挚友会选择6元的酱油,因为可以获得4个棒棒糖了。他这么计算着:7+3和6+4都可以等于10,那么假如要必需买酱油的状况下,1+9也可以等于10。我们都知道也有1元的袋装酱油,于是9个棒棒糖到手了。任何学问的魅力都在于自我的发觉,只有你对它产生了无限的爱好,你就会不断的发觉它的美,数学之美也可以变成物理之美。有些人会说,上面的例子是利益驱动型,不是爱好驱动型,对于一个孩子来说,你能希望他向成人那样:“我须要的不是物质世界,我须要的是精神世界?”5岁宝宝最喜爱做得事情就是在吃和玩上面,请问,成年人不也是如此么?这就是天性。只不过成年人的自控实力足够大罢了。我们回到书本上,这本书是否合适自己?假如没有专业的数学学问,很难读懂。但是它又有着无限的魅力,让你不自觉的读下去,为什么?因为“数学之美”,虽然大多数人看不懂里面的公式,但是能够明白数学能解决的问题:概率统计学能够解决自然语言处理、布尔代数能解决搜寻引擎的问题、有限状态机和动态规划能解决地图问题、向量+特征向量+余弦定理能解决自动新闻分类问题、最大熵模型解决金融问题,看着看着我就莫名的产生了一种想要学习算法的冲动,这不就是本书的意义所在么?数学之美读书笔记6许多人都觉得,数学是一个太高深、太理论的学科,不接近生活,对我们大多数人来说平常也根本用不到,所以没必要去理解数学。但事情真的是这样吗?其实不然,数学始终渗透在我们生活的各个方面,尤其是在今日这个信息时代,许多简洁朴实的数学思想,能发挥一般人很难想象的巨大作用。比如,计算机处理自然语言,用到的最重要工具是统计学的思想;计算机对新闻内容的分类,依靠的是数学里的余弦定理;而电子电路的基本逻辑,则来源于仅有0和1两个数字的布尔代数。在数学之美里,吴军用自己在工作中运用数学的亲身经验,为我们呈现了数学的重要性,以及他对数学之美的理解。吴军是“得到”App专栏吴军的谷歌方法论的主理人。曾先后供职于谷歌和腾讯,是闻名的自然语言处理专家和搜寻专家。同时,他还是位畅销书作家,除了这本数学之美以外,还写过文明之光智能时代浪潮之巅等多本畅销书。数学之美读书笔记7在网上看到有人举荐吴军博士的数学之美,尽管我从事社会科学探讨,但对数学的推崇始终如此,所以买来一读,我的真实体验正如吴军博士在书的后记中所说,把自己“境界提升了一个层次”。那么,对我而言,究竟提升了什么境界呢?首要的确定是思想境界。在未读这本书之前,我知道对于这个世界的事务形成的信息集合,人类只有两种方式可以表达,一个是数字,一个是语言。整个实数的集合是无穷个,而且每个数字都是唯一的;整个世界中的事务也是无穷个的,而且每个事务也时独一无二的,这样数学中的数字集合与世界中的事务集合就构成一个一一对应的关系,所以探讨数字之间的关系,事实上就是在探讨世界中事务之间的关系。语言中的概念和世界中的事务之间也是可以构成一个对应关系的,但问题是,语言中概念的集合是有限的,所以它和数字集合的对应明显只能是部分对应。计算机科学的发展,人类须要把语言处理成数字,因为计算机只能识别数字信号,所以“语言的数字化”成为计算机产生以来发展最快、而且最有创新性的领域,而很多华人科学家成为了这个领域的顶尖专家,如李开复,吴军博士是卓越的科学家之一。至此我才感到,在计算机主导的世界中,信息化就是数字化,而最难的数字化、也是最有成就的数字化,就是对人类自然语言的数字化,因为人类的信息几乎100%是用语言承载、传播的,计算机要与人对话,变成智能化的机器,首先要解决的就是语言的数字化问题。但我们在电脑上自如地输入文字时、或者拿着手机通话时,我们跟本没有意识到,那些卓越的语言科学家,早已经把我们的语言,转化成数字信号,通过输入、处理、解码的方式,让我们无障碍地联络、工作。我好像感到,语言与数字的关系,就是人与自然关系的接口。套用古希腊毕达哥拉斯学派的观点,加上我的理解,即是,数是万物的本原,语言是人的本原!吴军博士好像也在提升我对方法的相识境界。科学探讨的思索方式,习惯遵循本质、规律、连续性思维,在语言学探讨的早期,人类为了让计算机识别语言,采纳建立语言规则和语言规则数据库的方法,但最终以失败告终(20世纪5070年头),70年头后科学家采纳了语言统计模型,探讨取得了突飞猛进。语言统计模型的成功,再一次证明白宇宙量子模型的信念,世界是不连续的随机性的粒子构成,人类数千年文明进化出来的语言系统,就是动态的随机概率事务。其二,物理思维再也难逃牛顿的经典本质思维方法,即找寻到百分之百确定性的规律,而信息论思维是探讨如何把握不确定性现象,利用概率统计是不二法门。其三,语言本质上就是信息传播,只有从通信模型视角才能真正理解计算机的功能,对语言的编码、处理、传输、解码是计算机的强项,计算机是恒久不行能理解语言的意思的。在数学之美中,吴军博士对他的老师、师兄弟、同事的经验、掌故进行了叙述,让我们了解到这些世界一流的学科家、技术精英们的为人处世品质、显明特性、科学素养及其管理风格。例如贾里尼克对博士生的严酷淘汰,马库斯对学生的宽宏大度,但我感到他们有一样东西是共同的,就是对科学创建、顶尖人才的识别和器重,甚至是无条件的包涵。如此为人的境界才是根本,因为宏大的科学创建终归是人做出来的,只有崇高的人文精神之下才能造就顶尖的人才、一流的科学和技术。观国内的学说界,官风盛行、人情充斥,与这些一流学说群对科学创建的赏识、对特性人才的包涵,对科学探究的热诚,可谓相去甚远。看来,我们只能寄希望于年轻一代,但愿吴博士的数学之美,能让我们的学子们,初步体验到科学精英们卓越的才智与情怀。数学之美读书笔记8读完本书,第一感受:次奥!原来数学如此多的原理模型概念都可以用去解决各种IT技术问题啊。特殊是语言识别和自然语言处理这类问题完全就是建立在数学原理之上的。总之,这本书就是用特别深化浅出的话去说明如何用数学方法去解决计算机的各种工程问题。这是一本讲道,而不是术的书。 要完全读懂这本书,我觉得至少须要驾驭这三门课:高等数学,离散数学,还有概率论与数理统计。唉.我当时数学学得太水了,还挂了高数啊.有好的概念没看懂,以后有时间在好好看吧。假如想搞计算机探讨的话,数学基础必不行少,别总在埋怨各种数学课上的东西一辈子都用不着。发觉作者对人类自然发展的相识特别深,其从语言,文字,数学的产生发展,信息的传播记录得出了这个结论:信息的产生传播接收反馈,和今日最先进的通信在原理上没有任何差别。就算是科学上最高深的技术,那也是模拟我们生活中的一些基本原理。我们今日运用的十进制,就是我们扳手指扳了十次,就进一次位。而玛雅文明他们数完了手指和脚指才起先进位,所以他们用的是二十进制。事实上阿拉伯数字是古印度人独创的,只是欧洲人不知道这些数字的真正独创人是古印度,而就把这功劳该给了“二道贩子”阿拉伯人。语言的数学本质任何一种语言都是一种编码方

    注意事项

    本文(2022年《数学之美》读书笔记.docx)为本站会员(w****)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开