当前位置：首页 > news >正文

日撸代码300行：第60天（小结）

news 2025/8/2 15:19:15

1、自己对于这个专栏的代码抄写也是断断续续，由于种种原因上次在第54天没坚持下来，这次继续希望能抄完。
2、现在代码的阅读和理解能力明显比刚开始抄代码的时候强了不少。感觉坚持到现在收获还是不小。现在基本上来说仔细想一下都能够理清楚代码的意思。
3、这十天的内容，让我对文件读取更熟悉了，之前总是搞不明白。其实也就是固定的句式，只是之前一直没弄清楚每一句代码的含义，还老是觉得很深奥。
4、基本理清楚了KNN、Kmeans两个算法，以前总是记混淆了。其实它们前者是分类算法，后者是聚类算法。虽然都有邻居的概念，但是算法完全不一样。前者是根据最近的K个邻居的类别，来投票决定待分类实例的标签。后者是根据簇内邻居，一起计算出虚拟簇中心，不断迭代直至算法收敛，完成聚类。
5、对推荐有了初步的认识，之前只是经常听到推荐系统，一直没有深入了解过其内容。第54和第55天的内容是基于M-distance的推荐。粗略的阅读了博客中提到的论文，了解了算法的基本思路。也是第一次实际接触推荐算法的数据集，了解了用户评分表的样子。分别用基于用户和基于项目的方法实现了推荐算法，理解更深了一层。
6、这几天还将机器学习的常识进行了系统的学习和阅读，对一些常见的问题和经典算法有了进一步的了解。比如支持向量机（SVM）、代价敏感、主成分分析（PCA）等问题，有些以前听过，但是不了解，有些根本没听过，现在理解更深一些了。
7、生成随机数的时候，往往是需要生成两个，然后两个再交换。这个对于原理没有太搞清楚，简单的搜了一下，没有搜到，先记住吧。可能是为了解决伪随机问题？但是交换了之后感觉还是伪随机啊。
8、对NB算法有了更深一步的理解，以前只知道是根据概率进行分类，但是到底是怎么实现的，其实是一脸懵逼状态。这次自己亲手抄了一遍代码，逐句分析，对整个算的理解更深了。
9、从NB算法对数值型和符号型数据的处理上来看，不同的数据类型，相同的算法可能处理起来完全不一样。即使理论是一样的，但是数值型数据就是用概率密度来实现的，且需要用到高斯分布的相关知识。符号型的数据是通过概率分布，但是需要进行laplacian平滑处理。数值型的数据决策属性概率同样也需要平滑处理。
10、越来越觉得，如果想继续搞研究，这个系列的代码应该多抄一抄。不仅能提升代码能力，也能对已有算法有更深的理解。

查看全文

http://www.lryc.cn/news/103265.html