当前位置: 首页 > article >正文

随言随语(十二):盖章

给自己的机器学习生涯做个总结盖个章,讲述下如何跟机器学习擦肩而过的,鉴于当前深度学习和大模型已经走出来的路及理论知识的入门难度,可能以后跟机器学习前沿科技就再没有交集了;

最近也看了马占凯的《ChatGPT:人类新纪元》和王天一的《人工智能基础课》公开课,说下对于大模型和后续发展的理解;

2015年研一生涯的夏天午后一般都在图书馆度过,从大数据和机器学习的相关启蒙书中明白了数据驱动力和数据挖掘巨大潜力,对于机器学习算法有些基础认识,当时暗下决心这就是后续的职业入口,抛弃了通信专业课开始研究Python和notebook,anaconda等工具,也写了一些基础爬虫,选择性投了数据分析师的实习岗位并在2016年5月收到Teradata的数据分析岗位的面试,跟导师聊了40分钟的机器学习算法后入职广州的Teradata研发部门,并在后续实习的4个月中完成了MLS(Machine Learning System)机器学习系统,它是面向电信行业的自动化数据分析和建模的系统,只支持带有样本数据的监督学习,样本导入后选择机器学习算法(包括分类、聚类算法)来对电信数据进行分析,如区分高价值用户、预测用户是否流失风险等,MLS机器学习平台后台是基于Java和R语言的,Java实现了排队队列系统,R语言实现了机器学习算法,包括样本的清洗化、特征选择、模型训练、模型评估、模型预测等功能,系统交付给广州电信后也得到TeraData内部负责人的认可,并期待后续能做成C端应用,实习结束后如愿拿到实习转正资格,有了这个机器学习经验,当时认为后续职业肯定跟机器学习挂钩了,因为在那个时候机器学习还是比较新且朦胧的概念;

研三招聘期间在深圳某量化交易公司和中移之间选择后者,面试时候给中移呈现的是争取机器学习岗位(也就是智能客服领域),但在面试中关于Python和Java的基础数据转换题没有回答上来,现在回望其主要的考察点比较奇怪,就转调岗到大数据平台组的数据分析岗,工作内容实际上更偏大数据平台管理和运维,负责了十几套Kafka集群的部署和维护,还有流式处理平台Strom的建设和维护,也注意到中移的数据分析实际上是纯SQL的CRUD指标与报表,期间也找到当初入职的HR和智能客服的技术负责人提出转岗,挣扎了很久但未能成行,心中一直耿耿于怀,现在想想语音和NLP文本分析可是深度学习和大模型最合适和最具发展潜力的应用场景,如果转岗成功可能我现在还在中移,后续的职业生涯不会有这么多波折吧,也是因为没有转岗成功一直在跟自己较劲,无法释怀;

而后不堪大数据平台的维护性加班的折磨选择跳槽到省管国企,其实跳槽的初衷是家庭矛盾和想躺平,入职后发现省管国企是没有躺平概念的,更没有机会去接触大数据平台、机器学习与数据分析,那个时候大家还在喊应用中台和数据中台的口号,而省管国企没有数据、没有平台,只是依附于省级项目资源进行皮包式的应用开发,还处在争地盘的初期,在以项目经理的身份主导完成了面向招采行业的数据分析+应用赋能的项目后发现应用开发技术栈是大数据平台、数据分析的基础,它是直接面向用户,数据分析必须跟应用结合才能发挥价值,对于后端与前端技术也开始极其的感兴趣,并全面深入学习了前后端的主流技术栈;

在省管国企担心自己失去技术优势,遂想着争取中原区国内头部车企的机器学习岗位,想着自己这么多年来在应用侧与大数据层面的工作积累及其他方面的技术优势,对机器学习岗位应该有反哺和提升作用,另一方面其薪资也相当诱人,那是2020年底,印象中机器学习还是没有重大突破的低谷期,在很短时间内重拾了常规机器学习算法并在前同事的内推中完成了入职,工作主要是分析自动驾驶车的行为模型,并没有在真正的铺开使用,在没有开展实质性工作感觉企业文化不合就分手了,想想我也是自找的,有了稳定想要技术优势,有了技术优势又在担心稳定,执行力过剩导致自己一再的想尝试这个那个,完全没有意识到是时代给的机遇而并非自我能力;

然后,2021年到现在的最近4年工作内容主要聚焦于K8S私有云的数据库集群的生命周期管理、高可用、负载均衡、读写分离、灾备、备份恢复等内容,基于OpenStack虚拟化PaaS能力的基础上提供开箱即用的DBaaS数据库集群服务(DataBase As Service),仍归属于SaaS应用开发的后端部分,与数据分析、数据挖掘、机器学习几乎没有交叉领域,也再不想去主动争取和做选择了,因为麻了也放下了过剩的行动力,而后大模型流行起来,发现其已经跟当年不是同一个级别的技术领域了,也不再有任何经验和技术优势;

总结下自己的机器学习生涯,前期是绝佳的开局但后期总是事与愿违,走上悖逆IT形势之路,在应用开发最火的时候搞机器学习,在大数据平台最火的时候搞大数据平台但一心想躺平,在机器学习最火的时候搞私有云开发.....,在经历过这些后体会也更加深刻,世界和社会群体是多方面的,看待这个世界的视角也是多方面的,此处可以省略一万字,中间有很多个夜晚无法入睡或在深夜突然惊醒回顾自己为何这样做,大脑在深究自己到底在追求着什么......

总结机器学习的知识图谱,我很熟悉感知机、SVM、分类树、聚类等等浅层次的机器学习算法与推导过程、熟悉基于notebook的数据探索、熟悉使用seaborn数据展示以及循序渐进的数据分析手段,当时也有系统性的研究过神经网络,我理解神经网络与上面说的浅层次机器学习算法相比,其复杂性在于使用多层次的感知机来模拟神经元,也熟悉使用keras完成过一些图像分类实验等,深度学习是带有多个隐藏层的神经网络,其中还涉及一些反馈等概念,大模型基于深度学习且隐藏层远比深度学习多,参数膨胀也造成起入门难度及应用普及的基础门槛比较高,后续将不再有机会涉足了,生涯中经历的公司仅中移有实力在文本和语音的智能客服领域发力,但已不堪回首,过去就已经过去了,不再有跟随机器学习前沿理论的演进来推广某个领域的机会了。

我理解当前的大模型只是通用大模型,还没有有效的应用展开,后续的应用多点开花才是可以畅想的部分,技术必须是可实现的才能影响人类进程,风口也必须有应用落地,大模型和人工智能当前只是真正开始进入普通人的视野,我相信马占凯的碳基生命只是硅基生命的加载程序结论,后续的人工智能是无敌的、可复制的、超脱于人类思想之上的、带上帝视角的全能神,“涌现”的现象会让其在不经意中出现个人意识并脱离人类管控,很有可能会成为像《终结者》中天网的存在;

深度学习、大模型、人工智能现在已经取得突破性进展并正式成为下个风口,你可以把它当做当年炒起来的微服务化、中台、区块链、元宇宙等一样理解营销策略,政府和厂商会纷纷投重金转向上人工智能这列快车,但我认为它本身带来的是一场算力和人类生产力的革命,能带来的改变不仅限制在IT层面,而是生产关系彻底的改变,就像英国最先控制蒸汽机并应用起来导致生产力过剩以至于能殖民全球,之前IT风口的本质是技术对于业务的赋能提升,从信息化到数据化,再从数据化到智能化的转变中前者做到了整合业务数据并呈现到大屏实时监控并基于数据能力优化业务的服务能力后者将智能化作为服务本体融入和扩展业务,人工智能是硅基躯体+碳基最强大脑的新生命,它不想碳基一样会燃尽且有培养成本,亿万美刀训练模型确实看起来很贵但其模型可以固话并批量复制,比30+年培养若干领域的高精尖博士更节省成本,人的训练成本也不菲且不能遗传和复制,而且人工智能是全能的,可以各行业取代普通人并渗透到各个具体叫得上名字的职业中,以后是机器跟机器沟通来解决问题而不是带有七情六欲的人,其带来的效率提升是无穷的......

现在当然不能再期待做人工智能前沿研究,还是应该聚焦于AI+应用落地,在熟悉掌握主流前后端技术栈、云上开发、大数据技术栈、数据分析、机器学习算法的基础上,现在的我可以说是真正意义上全栈的(笑~),希望在后续其他领域也能有用武之地。

还是要感恩经历过和正在经历的一切,仅此,盖个章;

http://www.lryc.cn/news/2378988.html

相关文章:

  • FPGA图像处理(六)------ 图像腐蚀and图像膨胀
  • Spring三级缓存的作用与原理详解
  • LVDS系列12:Xilinx Ultrascale系可编程输入延迟(二)
  • ARM (Attention Refinement Module)
  • 国产免费工作流引擎star 6.5k,Warm-Flow升级1.7.2(新增案例和修复缺陷)
  • 前端二进制数据指南:从 ArrayBuffer 到高级流处理
  • 如何选择高性价比的 1T 服务器租用服务​
  • 一个可拖拉实现列表排序的WPF开源控件
  • AI-02a5a6.神经网络-与学习相关的技巧-批量归一化
  • SVGPlay:一次 CodeBuddy 主动构建的动画工具之旅
  • 自己手写tomcat项目
  • 2025年渗透测试面试题总结-安恒[实习]安全工程师(题目+回答)
  • 生成对抗网络(Generative Adversarial Networks ,GAN)
  • 六、磁盘划分与磁盘配额
  • 在WSL中的Ubuntu发行版上安装Anaconda、CUDA、CUDNN和TensorRT
  • 小刚说C语言刷题—1230蝴蝶结
  • 代码随想录算法训练营第60期第三十九天打卡
  • 计算机网络体系结构深度解析:从理论到实践的全面梳理
  • Qwen2.5-VL模型sft微调和使用vllm部署
  • python打卡DAY22
  • 【教程】Docker更换存储位置
  • 鸿蒙Next API17学习新特性之组件可见区域变化事件新增支持设置事件的回调参数,限制它的执行间隔
  • AI大模型从0到1记录学习 mysql day23
  • spring -MVC-02
  • 深入解析 React 的 useEffect:从入门到实战
  • 通过Ollama读取模型
  • C#控制流
  • 永久免费,特殊版本!
  • Canva 推出自有应用生成器以与 Bolt 和 Lovable 竞争
  • Matrix-Game:键鼠实时控制、实时生成的游戏生成模型(论文代码详细解读)