Python 与机器学习

Python & Machine Learning


  • 首页

  • 分类

  • 标签

  • 归档

  • 搜索

MergedNB 的实现

发表于 2017-04-20 | 分类于 朴素贝叶斯

(本文会用到的所有代码都在这里)

本文主要介绍混合型朴素贝叶斯—— MergedNB 的实现。(我知道的)混合型朴素贝叶斯算法主要有两种提法:

  • 用某种分布的密度函数算出训练集中各个样本连续型特征相应维度的密度之后,根据这些密度的情况将该维度离散化、最后再训练离散型朴素贝叶斯模型
  • 直接结合离散型朴素贝叶斯和连续型朴素贝叶斯:

从直观可以看出、第二种提法可能会比第一种提法要“激进”一些,因为如果某个连续型维度采用的分布特别“大起大落”的话、该维度可能就会直接“主导”整个决策。但是考虑到实现的简洁和直观(……),我们还是演示第二种提法的实现。感兴趣的观众老爷可以尝试实现第一种提法,思路和过程都是没有太本质的区别的、只是会繁琐不少

阅读全文 »

推导与推广

发表于 2017-04-20 | 分类于 朴素贝叶斯

本文旨在解决如下两个问题:

  • 为何后验概率最大化是贝叶斯决策?
  • 如何导出离散型朴素贝叶斯的算法?

以及旨在叙述一些朴素贝叶斯的推广。具体而言、我们会简要介绍:

  • 半朴素贝叶斯
  • 贝叶斯网
阅读全文 »

“朴素贝叶斯”小结

发表于 2017-04-20 | 分类于 朴素贝叶斯
  • 贝叶斯学派强调概率的“主观性”、而频率学派则强调“自然属性”
  • 常见的参数估计有 ML 估计和 MAP 估计两种,其中 MAP 估计比 ML 估计多了对数先验概率这一项,体现了贝叶斯学派的思想
  • 朴素贝叶斯算法下的模型一般分为三类:离散型、连续型和混合型。其中,离散型朴素贝叶斯不但能够进行对离散型数据进行分类、还能进行特征提取和可视化
  • 朴素贝叶斯是简单而高效的算法,它是损失函数为 0-1 函数下的贝叶斯决策。朴素贝叶斯的基本假设是条件独立性假设,该假设一般来说太过苛刻,视情况可以通过另外两种贝叶斯分类器算法——半朴素贝叶斯和贝叶斯网来弱化

机器学习综述

发表于 2017-04-19 | 分类于 绪论

“机器学习”在最近虽可能不至于到人尽皆知的程度、却也是非常火热的词汇。机器学习是英文单词“Machine Learning”(简称ML)的直译,从字面上便说明了这门技术是让机器进行“学习”的技术。然而我们知道机器终究是死的,所谓的“学习”归根结底亦只是人类“赋予”机器的一系列运算。这个“赋予”的过程可以有很多种实现,而 Python 正是其中相对容易上手、同时性能又相当不错的一门语言。作为综述,我们只打算谈谈机器学习相关的一些比较宽泛的知识,介绍与说明为何要使用 Python 来作为机器学习的工具的工作则交给下一篇文章来做。而在最后,我们会提供一个简短易懂的、具有实际意义的例子来给大家提供一个直观的感受

由于所涉及到的东西都比较基础,有相应知识背景的观众老爷大可不必看“绪论”这一分类下的文章 ( σ’ω’)σ

以下是目录:

  • 人生苦短,我用 Python
  • 第一个机器学习样例
  • “绪论”小结
阅读全文 »

人生苦短,我用 Python

发表于 2017-04-20 | 分类于 绪论

上一篇文章大概地介绍了一下机器学习的各种概念,这一篇文章我们则会主要讲讲脚本语言 Python 相关的一些东西。本文题目是在 Python 界流传甚广的“谚语”,它讲述了 Python 强大的功能与易于上手的特性

阅读全文 »

第一个机器学习样例

发表于 2017-04-20 | 分类于 绪论

(本文会用到的所有代码都在这里)

作为“绪论”的总结,我们来运用 Python 解决一个实际问题以对机器学习有具体的感受吧。由于该样例只是为了提供直观,我们就拿比较有名的一个小问题来进行阐述。俗话云:“麻雀虽小,五脏俱全”,我们完全可以通过这个样例来对机器学习的一般性步骤进行一个大致的认知

该问题来自 Coursera 上斯坦福大学机器学习课程(which is 我的入坑课程),其叙述如下:现有包含 47 个房子的面积和价格,需要建立一个模型对新的房价进行预测。稍微翻译一下问题,可以得知:

  • 输入数据只有一维、亦即房子的面积
  • 目标数据也只有一维、亦即房子的价格
  • 我们需要做的、就是根据已知的房子的面积和价格的关系进行机器学习

下面我们就来一步步地进行操作

阅读全文 »

“绪论”小结

发表于 2017-04-20 | 分类于 绪论
  • 与传统的计算机程序不同,机器学习是面向数据的算法、能够从数据中获得信息。它符合新时代脑力劳动代替体力劳动的趋势,是富有生命力的领域
  • Python 是一门优异的语言,代码清晰可读、功能广泛强大。其最大弱点——速度问题也可以通过很多不太困难的方法弥补
  • 虽说机器学习算法很多,但通常而言、进行机器学习的过程会包含以下三步:
    • 获取与处理数据
    • 选择与训练模型
    • 评估与可视化结果
1…56
射命丸咲

射命丸咲

一个啥都想学的浮莲子

57 日志
7 分类
6 标签
RSS
GitHub 知乎
© 2017 射命丸咲
由 Hexo 强力驱动
主题 - NexT.Muse