NSQ Blog

掌握编程和机器学习,能看到很多别人看不到的机会

机器学习:随机森林模型详解

Random Forest

随机森林模型 随机森林,顾名思义,是用随机的方式建立一个森林,森林里面有很多的决策树,随机森林的每一棵决策树之间是没有关联的。在得到森林之后,当有一个新的输 入样本进入的时候,就让森林中的每一棵决策树分别进行一下判断,看看这个样本应该属于哪一类(对于分类算法),然后看看哪一类被选择最多,就预测这个样本为那一类。随机森林由决策树组成,决策树实际上是将空间用超平面进行划分的一种方法,每次分割的...

机器学习:决策树回归模型解释及实例

decisiointree regression

决策树回归 决策树模型不仅可以用来进行分类,同样也可以用来进行回归。特征划分的标准即是计算按照每个候选点进行划分后数据的最小二乘误差。决策树的输出即为叶子节点上数据的均值。 回归树的特征划分方法 对每一个特征中相邻的数据取均值,作为候选切分点。假设特征有a个取值,则有a - 1 个候选切分点(回归树采用与分类树中连续变量切分类似的方法)。 然后针对每个切分点,将该特征的数据分...

机器学习:决策树分类模型

Decision tree

1.分类决策树介绍: 决策树是树模型的基础形式。它包含一个根节点,若干个内部节点,以及若干个叶子节点。其中根节点包含全部的样本。每个内部节点代表了一个属性测试,每个子节点对应于一个决策结果(分为多少类就有多少个子节点)。决策树学习的目的在于产生一颗泛化能力强的决策树。 决策树的优点:(1):直观易理解,符合人认知事物的过程。(2)应用范围广,分类回归均可以。缺点就是容易造成过拟合。需要剪...

豆瓣电影评论爬取(简单版)

requests, xpath

豆瓣电影评论爬取 这是一个利用requests和xpath路径爬取豆瓣电影评论数据的爬虫代码,比较简单,主要用来熟悉xpath路径的使用。 #导入相关的库 import requests from lxml import etree 接下来构造headers,如果网站的反爬措施比较简单,则不必构造headers。 # headers是假装浏览器在查看网页,一般设置user agen...

静态网站抓取

requests, xpath

静态网站抓取 静态网站的抓取主要依靠requests库和xpath来进行。其中requests用来获取网页,而xpath用来定位网页中的元素。 一:requests请求 import requests #利用get请求去获取网页内容,得到的result为网页的源代码,这个地方的url不能用简写,必须要有http result = request.get('http://news.qq....

机器学习:利用梯度下降法及正规方程法求解线性回归

gradient descent &normal equation

利用梯度下降法及正规方程法求解线性回归 该文章是在学习了唐宇迪机器学习视频及吴恩达在couresa上的机器学习视频后进行的总结。 回归和分类的区别 回归算法的预测值是连续的,而分类算法的预测值是一组类别,是离散值。比如,银行根据客户的历史数据,判断某个人的信用是否良好,预测结果就是好和坏两种类型。如果银行想根据客户的历史数据来判断向客户贷款的额度,这便是一个回归问题。 线性回归问题介...

导数 微分 偏导数 方向导数 梯度 梯度下降法总结

基础知识复习

在机器学习中,首先学习到的算法便是梯度下降法,这其中涉及到的相关导数和微分及梯度等基础知识,在这里整理一下,主要内容来自某一博客还有吴恩达的机器学习视频。这篇博客写的很出色,讲解很清晰,因此保存下来,但是博客地址找不见了,如果博主看到,麻烦通知一下,我加上转载地址。谢谢。 从上边的图中可以看出,在梯度下降法中,选择不同的起始值,会得到不同的局部最小值(凸函数除外)。因此...

sklearn 数据预处理函数fit,transform和fit_transform的区别

sklearn fit,transform和fit_transform

sklearn 数据预处理函数fit,transform和fit_transform的区别 from sklearn import preprocessing import numpy as np X = np.array([[1., -1., 2.], [2., 0., 0.], [0., 1., -1.]]) ...

seaborn可视化案例分析

鸢尾花 泰坦尼克号案例

seaborn 在上一期中,我们详细介绍了matplotlib可视化工具包的使用,毫无疑问,matplotlib是一个用来做可视化非常棒的工具库。然而,大家可能也有所发现,虽然matplotlib画出来的图很精细,但是代码都很长,有些时候会降低我们做事的效率。今天,我们继续推出另外一个更加方便使用的可视化工具包seaborn,它是在matplotlib的基础上做了更高一层的封装,绘图更加简...

matplotlib可视化操作及案例分析

matplotlib 航班数据 鸢尾花数据

matplotlib 可视化总结 之前的几期中,我们推出了python语法和pandas数据处理的模块,这是用来做数据分析最不可或缺的技能。今天我们接着推出matplotlib可视化的模块。可视化也是在整个数据分析流程中必不可少的一个环节,因为图形远比单纯的数字易于理解和接受,一个好的可视化图形能够“不言自明”,给听众留下深刻的印象。这一期推出的matplotlib模块,是python中应...

链家网房价数据分析

Pandas

之前的几期中,我们谈到了python的基本语法,以及pandas中的常用操作命令。今天我们用链家网房价的这样一份数据,来亲自动手实践一下,看一下pandas这个数据处理的大熊猫是如何让众多数据从业者爱不释手的。好了,废话少说,我们来看一下这份数据的分析过程。这份数据是链家网2017年7月份的房价数据。 首先,做数据分析,咱啥也别逼逼,先把numpy和pandas两个库导进来再说,要是想做可...

Pandas中groupby函数,apply函数,concat函数总结

groupby,apply,concat

之前的两期中,我们简单的讨论了Pandas中两种基本的数据结构,Series和DataFrame。今天我们来说一说pandas中的几个重要的函数,分别是groupby,apply和concat。 groupby函数 首先来看一下groupby函数,顾名思义,groupby就是按照xx分组的意思,所以这个函数就是用来对DataFrame进行分组使用的。下边来看一个例子,就能清楚的看明白这个...

Pandas中DataFrame操作总结

DataFrame

今天我们来总结一下在Pandas库中DataFrame的操作,由于在markdown中显示DataFrame存在困难,因此以图片的形式进行上传。

Pandas中Series操作

pandas Series

Pandas中Series操作 pandas是一个专门用于数据分析的python工具库 Pandas简介 python数据分析处理的一个package 基于numpy(对“矩阵”做科学计算) 有一种用python去操作Excel/SQL的感觉 Pandas中的数据结构主要有两种,一是Series,二是DataFrame。可以先直观的把Series理解为一维的数组,把Pa...

python字典和列表的遍历,文件读写的常用操作

字典,列表遍历,文件

遍历 1. 遍历字典(只能遍历key值) dic = {"1":21,"2":64,"3":98} #遍历字典只是遍历key值 for c in dic: print(c, end = ",") 结果: 1,2,3, 2. 遍历输出完整的字典内容 dic = {"1":21,"2":64,"3":98} #遍历输出完整的key-value for c in dic: ...

拟合问题

欠拟合,正确拟合,过拟合

三种拟合方式: 防止过拟合的方法: 增加数据集:好的数据集胜过好模型 正则化方法 :是一种防止过拟合的方法,过拟合的特点就是权重参数w的个数太多,因此需要尽量减少w的个数,因此就需要添加正则项,将C作为代价函数进行优化,可以使得C~0~ 和正则项同时达到最小。 参考机器学习中常常提到的正则化到底是什么意思? \(C = C_{...

tensorflow中代价函数与激活函数的选择

代价函数,激活函数

激活函数与代价函数的选择 常用的代价函数有二次代价函数,交叉熵代价函数。对数似然代价函数。常用激活函数有sigmoid函数(二分类问题时使用),softmax函数(对于多分类问题,神经网络最后一层的激活函数为softmax函数)。 二次代价函数 首先,二次代价函数如下: \(C = \frac{1}{2n} \sum_{x} (y - prediction)^2\) 从以...

tensorflow非线性回归示例

非线性回归的例子 首先生成了200个随机点,作为真实值。然后利用神经网络进行运算,中间层有1层,10个节点。最后利用梯度下降法进行优化,优化次数为5000次。然后利用matplotib作图。观察训练情况。 import tensorflow as tf import numpy as np import matplotlib.pyplot as plt #生成200个随机点,范围自-...

tensorflow基本概念和简单示例

基本概念、创建图、启动图、变量、简单示例

一: 基本概念 使用图 (graph) 来表示计算任务. 在被称之为 会话 (Session) 的上下文 (context) 中执行图. 使用 tensor 表示数据. 通过 变量 (Variable) 维护状态. 使用 feed 和 fetch 可以为任意的操作(arbitrary opera...

tensorflow安装

tensorflow安装

在安装tensorflow之前,要先安装anaconda。 windows上安装tensorflow。https://www.tensorflow.org/install/install_windows 在command中,安装CPU版本。命令:pip install tensorflow。 更新tensorflow: 先卸载...

python换行及一些数学函数(ceil,floor,round,random)

python小知识点

1. python换行 1.1Python 通常是一行写完一条语句,但如果语句很长,我们可以使用反斜杠()来实现多行语句 a = 4 b = 5 c = 6 d = a + \ b + \ c print(d) 15 1.2 在 [], {}, 或 () 中的多行语句,不需要使用反斜杠(),例如: lst = ["中国","北京", "杭州"] l...

logistic regression 代码及实例

python代码实现

注:本文档中的代码和实例是在学习了《机器学习实战》第五章后总结的。 相关jupyter文件及数据集请在我的github上下载。链接如下: https://github.com/nianshiqiang/machine_learning/tree/master/logistic_regression logistic regression import numpy as np impo...

python 基本语法总结

Hello python

python基本语法总结 python 是一门在数据科学领域应用十分广泛的编程语言,它简单,优美的代码结构让越来越多的数据玩家选择将其作为首选编程语言。python 拥有众多开源的代码库,并且还在源源不断的增加,开源并且丰富的代码库能够极大的节省使用者在编程语言上的精力,使其能够更加专注的考虑程序背后的逻辑。 网上有太多关于python的学习教程,找一个讲解通俗易懂的教程学习一遍就已经足...