Centos虚拟机克隆后的ip、mac、uuid 修改

发表于 2017-05-19 | 分类于 Linux |

方法一：

修改ip,mac地址（HWADDR），删除UUID项

vi /etc/sysconfig/network-scripts/ifcfg-eth0
DEVICE=eth0 
TYPE=Ethernet
ONBOOT=yes
NM_CONTROLLED=yes
BOOTPROTO=static
IPADDR=10.1.18.212
DNS1=your dns
DNS2=8.8.8.8
GATEWAY=10.1.18.254

删除旧网卡

vi /etc/udev/rules.d/70-persistent-net.rules
可以看到会有2张PCI device网卡，删除eth0那行，再把eth1的那行里的”eh1”改成”eth0”。

阅读全文 »

Hexo 更换电脑重新部署

发表于 2017-05-17 | 分类于 Geek |

拷贝原博客文件

必须拷贝文件：
├──_config.yml
├── theme
├── scaffolds #文章模板
├── package.json #说明使用哪些包
├── .gitignore #限定在提交的时候哪些文件可以忽略
└── source

阅读全文 »

「The Outline」It's for you

发表于 2017-05-17 | 分类于好奇心英语 |

https://theoutline.com/

每日早上来实验室习惯性的会打开一些咨询类网站看看进来世界都发生了什么。今天无意间发现了这样一个网站，让我幸喜若狂。

阅读全文 »

经典推荐算法之 Slope one

发表于 2017-05-16 | 分类于推荐系统 |

Slope One 是一系列应用于协同过滤的算法的统称。由 Daniel Lemire和Anna Maclachlan于2005年发表的论文中提出。有争议的是，该算法堪称基于项目评价的non-trivial 协同过滤算法最简洁的形式。该系列算法的简洁特性使它们的实现简单而高效，而且其精确度与其它复杂费时的算法相比也不相上下。该系列算法也被用来改进其它算法。

阅读全文 »

Ubuntu16.04下设置静态IP

发表于 2017-05-09 | 分类于 Linux |

vi /etc/network/interfaces

# This file describes the network interfaces available on your system
# and how to activate them. For more information, see interfaces(5).
source /etc/network/interfaces.d/*
# The loopback network interface
auto lo
iface lo inet loopback
# The primary network interface
auto ens160    #设置自动启动ens160接口
#iface ens160 inet dhcp  
iface ens160 inet static   #配置静态IP
address 10.1.18.200  #IP地址
netmask 255.255.255.0  #子网掩码
gateway 10.1.18.254    #默认网关
dns-nameserver 210.32.32.10

dns-nameserver 210.32.32.10 这句一定需要有，
因为以前是DHCP解析，所以会自动分配DNS 服务器地址。
而一旦设置为静态IP后就没有自动获取到DNS服务器了

设置完重启电脑

/etc/resolv.conf 文件中会自动添加

1	nameserver 210.32.32.10

(或者nameserver 8.8.8.8)可以根据访问速度，选择合适的公共DNS

KNN (k-nearest neighbor classification)

发表于 2017-03-16 | 分类于 Machine learning |

K-近邻算法（KNN）概述

最简单最初级的分类器是将全部的训练数据所对应的类别都记录下来，当测试对象的属性和某个训练对象的属性完全匹配时，便可以对其进行分类。但是怎么可能所有测试对象都会找到与之完全匹配的训练对象呢，其次就是存在一个测试对象同时与多个训练对象匹配，导致一个训练对象被分到了多个类的问题，基于这些问题呢，就产生了KNN。

KNN是通过测量不同特征值之间的距离进行分类。它的的思路是：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。K通常是不大于20的整数。KNN算法中，所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。

下面通过一个简单的例子说明一下：如下图，绿色圆要被决定赋予哪个类，是红色三角形还是蓝色四方形？如果K=3，由于红色三角形所占比例为2/3，绿色圆将被赋予红色三角形那个类，如果K=5，由于蓝色四方形比例为3/5，因此绿色圆被赋予蓝色四方形类。

阅读全文 »

支持向量机 Support Vector Machine

发表于 2017-03-13 | 分类于 Machine learning |

支持向量机（SVM）是90年代中期发展起来的基于统计学习理论的一种机器学习方法，通过寻求结构化风险最小来提高学习机泛化能力，实现经验风险和置信范围的最小化，从而达到在统计样本量较少的情况下，亦能获得良好统计规律的目的。

通俗来讲，它是一种二类分类模型，其基本模型定义为特征空间上的间隔最大的线性分类器，即支持向量机的学习策略便是间隔最大化，最终可转化为一个凸二次规划问题的求解。

线性分割
kernel trick 核技巧，多特征，将x,y映射到多维空间进行特征分割，之后再返回二维空间形成非线性分割线。核函数表示将输入从输入空间映射到特征空间得到的特征向量之间的内积。

什么是支持向量

训练数据集中与分离超平面距离最近的样本点的实例称为支持向量。支持向量在分离超平面时起决定作用，所以叫支持向量机。
更通俗的解释：
- 数据集中的某些点，位置比较特殊。比如 x+y-2=0 这条直线，假设出现在直线上方的样本记为 A 类，下方的记为 B 类。
- 在寻找找这条直线的时候，一般只需看两类数据，它们各自最靠近划分直线的那些点，而其他的点起不了决定作用。
- 这些点就是所谓的“支持点”，在数学中，这些点称为向量，所以更正式的名称为“支持向量”。

支持向量机的分类

线性可分支持向量机
- 当训练数据线性可分时，通过硬间隔最大化，学习一个线性分类器，即线性可分支持向量机，又称硬间隔支持向量机。
线性支持向量机
- 当训练数据接近线性可分时，通过软间隔最大化，学习一个线性分类器，即线性支持向量机，又称软间隔支持向量机。
非线性支持向量机
- 当训练数据线性不可分时，通过使用核技巧及软间隔最大化，学习非线性支持向量机。

线性可分支持向量机

线性可分 ：存在一个超平面使得数据集中的正负样本正确划分到超平面的两侧。
当训练数据线性可分时，通过硬间隔最大化，学习一个线性分类器，即线性可分支持向量机，又称硬间隔支持向量机。感知机模型，即误差最小化的模型来求分离超平面的解有无穷多个。利用间隔最大化求解最优分离超平面，这时，解是唯一的。
线性 SVM 的推导分为两部分
1. 如何根据间隔最大化的目标导出 SVM 的标准问题；
2. 拉格朗日乘子法对偶问题的求解过程.

定义

训练集 T

,(x_2,y_2),%5Ccdots,(x_N,y_N)&space;%5Cright&space;%7D)

y 为 1 或者 -1，正负样本
分离超平面 (w,b)

如果使用映射函数，那么分离超平面为

+b%5E*=0)

映射函数 Φ(x) 定义了从输入空间到特征空间的变换，特征空间通常是更高维的，甚至无穷维；方便起见，这里假设 Φ(x) 做的是恒等变换。
分类决策函数 f(x)

=%5Cmathrm%7Bsign%7D(w%5E%5Ccdot&space;x+b%5E))

公式推导

从“函数间隔”到“几何间隔”

给定训练集T和超平面(w,b)，定义函数间隔γ^：

&space;%5C&space;&=%5Cunderset%7Bi=1,%5Ccdots,N%7D%7B%5Cmin%7D,%5Chat%7B%5Cgamma%7D_i%5Cend%7Baligned%7D)

对 w 作规范化，使函数间隔成为几何间隔γ

%5C&space;&=%5Cunderset%7Bi=1,%5Ccdots,N%7D%7B%5Cmin%7D,%5Cfrac%7B%5Cgamma_i%7D%7B%7B%5Ccolor%7BRed%7D&space;%5Cleft&space;%7C&space;w&space;%5Cright&space;%7C%7D%7D&space;%5Cend%7Baligned%7D)
最大化几何间隔

对训练数据集找到几何间隔最大的超平面意味着以充分大的确信度对训练数据进行分类。即，不仅将正负实例点分开，而且对于最难分的点也有足够大的确信度将它们分开。这样对未知的新实例有很好的分类预测能力。

&space;%5Cgeq&space;%5Cgamma,%5Cquad&space;i=1,2,%5Ccdots,N&space;%5Cend%7Baligned%7D)

由函数间隔与几何间隔的关系，等价于

&space;%5Cgeq&space;%7B%5Ccolor%7BRed%7D&space;%5Chat%7B%5Cgamma%7D%7D,%5Cquad&space;i=1,2,%5Ccdots,N&space;%5Cend%7Baligned%7D)

函数间隔γ^的取值不会影响最终的超平面(w,b)：取γ^=1；又最大化 1/||w|| 等价于最小化1/2*||w||^2，于是有

&space;%5Cgeq&space;%5Chat%7B%5Cgamma%7D_i,%5Cquad&space;i=1,2,%5Ccdots,N&space;%5Cend%7Baligned%7D)

为什么令γ^=1？——比例改变(ω,b)，超平面不会改变，但函数间隔γ^会成比例改变，因此可以通过等比例改变(ω,b)使函数间隔γ^=1
- 该约束最优化问题即为线性支持向量机的标准问题——这是一个凸二次优化问题，可以使用商业 QP 代码完成。
  
  理论上，线性 SVM 的问题已经解决了；但在高等数学中，带约束的最优化问题还可以用另一种方法求解——拉格朗日乘子法。该方法的优点一是更容易求解，而是自然引入核函数，进而推广到非线性的情况。
构建拉格朗日函数

=&%5Cfrac%7B1%7D%7B2%7Dw%5ETw-%5Csum_%7Bi=1%7D%5EN%7B%5Ccolor%7BRed%7D&space;%5Calpha_i%7D%5By_i(w%5ETx_i+b)-1%5D%5C&space;&%7B%5Ccolor%7BRed%7D&space;%5Calpha_i&space;%5Cgeq&space;0%7D,%5Cquad&space;i=1,2,%5Ccdots,N&space;%5Cend%7Baligned%7D)
标准问题是求极小极大问题：

&space;%5Cend%7Baligned%7D)

其对偶问题为：

&space;%5Cend%7Baligned%7D)
求 L 对 (w,b) 的极小

结果代入L，有：

&space;&=%5Cfrac%7B1%7D%7B2%7Dw%5ETw-%5Csum_%7Bi=1%7D%5EN%7B%5Ccolor%7BRed%7D&space;%5Calpha_i%7D%5By_i(w%5ETxi+b)-1%5D%5C&space;&=%5Cfrac%7B1%7D%7B2%7Dw%5ETw-w%5ET%5Csum%7Bi=1%7D%5EN&space;%5Calpha_iy_ixi-b%5Csum%7Bi=1%7D%5EN&space;%5Calpha_iyi+%5Csum%7Bi=1%7D%5EN&space;%5Calphai%5C&space;&=%5Cfrac%7B1%7D%7B2%7Dw%5ETw-w%5ETw+%5Csum%7Bi=1%7D%5EN&space;%5Calphai%5C&space;&=-%5Cfrac%7B1%7D%7B2%7Dw%5ETw+%5Csum%7Bi=1%7D%5EN&space;%5Calphai%5C&space;&=-%5Cfrac%7B1%7D%7B2%7D%5Csum%7Bi=1%7D%5EN%5Csum_%7Bj=1%7D%5EN&space;%5Calpha_i%5Calpha_j%5Ccdot&space;y_iy_j%5Ccdot&space;%7B%5Ccolor%7BRed%7D&space;x_i%5ETxj%7D+%5Csum%7Bi=1%7D%5EN&space;%5Calpha_i&space;%5Cend%7Baligned%7D)

即

&space;&=%5Cfrac%7B1%7D%7B2%7Dw%5ETw-%5Csum_%7Bi=1%7D%5EN%7B%5Ccolor%7BRed%7D&space;%5Calpha_i%7D%5By_i(w%5ETxi+b)-1%5D%5C&space;&=%5Cfrac%7B1%7D%7B2%7Dw%5ETw-w%5ET%5Csum%7Bi=1%7D%5EN&space;%5Calpha_iy_ixi-b%5Csum%7Bi=1%7D%5EN&space;%5Calpha_iyi+%5Csum%7Bi=1%7D%5EN&space;%5Calphai%5C&space;&=%5Cfrac%7B1%7D%7B2%7Dw%5ETw-w%5ETw+%5Csum%7Bi=1%7D%5EN&space;%5Calphai%5C&space;&=-%5Cfrac%7B1%7D%7B2%7Dw%5ETw+%5Csum%7Bi=1%7D%5EN&space;%5Calphai%5C&space;&=-%5Cfrac%7B1%7D%7B2%7D%5Csum%7Bi=1%7D%5EN%5Csum_%7Bj=1%7D%5EN&space;%5Calpha_i%5Calpha_j%5Ccdot&space;y_iy_j%5Ccdot&space;%7B%5Ccolor%7BRed%7D&space;x_i%5ETxj%7D+%5Csum%7Bi=1%7D%5EN&space;%5Calpha_i&space;%5Cend%7Baligned%7D)
求 L 对 α 的极大，即

该问题的对偶问题为：

于是，标准问题最后等价于求解该对偶问题

继续求解该优化问题，有 SMO 方法；因为《统计学习方法》也只讨论到这里，故推导也止于此
设 α 的解为 α*，则存在下标j使α_j > 0，可得标准问题的解为：

&space;%5Cend%7Baligned%7D)

可得分离超平面及分类决策函数为：

=%5Cmathrm%7Bsign%7D(w%5E%5Ccdot&space;x+b%5E))

线性支持向量机

即在线性可分向量机的基础上，增加惩罚参数和松弛变量，使模型可以排除一些特异点之后线性可分，使软间隔最大化。

非线性支持向量机

非线性问题所采用的方法是进行非线性变换，将非线性问题转化为线性问题。

多项式和函数
高斯核函数
字符串核函数

使用 sklearn 实战

阅读全文 »

朴素贝叶斯 naive bayes

发表于 2017-03-09 | 分类于 Machine learning |

背景案例

几年前，J.K. 罗琳（凭借《哈利波特》出名）试着做了件有趣的事。她以 Robert Galbraith 的化名写了本名叫《The Cuckoo’s Calling》的书。尽管该书得到一些不错的评论，但是大家都不太重视它，直到 Twitter 上一个匿名的知情人士说那是 J.K. Rowling 写的。《伦敦周日泰晤士报》找来两名专家对《杜鹃在呼唤》和 Rowling 的《偶发空缺》以及其他几名作者的书进行了比较。分析结果强有力地指出罗琳就是作者，《泰晤士报》直接询问出版商情况是否属实，而出版商也证实了这一说法，该书在此后一夜成名。

这就是一个文本分类预测的例子，接下来我们看看朴素贝叶斯是怎么做的。

贝叶斯定理

贝叶斯分类是一类分类算法的总称，这类算法均以贝叶斯定理为基础，故统称为贝叶斯分类。
这个定理解决了现实生活里经常遇到的问题：已知某条件概率，如何得到两个事件交换后的概率，也就是在已知P(A|B)的情况下如何求得P(B|A)。

条件概率：

贝叶斯定理：

阅读全文 »

有监督学习和无监督学习

发表于 2017-03-06 | 分类于 Machine learning |

有监督学习 supervised learning

对具有概念标记（分类）的训练样本进行学习，以尽可能对训练样本集外的数据进行标记（分类）预测。这里，所有的标记（分类）是已知的。因此，训练样本的岐义性低。监督学习的典型例子就是决策树、神经网络以及疾病监测.

监督学习是训练神经网络和决策树的最常见技术。这两种技术（神经网络和决策树）高度依赖于事先确定的分类系统给出的信息。对于神经网络来说，分类系统用于判断网络的错误，然后调整网络适应它；对于决策树，分类系统用来判断哪些属性提供了最多的信息，如此一来可以用它解决分类系统的问题。我们将会看到这两者（神经网络和决策树）更多的细节，但在目前，它们用预先确定分类方法的形式来“监督”就足够了。

无监督学习 unsupervised learning

对没有概念标记（分类）的训练样本进行学习，以发现训练样本集中的结构性知识。这里，所有的标记（分类）是未知的。因此，训练样本的岐义性高。聚类就是典型的无监督学习.

在这方面一个突出的例子是Backgammon（西洋双陆棋）游戏，有一系列计算机程序（例如neuro-gammon和TD-gammon）通过非监督学习自己一遍又一遍的玩这个游戏，变得比最强的人类棋手还要出色。这些程序发现的一些原则甚至令双陆棋专家都感到惊讶，并且它们比那些使用预分类样本训练的双陆棋程序工作得更出色。

一种次要的非监督学习类型称之为聚类（原文为clustering）。这类学习类型的目标不是让效用函数最大化，而是找到训练数据中的近似点。聚类常常能发现那些与假设匹配的相当好的直观分类。例如，基于人口统计的聚合个体可能会在一个群体中形成一个富有的聚类，以及其他的贫穷的聚合。

阅读全文 »

「China Daily」Online fantasy novel hits the small screen

发表于 2017-02-24 | 分类于好奇心英语 |

http://www.chinadaily.com.cn/culture/2017-02/17/content_28244549.htm#Content

A Ten Miles of Peach Blossom poster [Photo provided to chinadaily.com.cn]

News text

Adapted from a popular online novel of the same name, a TV series called Ten Miles of Peach Blossom has hit the small screen during the Spring Festival.

Set in a fantasy world where monsters, gods and humans coexist, the story tells a love story between a 140,000-year-old fox princess and a 50,000-year-old dragon prince.

The story has won many fans for its beautiful scenes, poetic dialogues and popular stars.

The most important reason for turning the online novel into the TV series is the strong demand from fans.

The novel was published by Shenyang Press in 2009 and has sold 1.1 million copies.

According to an industry insider, the online popularity and potential for market earnings from the online novels could propel the TV series or film to be the next blockbuster.

Here are some beautiful scenes from the TV series.

阅读全文 »