pycharm同步代码到远程服务器

发表于 2021-04-18 分类于 python

pycharm同步代码到远程服务器

1.在pycharm菜单栏点Tools–>Deployment–>Configuration
如果显示Please add a web server to configure,点+增加一个要配置的web服务器，传输协议选择SFTP，并输入新服务器的名称。
2.在connection选项中选择或输入对应信息
Type:SFTP
Host:服务器ip地址 Port:22(默认为22)
Username:
Authentication:Password
Password:
3.点Test Connection测试是否成功连接服务器
4.在Mappings选项中选择 Deployment path(将项目/文件部署到服务器的哪个路径下)
5.Tools–>start SSH session
6.Tools–>Deployment–>upload to 刚刚输入的新服务器名称

MySQL | Access denied for user 'root'@'localhost'

发表于 2021-04-18 分类于 MySQL

ERROR: Access denied for user ‘root’@’localhost’

在安装mysql时，安装过程中没有提示输入密码，安装完成之后，在终端输入mysql报错Access denied for ‘root’@’localhost’,但是使用sudo mysql可以进入。

Solution:

1.在终端输：sudo mysql 进入mysql
2.mysql> use mysql
3.mysql> alter user ‘root’@’localhost’ identified with mysql_native_password by ‘your password’

机器学习 | AdaBoost

发表于 2021-04-17 更新于 2024-07-11 分类于 AI ，机器学习， AdaBoost

AdaBoost

集成方法

集成方法(ensemble method)/元算法(meta-algorithm):将不同的分类器组合起来的组合结果

集成方法的多种形式：
1.不同算法的集成
2.同一种算法在不同设置下的集成
3.数据集不同部分分配给不同分类器之后的集成

基分类器一般采用的是弱可学习（weakly learnable）分类器，通过集成方法，组合成一个强可学习（strongly learnable）分类器

弱可学习：
是指学习的正确率仅略优于随机猜测的多项式学习算法

强可学习：
指正确率较高的多项式学习算法。

集成学习的泛化能力一般比单一的基分类器要好，这是因为大部分基分类器都分类错误的概率远低于单一基分类器的。

集成方法主要包括Bagging和Boosting两种方法，Bagging和Boosting都是将已有的分类或回归算法通过一定方式组合起来，形成一个性能更加强大的分类器，更准确的说这是一种分类算法的组装方法，即将弱分类器组装成强分类器的方法。

Bagging

Boosting

Bagging、boosting二者之间的区别

总结

AdaBoost

分类器性能评价

总结

EEG | 脑电数据集下载网站

发表于 2021-04-17 更新于 2021-07-03 分类于 Research and Paper ， EEG

脑电数据集下载网站

网站1

网站2

Django | django开发流程

发表于 2021-04-15 更新于 2021-07-24 分类于 python ，框架， Django

django开发流程

1.安装虚拟环境
conda create -n python27 python==2.7
2..安装django
pip install django==1.8.2
3.创建项目
django-adming startproject project_name
4.创建应用
python manage.py startapp app_name
5.将app应用加入到installed_apps中
6.app_name/models.py中定义模型类
6.数据库配置(settings.py-DATABASES)
7.生成迁移文件
python manage.py makemigrations
8.执行迁移
python manage.py migrate
9.开启服务器
python manage.py runserver ip:port
10.创建管理员用户
python manage.py createsuperuser，按提示输入用户名、邮箱、密码
11.向admin注册app_name的模型
app_name/admin.py
admin.site.register(BookInfo)

注：
python shell—python manage.py shell

机器学习 | 支持向量机

发表于 2021-03-20 更新于 2024-07-11 分类于 AI ，机器学习， SVM

支持向量机(Support Vector Machine,SVM)

支持向量机是我们用于分类的一种算法。

小故事理解SVM:

当一个分类问题，数据是线性可分的，也就是用一根棍就可以将两种小球分开的时候，我们只要将棍的位置放在让小球距离棍的距离最大化的位置即可，寻找这个最大间隔的过程，就叫做最优化。但是，现实往往是很残酷的，一般的数据是线性不可分的，也就是找不到一个棍将两种小球很好的分类。这个时候，我们就需要像大侠一样，将小球拍起，用一张纸代替小棍将小球进行分类。想要让数据飞起，我们需要的东西就是核函数(kernel)，用于切分小球的纸，就是超平面。
问题是从线性可分延伸到线性不可分的

线性SVM

上图中的(a)是已有的数据，红色和蓝色分别代表两个不同的类别。数据显然是线性可分的，但是将两类数据点分开的直线显然不止一条。上图的(b)和(c)分别给出了B、C两种不同的分类方案，其中黑色实线为分界线，术语称为“决策面”。每个决策面对应了一个线性分类器。虽然从分类结果上看，分类器A和分类器B的效果是相同的。但是他们的性能是有差距的，看下图：

在”决策面”不变的情况下，我又添加了一个红点。可以看到，分类器B依然能很好的分类结果，而分类器C则出现了分类错误。显然分类器B的”决策面”放置的位置优于分类器C的”决策面”放置的位置，SVM算法也是这么认为的，它的依据就是分类器B的分类间隔比分类器C的分类间隔大。这里涉及到第一个SVM独有的概念”分类间隔”。在保证决策面方向不变且不会出现错分样本的情况下移动决策面，会在原来的决策面两侧找到两个极限位置（越过该位置就会产生错分现象），如虚线所示。虚线的位置由决策面的方向和距离原决策面最近的几个样本的位置决定。而这两条平行虚线正中间的分界线就是在保持当前决策面方向不变的前提下的最优决策面。两条虚线之间的垂直距离就是这个最优决策面对应的分类间隔。显然每一个可能把数据集正确分开的方向都有一个最优决策面（有些方向无论如何移动决策面的位置也不可能将两类样本完全分开），而不同方向的最优决策面的分类间隔通常是不同的，那个具有“最大间隔”的决策面就是SVM要寻找的最优解。而这个真正的最优解对应的两侧虚线所穿过的样本点，就是SVM中的支持样本点，称为”支持向量”。

数学建模

决策面方程
分类间隔方程
约束条件

最优化问题的两个基本因素：

1.目标函数你希望什么东西的什么指标达到最好
2.优化对象你期望通过改变哪些因素来使你的目标函数达到最优
Example:
在线性SVM算法中，目标函数就是分类间隔，优化对象就是决策面

最优化问题的分类：

1.无约束优化问题 min f(x)
求解方法：费马大定理(求f(x)的导数，令其为0，求得候选最优值，再在这些候选值中验证；如果是凸函数，可以保证是最优解)
2.有等式约束的优化问题
min f(x)
s.t. hi(x)=0,i=1,2,…,n
求解方法：拉格朗日乘子法(把等式约束hi(x)用一个系数与f(x)写成一个式子，称为拉格朗日函数，而系数称为拉格朗日乘子。通过拉格朗日函数对各个变量求导，令其为0，求得候选值集合，然后验证求得最优值)
3.有不等式约束的优化问题
min f(x)
s.t. gi(x)<=0,i=1,2,…,n
hj(x)=0,j=1,2,…,m
求解方法：拉格朗日+KKT条件把所有的等式、不等式约束与f(x)写成一个式子，也叫拉格朗日函数，系数也称为拉格朗日乘子，通过一些条件可以求出最优值的必要条件，这个条件称为KKT条件。

KKT条件的全称是Karush-Kuhn-Tucker条件，KKT条件是说最优值条件必须满足以下条件：
条件一：经过拉格朗日函数处理之后的新目标函数L(w,b,α)对x求导为零：
条件二：h(x) = 0；
条件三：α*g(x) = 0；

使用拉格朗日方程的目的：
将约束条件放到目标函数中，将有约束优化问题转换为无约束优化问题（我们知道我们要求解的是最小化问题，所以一个直观的想法是如果我能够构造一个函数，使得该函数在可行解区域内与原目标函数完全一致，而在可行解区域外的数值非常大，甚至是无穷大，那么这个没有约束条件的新目标函数的优化问题就与原来有约束条件的原始目标函数的优化问题是等价的问题。）

使用拉格朗日获得的函数使用求导方法求解依然困难，进而需要对问题进行一次转换，即使用一个数学技巧：拉格朗日对偶(将最小值和最大值的计算位置交换)

拉个朗日优化问题的两个步骤：
1.将有约束的原始目标函数转换为无约束的新构造的拉格朗日目标函数
2.使用拉格朗日对偶性，将不易求解的优化问题转化为容易求解的优化问题

求解对偶问题的三个步骤：
1.首先要让L(w,b,α)关于w和b最小化
2.求对α的极大
3.利用SMO算法求解对偶问题中的拉格朗日乘子

SMO算法

1996年，John Platt发布了一个称为SMO的强大算法，用于训练SVM。SMO表示序列最小化(Sequential Minimal Optimizaion)。Platt的SMO算法是将大优化问题分解为多个小优化问题来求解的。这些小优化问题往往很容易求解，并且对它们进行顺序求解的结果与将它们作为整体来求解的结果完全一致的。在结果完全相同的同时，SMO算法的求解时间短很多。

SMO算法的目标:
求出一系列alpha和b，一旦求出了这些alpha，就很容易计算出权重向量w并得到分隔超平面。

SMO算法的工作原理是：
每次循环中选择两个alpha进行优化处理。一旦找到了一对合适的alpha，那么就增大其中一个同时减小另一个。这里所谓的”合适”就是指两个alpha必须符合以下两个条件，条件之一就是两个alpha必须要在间隔边界之外，而且第二个条件则是这两个alpha还没有进行过区间化处理或者不在边界上。

注意：
实际上，对于目标函数，是存在一个假设(数据100%线性可分)的，但现实中的数据都不那么干净，这时我们就可以通过引入松弛变量ξ(slack variable)和惩罚参数C来允许有些数据点可以处于超平面的错误的一侧—>约束条件的改变—>目标函数的改变

SMO算法优化

启发式选择第二个alpha值

非线性SVM

核技巧

对于非线性情况：SVM的处理方式是选择一个核函数。简而言之：在线性不可分的情况下，SVM通过某种事先选择的非线性映射（核函数）将输入变量映到一个高维特征空间，将其变成在高维空间线性可分，在这个高维空间中构造最优分类超平面。

建立非线性学习器分为两步：

1.首先使用一个非线性映射将数据变换到一个特征空间F；
2.然后在特征空间使用线性学习器分类。

核函数方法

在特征空间中直接计算内积 <ϕ(xi),ϕ(x)>的方法称为核函数方法

核是一个函数k，对所有x,z∈X，满足k(x,z)=<ϕ(xi),ϕ(x)>，这里ϕ(·)是从原始输入空间X到内积空间F的映射。

简而言之：如果不是用核技术，就会先计算线性映ϕ(x1)和ϕ(x2)，然后计算这它们的内积，使用了核技术之后，先把ϕ(x1)和ϕ(x2)的一般表达式<ϕ(x1),ϕ(x2)>=k(<ϕ(x1),ϕ(x2) >)计算出来，这里的<·，·>表示内积，k(·，·)就是对应的核函数

将内积替换成核函数的方式被称为核技巧(kernel trick)。

总结

SVM的优缺点

优点：
1.可用于线性/非线性分类，也可以用于回归，泛化错误率低，也就是说具有良好的学习能力，且学到的结果具有很好的推广性。
2.可以解决小样本情况下的机器学习问题，可以解决高维问题，可以避免神经网络结构选择和局部极小点问题。
3.SVM是最好的现成的分类器，现成是指不加修改可直接使用。并且能够得到较低的错误率，SVM可以对训练集之外的数据点做很好的分类决策。

缺点：对参数调节和和函数的选择敏感。