machine learning

GBDT

Written by  on November 1, 2018

梯度提升决策树(Gradient Boosting Decision Tree, GBDT)是一种基于提升决策树(Boosting Tree)的模型以分类回归决策树(Classification and Regression Tree, CART)作为基本分类器的模型。

[Read more...]

Word2Vec

Written by  on October 28, 2018

Word2Vec算法是NLP领域一个里程碑式的工作,它可以通过训练把文本内容映射到一个K维的向量,这样就很方便继续在其他一些算法领域里面使用,比如推荐系统或者广告点击率预估等等。它是在2013年由当时还在Google工作的Tomas Mikolov发表,主要两篇论文是《Distributed Representations of Words and Phrases and their Compositionality》和《Efficient Estimation of Word Representations in Vector Space》.

[Read more...]

Logistic Regression

Written by  on October 6, 2018

逻辑斯谛回归因为其易于实现,可解释性强,已经成为了工业界应用最广泛的机器学习算法。这篇文章主要讨论的是二项逻辑斯谛回归 (binominal logistic regression),以下简称LR。

[Read more...]

使用scikit-learn进行KMeans文本聚类

Written by  on April 28, 2016

K-Means 算法简介 中文名字叫做K-均值算法,算法的目的是将n个向量分别归属到K个中心点里面去。算法首先会随机选择K个中心向量,然后通过迭代计算以及重新选择K个中心向量,使得n个向量各自被分配到距离最近的K中心点,并且所有向量距离各自中心点的和最小。

[Read more...]