machine learning

理解node2vec

Written by razrlele on March 16, 2020

最近在看一些graph embedding 相关，先从node2vec入手的，在这里大概记录一下一些理解和实践。 Theory 看到embedding，第一眼就容易想到2013年Tomas Mikolov的embedding开山之作word2vec，一开始主要是用于NLP领域，基于语料库中句子序列中词与词的共现关系，来学习词的向量表征，后来大家发现不仅是NLP，在其他领域只要我们能用item构造出合理的序列，同样可以基于item之间的共现关系来学习item的向量表征，而graph embedding的大部分工作，其实就是如何构造合理的序列。

[Read more...]

Faiss

Written by razrlele on May 20, 2019

Faiss是什么 Faiss是FAIR出品的一个用于向量k-NN搜索的计算库，其作用主要在保证高准确度的前提下大幅提升搜索速度，根据我们的实际测试，基于1600w 512维向量建库，然后在R100@1000 （即召回top 1000个，然后统计包含有多少个实际距离最近的top 100）= 87%的前提下单机15线程可以达到1000的qps，这个性能应该是可以满足大部分的推荐系统召回模块性能需求了。

[Read more...]

GBDT

Written by razrlele on November 1, 2018

梯度提升决策树(Gradient Boosting Decision Tree, GBDT)是一种基于提升决策树(Boosting Tree)的模型以分类回归决策树（Classification and Regression Tree, CART)作为基本分类器的模型。

[Read more...]

Word2Vec

Written by razrlele on October 28, 2018

Word2Vec算法是NLP领域一个里程碑式的工作，它可以通过训练把文本内容映射到一个K维的向量，这样就很方便继续在其他一些算法领域里面使用，比如推荐系统或者广告点击率预估等等。它是在2013年由当时还在Google工作的Tomas Mikolov发表，主要两篇论文是《Distributed Representations of Words and Phrases and their Compositionality》和《Efﬁcient Estimation of Word Representations in Vector Space》.

[Read more...]

Logistic Regression

Written by razrlele on October 6, 2018

逻辑斯谛回归因为其易于实现，可解释性强，已经成为了工业界应用最广泛的机器学习算法。这篇文章主要讨论的是二项逻辑斯谛回归 (binominal logistic regression)，以下简称LR。

[Read more...]

使用scikit-learn进行KMeans文本聚类

Written by razrlele on April 28, 2016

K-Means 算法简介中文名字叫做K-均值算法，算法的目的是将n个向量分别归属到K个中心点里面去。算法首先会随机选择K个中心向量，然后通过迭代计算以及重新选择K个中心向量，使得n个向量各自被分配到距离最近的K中心点，并且所有向量距离各自中心点的和最小。

[Read more...]

哈喽哈咯

machine learning

理解node2vec

Faiss

GBDT

Word2Vec

Logistic Regression

使用scikit-learn进行KMeans文本聚类