study

一道有意思的面试题

Written by  on January 21, 2023

曾经面试的时候遇到过一道数学题,跟之前碰到过的题目都不一样,非常有意思,题目如下: 一个字典包含26个字符(),从里面随机有放回地选取个字符构成的字符串,重复上述操作构成一个字符串。请问平均需要多少次比较操作,才能判断和是否相等。

[Read more...]

随机的艺术

Written by  on September 15, 2020

当今机器学习整套理论都是建立在概率论的基础上,但凡涉及到概率的地方就有随机采样,这篇文章就来介绍一下日常写程序的时候用到的随机采样实现。

[Read more...]

理解node2vec

Written by  on March 16, 2020

最近在看一些graph embedding 相关,先从node2vec入手的,在这里大概记录一下一些理解和实践。 Theory 看到embedding,第一眼就容易想到2013年Tomas Mikolov的embedding开山之作word2vec,一开始主要是用于NLP领域,基于语料库中句子序列中词与词的共现关系,来学习词的向量表征,后来大家发现不仅是NLP,在其他领域只要我们能用item构造出合理的序列,同样可以基于item之间的共现关系来学习item的向量表征,而graph embedding的大部分工作,其实就是如何构造合理的序列。

[Read more...]

Faiss

Written by  on May 20, 2019

Faiss是什么 Faiss是FAIR出品的一个用于向量k-NN搜索的计算库,其作用主要在保证高准确度的前提下大幅提升搜索速度,根据我们的实际测试,基于1600w 512维向量建库,然后在R100@1000 (即召回top 1000个,然后统计包含有多少个实际距离最近的top 100)= 87%的前提下单机15线程可以达到1000的qps,这个性能应该是可以满足大部分的推荐系统召回模块性能需求了。

[Read more...]

Codeforces #1113C

Written by  on February 22, 2019

1113C C. Sasha and a Bit of Relax 题意 给一个数组,然后求满足 的[l, r]子序列有多少个,其中表示异或计算。 思路 关键点在于如果满足条件的[l,r]存在,那么

[Read more...]

GBDT

Written by  on November 1, 2018

梯度提升决策树(Gradient Boosting Decision Tree, GBDT)是一种基于提升决策树(Boosting Tree)的模型以分类回归决策树(Classification and Regression Tree, CART)作为基本分类器的模型。

[Read more...]

Word2Vec

Written by  on October 28, 2018

Word2Vec算法是NLP领域一个里程碑式的工作,它可以通过训练把文本内容映射到一个K维的向量,这样就很方便继续在其他一些算法领域里面使用,比如推荐系统或者广告点击率预估等等。它是在2013年由当时还在Google工作的Tomas Mikolov发表,主要两篇论文是《Distributed Representations of Words and Phrases and their Compositionality》和《Efficient Estimation of Word Representations in Vector Space》.

[Read more...]

Logistic Regression

Written by  on October 6, 2018

逻辑斯谛回归因为其易于实现,可解释性强,已经成为了工业界应用最广泛的机器学习算法。这篇文章主要讨论的是二项逻辑斯谛回归 (binominal logistic regression),以下简称LR。

[Read more...]

素描心得

Written by  on August 18, 2018

去年国庆的时候的在798里面的一个画室里面报了一个素描班,上个星期终于把两期课程学完了,总共画了二十多节课,从一开始的不知所措,到最后多少可以的画的有模有样,也算是没有白上,今天想着还是总结一下心得比较好,便于后面继续自学进步。

[Read more...]

POJ3020

Written by  on August 14, 2018

POJ3020 Antenna Placement Time Limit: 1000MS Memory Limit: 65536K Total Submissions: 10821 Accepted: 5324 Description The Global Aerial Research Centre has been allotted the task of building the fifth generation of mobile phone nets in Sweden. The most striking reason why they got the job, is their discovery of a new, highly noise resistant, antenna. It is called 4DAir, and comes in four types. Each type can only transmit and receive signals in a direction aligned with a (slightly skewed) latitudinal and longitudinal grid, because of the interacting electromagnetic field of the earth. The four types correspond to antennas operating in the directions north, west, south, and east, respectively. Below is an example picture of places of interest, depicted by twelve small rings, and nine 4DAir antennas depicted by ellipses covering them.

[Read more...]