razrlele

随机的艺术

Written by  on September 15, 2020

当今机器学习整套理论都是建立在概率论的基础上,但凡涉及到概率的地方就有随机采样,这篇文章就来介绍一下日常写程序的时候用到的随机采样实现。

[Read more...]

理解node2vec

Written by  on March 16, 2020

最近在看一些graph embedding 相关,先从node2vec入手的,在这里大概记录一下一些理解和实践。 Theory 看到embedding,第一眼就容易想到2013年Tomas Mikolov的embedding开山之作word2vec,一开始主要是用于NLP领域,基于语料库中句子序列中词与词的共现关系,来学习词的向量表征,后来大家发现不仅是NLP,在其他领域只要我们能用item构造出合理的序列,同样可以基于item之间的共现关系来学习item的向量表征,而graph embedding的大部分工作,其实就是如何构造合理的序列。

[Read more...]

久违的滚一滚

Written by  on March 1, 2020

昨天突然从箱底翻出来一年多未动的小黑,进了许久未滚的archlinux,发现一切运行正常,虽然archlinux的容易滚挂是出了名了,这么一年下来自己对archlinux的官方通报邮件也一概是已读略过,但是实在按耐不住内心的躁动,就是想给系统做个升级,果然一滚就滚了一天。

[Read more...]

痛痛痛

Written by  on January 1, 2020

上周吃面条的时候想代码,边吃着想着就把舌头给狠咬了一口,霎那间是痛不欲生的,出于多年以来养成的不浪费粮食习惯,忍着伤口的疼痛还是接着吃完了那碗辣辣的油泼臊子面,第二天亦是出于多年以来养成的有朋自远方来不亦乐乎的习惯,陪着香港的同学吃了两锅羊蝎子还喝了点小酒,杯觥交错之间,全然忘了舌头被自己咬出的两个口子,就这样自然而然给接下来几天人生的跌宕起伏埋下伏笔。

[Read more...]

20191201

Written by  on December 1, 2019

有的时候再多的想象也是抵不过亲眼的见证,我对昨晚的攀岩比赛就是这么感觉的。 看见比我小十几岁的孩子拥有那么高超的攀岩技术,可以轻松克服近半米的身高劣势(当然也可以说我靠近半米的身高优势才能在比赛中苟延残喘),虽然之前在网上见识过大概了,但亲眼看见还是深深叹服一线城市小孩的教育素养,抛开他们拥有的场地、父母的经济时间资源支持等等,最让我印象深刻的是他们在比赛中表现出来的那种聪明而又顽强的拼搏精神,我相信这也是最宝贵的优势,毕竟在我的儿时,这种气场就已经是神级的存在了。也有可能只是我自作多情的管中窥豹,不过我真的对「把孩子放在一线城市成长」产生了些许阴影,我没有自信拥有足够的资源让我的孩子在这种激烈的环境中获取足够的快乐。

[Read more...]

Faiss

Written by  on May 20, 2019

Faiss是什么 Faiss是FAIR出品的一个用于向量k-NN搜索的计算库,其作用主要在保证高准确度的前提下大幅提升搜索速度,根据我们的实际测试,基于1600w 512维向量建库,然后在R100@1000 (即召回top 1000个,然后统计包含有多少个实际距离最近的top 100)= 87%的前提下单机15线程可以达到1000的qps,这个性能应该是可以满足大部分的推荐系统召回模块性能需求了。

[Read more...]

Codeforces #1113C

Written by  on February 22, 2019

1113C C. Sasha and a Bit of Relax 题意 给一个数组,然后求满足 的[l, r]子序列有多少个,其中表示异或计算。 思路 关键点在于如果满足条件的[l,r]存在,那么

[Read more...]

2018

Written by  on February 3, 2019

不知不觉有两个月没有写博客了,一年的尾巴就这样在仓促中给过去了,有点内疚。马上来北京就是三年了,每一年的心态都很不一样,我每年都会觉得,这一年是我人生中最精彩的一年。参加工作过后,我仿佛才开始真正地体验生活,生活就是不断地选择和经历,无论什么事情都是自己来决定、执行、收获,日子更精彩了,但其实也更复杂了,好还是坏也不会去计较了,因为已经明白了人生只能向前。

[Read more...]

GBDT

Written by  on November 1, 2018

梯度提升决策树(Gradient Boosting Decision Tree, GBDT)是一种基于提升决策树(Boosting Tree)的模型以分类回归决策树(Classification and Regression Tree, CART)作为基本分类器的模型。

[Read more...]

Word2Vec

Written by  on October 28, 2018

Word2Vec算法是NLP领域一个里程碑式的工作,它可以通过训练把文本内容映射到一个K维的向量,这样就很方便继续在其他一些算法领域里面使用,比如推荐系统或者广告点击率预估等等。它是在2013年由当时还在Google工作的Tomas Mikolov发表,主要两篇论文是《Distributed Representations of Words and Phrases and their Compositionality》和《Efficient Estimation of Word Representations in Vector Space》.

[Read more...]