python

Python中的多进程队列

Written by  on September 21, 2016

在Python中进程间共享数据比较常用的方法就是多进程队列multiprocessesing.queues.Queue,官方文档在这里是这么说的: The Queue class is a near clone of Queue.Queue; Queues are thread and process safe.

[Read more...]

使用scikit-learn进行KMeans文本聚类

Written by  on April 28, 2016

K-Means 算法简介 中文名字叫做K-均值算法,算法的目的是将n个向量分别归属到K个中心点里面去。算法首先会随机选择K个中心向量,然后通过迭代计算以及重新选择K个中心向量,使得n个向量各自被分配到距离最近的K中心点,并且所有向量距离各自中心点的和最小。

[Read more...]

Pypy使用Pymongo

Written by  on April 8, 2016

据说  Pypy的速度比 CPython 速度要快的多,所以准备换成Pypy试一试,但之前在使用CPython的时候使用pip安装的第三方库(比如pymongo直接给Pypy用的话会报ImortError,这个使用似乎要通过Pypy重新安装一下pip,在Ubuntu下通过apt-get安装Pypy过后执行下列操作:

[Read more...]

MongoDB插入对象过后原对象被更改

Written by  on April 6, 2016

今天发现了MongoDB中一个很奇怪的设计(或者说是坑。。。) 我在向MongoDB中插入一个对象的时候,不光数据库中新建的Document会自动生成一个Object ID,这个Object ID还会自动插入到原对象里面去,如下所示:

[Read more...]

Python2.7处理中文utf8 json数据

Written by  on March 28, 2016

在Python 2.7里面字符编码似乎是一个很令人烦躁的问题,最近在处理抓取的数据时候碰到了一些问题,在这里记录一下:

[Read more...]

Sorting in Python

Written by  on February 28, 2016

Simple implementation of five common sorting  algorithm in Python. Bubble Sort Python 12345678910111213

[Read more...]