一次大坑

Written by    02:43 October 12, 2015 

之前鬼使神猜地选了一门新闻学院的创新科研项目,主要是研究普通话语料库的,最后果然是沦落到写网页的地步,这里稍作记录:

因为语料库的数据库是基于小组成员之前所听写的普通话测试语料,文本编码格式不一,直接导入MariaDB必然会乱码,所以首先把所有的文本转换成UTF-8编码:

然后创建数据库:

创建表:

接着就是处理txt文件了,txt文件中是由一行行的文本组成,需要把每个txt文件改成sql语句的格式方便直接source导入数据库。这种逼格满满的事情自然而然是应该用sed awk之流或者Python,PHP什么的来写,然而这些脚本语言我实在是不会。。。所以我最后用了C++。。。再low也得认了。。。囧rz:

结合shell script:

在source进数据库之前要把 character_set_filesystem 设置成UTF-8:

来自Stackoverflow

最后就是搭页面了。。。

目测最快的解决方案就是PHP了。。。

先从这里找到了一些源码,然后根据自己需要删改了一下,期间先是踩了Arch装Nginx的坑(目测是受之前安装的影响,不停地403,也不知道是哪个配置有了问题),后来干脆放弃直接在服务器上写,然后晚上edu网络各种爆炸,还好用的是mosh,断线切网再重连毫无压力。接着又踩了一个数据库的坑,大概就是忘记把query转成UTF-8,搞得query死都不能执行成功,各种debug最后算是发现了问题,虽然最终的检索依旧比较残废,但那应该是MySql中文检索不行的锅,以后有机会再优化吧。

首页模板:

index页:

数据库链接:

检索处理:

脚注:

 

算是第一次真正接触PHP,第一感受就是简单,上手确实比较快,也是第一次接触整个建站过程(虽然都是DEMO级别),感觉还是有点收获,要是能在大一大二的时候有这样一次经历我觉得是更好。

Category : experience

Tags :