Global Vectors-使用小试

Socher 2014 EMNLP 中给出一个新的词向量方法:GloVec 官方下载地址为:http://nlp.stanford.edu/projects/glove/ 按照说明进行编译make,不过编译时出现错误,从他人经验中看,应该是GCC版本的问题。 $gcc -v gcc version 4.3.4 这里有建议为4.7.3 版本,http://blog.csdn.net/adooadoo/article/details/38505497 那么更新一下版本吧,先查看一下本地服务器的Linux版本: $lsb_release -a Distributor ID: SUSE LINUX Description: SUSE Linux Enterprise Server 11 (x86_64) Release: 11 Codename: n/a 这里有提供多种版本的GCC 4 SUSE http://ftp.tsukuba.wide.ad.jp/software/gcc/releases/,不过基于二进制文件进行安装的步骤很繁琐,例如是这样子的:http://blog.csdn.net/cloudskyfhx/article/details/17660607 另一种方式是:suse 的安装包里面有gcc,使用命令yast2,打开图形界面,找到软件管理,查找gcc,点击安装,系统会帮你装好的。 你下载二进制的包,有很多依赖包要装,很麻烦。。。。反正就是各种麻烦,组里的好多服务器申请权限又需要时间,想想就麻烦,还是用自家的虚拟机Ubuntu虚拟机吧。 自家Ubuntu的GCC版本是gcc version … 继续阅读

Word2vec给的二进制bin文件如何转成文本

用word2vec工具跑词向量时有参数可选,保存为文本格式或二进制格式。而Mikilov公开的在Google News 上跑的词向量为了节省存储空间,保存为二进制了,解压前占1.5G,解压后占3.4G左右(注:超过了2G,则程序一定要在64位机子上调用GCC进行编译)。为了便于在其他地方使用,我们将其转为文本格式会很方便一些。转二进制为文本格式,需要知道二进制存储格式及内容。还好,Thomas Mensink 帮我们做了此工作:https://groups.google.com/forum/#!topic/word2vec-toolkit/5Qh-x2O1lV4,感谢 Glenn Murray 的释疑。 //  Copyright 2013 Google Inc. All Rights Reserved.    //    //  Licensed under the Apache License, Version 2.0 (the ”License”);    //  you may not use this file except in compliance with the License.    //  You may obtain a copy of the License at    //    //      http://www.apache.org/licenses/LICENSE-2.0    //    //  Unless required by applicable law or agreed to in writing, software    //  distributed under the License is distributed on an ”AS IS” BASIS,    //  WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.    //  See the License for the specific language governing permissions and    //  limitations under the License.       #include <stdio.h>    #include <string.h>    #include <math.h>    #include <malloc.h> … 继续阅读