Word2vec给的二进制bin文件如何转成文本

用word2vec工具跑词向量时有参数可选,保存为文本格式或二进制格式。而Mikilov公开的在Google News 上跑的词向量为了节省存储空间,保存为二进制了,解压前占1.5G,解压后占3.4G左右(注:超过了2G,则程序一定要在64位机子上调用GCC进行编译)。为了便于在其他地方使用,我们将其转为文本格式会很方便一些。转二进制为文本格式,需要知道二进制存储格式及内容。还好,Thomas Mensink 帮我们做了此工作:https://groups.google.com/forum/#!topic/word2vec-toolkit/5Qh-x2O1lV4,感谢 Glenn Murray 的释疑。 //  Copyright 2013 Google Inc. All Rights Reserved.    //    //  Licensed under the Apache License, Version 2.0 (the ”License”);    //  you may not use this file except in compliance with the License.    //  You may obtain a copy of the License at    //    //      http://www.apache.org/licenses/LICENSE-2.0    //    //  Unless required by applicable law or agreed to in writing, software    //  distributed under the License is distributed on an ”AS IS” BASIS,    //  WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.    //  See the License for the specific language governing permissions and    //  limitations under the License.       #include <stdio.h>    #include <string.h>    #include <math.h>    #include <malloc.h> … 继续阅读