Skip to content

Files

Latest commit

4511626 · Jan 10, 2020

History

History
27 lines (26 loc) · 1.35 KB

README.md

File metadata and controls

27 lines (26 loc) · 1.35 KB

词向量训练与使用教程

基于gensim包进行python词向量训练与探索及可视化

项目背景

  • 本项目是北京外国语大学语料库语言学团队在2019年6月进行的三次python词向量学习交流活动中使用的ipython notebook源代码材料。
  • 所有源代码材料也可在北外语料库语言学网站下载

数据下载

  • TECCL V1.0

中国学生万篇英语作文语料库V1.1 (Ten-thousand English Compositions of Chinese Learners,the TECCL Corpus)可从北外语料库语言学网站下载

  • bnc_lower.bin

基于英语国家语料库(British National Corpus, 简称BNC)训练的词向量模型。 使用Gensim默认参数训练数(即维度100,窗口大小为5,训练方法为连续词袋CBOW算法,迭代次数为5),全部小写,没有去除停用词。 百度云盘下载,提取码:ec8k

环境要求

  • python3
  • gensim
  • nltk
  • numpy

参考资料

引用方式

邓海龙. Python词向量训练与应用技术解析. 《语料库语言学》,2019(2): 88-109.

联系方式

邮件地址:dhljxgz@163.com