Skip to content

中山大学自然语言处理项目:中文分词(序列标注/命名实体识别)。Keras实现,BiLSTM+CRF框架。

Notifications You must be signed in to change notification settings

SleepingMonster/Keras_BiLSTM-CRF_Chinese_Sequence_Annotation

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

6 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Keras_BiLSTM-CRF_Chinese_Sequence_Annotation

中山大学 自然语言处理 期中项目:中文分词(序列标注/命名实体识别)。

Keras实现,BiLSTM+CRF框架。

Readme

实验环境

  • keras 2.3.1版本和tensorflow 2.2版本(或者其他相匹配的kerastensorflow版本)

  • keras_contrib库、gensim库、pickle库、tqdm

实验工具

jupyter notebook

文件组织

  • 词向量:sgns.context.word-character.char1-1 文件
  • 代码code文件夹:
    • main.ipynb(jupyter notebook格式)和main.py,建议执行main.ipynb
    • 逐块执行即可得到训练EPOCH次数之后的测试集的预测结果,并会输出F1值。
      • EPOCH的取值可在第二块的超参量部分进行调整。
    • 结果:训练集迭代运行5次之后的结果保存为msr_test_predict.txtmsr_test_predict.utf8两种格式的文件,可对比其与msr_test_gold的结果,得到对应的F1值为0.9302。
    • 注意:由于一开始模型的其他参数的初始化的随机性,不同时间训练相同的EPOCH次数可能得到不同的F1值,但整体上不会有较大差异,大概在1个百分点之内。)
  • 数据集data文件夹:
    • SIGHAN Microsoft Research数据集的数据。
    • 包含msr_train , msr_test , msr_test_predict, msr_test_gold文件。
      • 分别都有两种格式:.txt.utf8,前者是方便阅读创建的,后者才是真正程序使用的。
      • msr_train是分好的训练集;
      • msr_test是未分好词的测试集;
      • msr_test_gold是标准分好的测试集;
      • msr_test_predict是此程序训练出的模型在测试集上的分词结果。
  • 实验报告:
    • report.pdf中文分词实验报告.md
  • 项目要求:期中作业.pdf

About

中山大学自然语言处理项目:中文分词(序列标注/命名实体识别)。Keras实现,BiLSTM+CRF框架。

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published