Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[BUG] 英文分词问题以及文本来源发现。 #273

Open
zhaoyukoon opened this issue Jan 14, 2025 · 2 comments
Open

[BUG] 英文分词问题以及文本来源发现。 #273

zhaoyukoon opened this issue Jan 14, 2025 · 2 comments

Comments

@zhaoyukoon
Copy link

接着#263 发现,我将词表中英文词汇按照长度排序输出如下:

pharmacological epidemiological atherosclerosis electrophoresis Pharmaceuticals collaboratively bibliographical pharmaceuticals pathophysiology musculoskeletal psychologically corticosteroids bioavailability reproducibility extracurricular retrospectively physicochemical epistemological autobiographical 

发现都是一些专业词汇,我将这些词扔给claude问领域和来源。

一个英文语料库包括海量的文本数据,其中经过BPE算法分析发现词表中包含如下长的英文词汇: pharmacological epidemiological atherosclerosis electrophoresis Pharmaceuticals collaboratively bibliographical pharmaceuticals pathophysiology musculoskeletal psychologically corticosteroids bioavailability reproducibility extracurricular retrospectively physicochemical epistemological autobiographical 
请问英文文本数据可能包括哪些专业领域,文本数据可能是什么来源?请以中文生成详细的分析结果并以markdown格式返回。

Claude给出如下回答

根据这些长词汇的特点,我来分析可能的专业领域和文本来源:

专业领域分析

医学和生物医药领域

  • pharmacological(药理学的)、epidemiological(流行病学的)、atherosclerosis(动脉粥样硬化)等词汇明显来自医学领域,特别是涉及药物研究、疾病研究和临床医学
  • pathophysiology(病理生理学)和musculoskeletal(肌肉骨骼的)表明文本包含大量人体医学相关内容
  • corticosteroids(皮质类固醇)和bioavailability(生物利用度)反映了药物研究和制药学科的专业内容

学术研究领域

  • bibliographical(书目的)和reproducibility(可重复性)暗示这些文本包含大量学术研究论文
  • epistemological(认识论的)和physicochemical(物理化学的)表明涉及基础科学研究
  • collaboratively(协作地)显示有关于科研合作的内容

教育领域

  • extracurricular(课外的)明显与教育领域相关
  • retrospectively(回顾性地)和autobiographical(自传的)表明可能包含教育经历和个人发展相关内容

可能的文本来源

学术文献

  • 医学期刊论文
  • 生物医药研究报告
  • 临床试验报告
  • 科研项目申请书和结题报告

专业出版物

  • 医学教科书
  • 药物研究手册
  • 临床指南
  • 专业综述文章

教育资料

  • 大学课程材料
  • 研究生培养方案
  • 继续教育材料
  • 专业培训文档

行业文献

  • 制药公司的研究报告
  • 医疗机构的技术文档
  • 医药行业标准文件
  • 专业协会发布的指导文件

这些词汇的专业性和学术性非常强,说明这个语料库很可能是从专业学术数据库(如PubMed、ScienceDirect等)中收集的文献资料,以及各大医学院校、研究机构的教育教学资料。文本的主要受众应该是医学研究人员、医疗从业者、生物医药领域的学者以及相关专业的学生。

其实我很好奇,deepseek中的代码是怎么做BPE分词的?长词中没发现代码的词汇。 作为对比,我统计qwen2.5的词表,发现长的词汇都是代码,没有你们家这样的专业论文。 Qwen2.5我也提交了一个issue QwenLM/Qwen2.5#1161 。 当然也可以构造prompt问分词或者数字母,这里我就不构造了。

@zhaoyukoon
Copy link
Author

OpenAI的词表也做了分析,可以参考 issue

@zhaoyukoon
Copy link
Author

同样方法对中文的分析:https://claude.ai/chat/fda79c8d-e3d3-4dfe-99e6-22198435103b

一个用来训练大模型的中文语料库包括海量的文本数据,其中经过BPE算法分析发现词表中包含如下长词:
社会主义建设
国家税务总局
一起来看看吧
中华人民共和
会计师事务所
人力资源管理
在日常生活中
生态环境保护
中华人民共和国
的重要组成部分
社会主义现代化
党的二十大精神
非物质文化遗产
第二次世界大战
习近平总书记在
随着时间的推移
中国人民解放军
新时代文明实践
中国共产党成立
解决问题的能力
中国特色社会主义
社会主义市场经济
中华民族伟大复兴
习近平总书记关于
社会主义核心价值观
人力资源和社会保障
新时代中国特色社会主义
人民代表大会常务委员会
习近平新时代中国特色社会主义
习近平新时代中国特色社会主义思想
请问文本数据可能包括哪些专业领域,文本数据可能是什么来源?请以中文生成详细的分析结果并以返回markdown源文本。

让我基于这些高频长词来分析语料库的可能领域和来源:
专业领域分析
政治理论与时政
这是最主要的领域之一,体现在以下关键词:

"习近平新时代中国特色社会主义思想"、"中国特色社会主义"等反映了核心政治理论
"党的二十大精神"、"社会主义核心价值观"等体现了当代中国政治discourse
"中华民族伟大复兴"这类表述反映了重要的政治愿景和目标

行政管理
多个词语指向政府行政管理领域:

"国家税务总局"反映税收管理
"人力资源和社会保障"涉及劳动保障
"人民代表大会常务委员会"体现立法和监督职能

历史文化
文本包含历史和文化元素:

"第二次世界大战"表明包含历史内容
"非物质文化遗产"显示对传统文化的关注
"中国共产党成立"等反映党史内容

生态环境
"生态环境保护"这一关键词表明语料涵盖环保议题。
可能的文本来源

官方媒体报道

人民日报、新华社等官方媒体的新闻报道
政府工作报告、重要会议公报等官方文件

政策文件

各级政府部门发布的政策文件
法律法规文本
行政规章制度

学术出版物

政治理论研究文章
行政管理学术论文
历史研究文献

教育培训材料

党校培训教材
公务员考试资料
思想政治教育材料

综上所述,这个语料库很可能是一个以政治理论、时政新闻和行政管理为主,同时涵盖历史文化、环境保护等多个领域的综合性中文语料库。从词表特征来看,语料主要来自官方媒体、政策文件和正式出版物,体现了较强的规范性和权威性。这类语料库对训练模型理解和生成标准化的政务、新闻类中文文本具有重要价值。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant