We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
接着#263 发现,我将词表中英文词汇按照长度排序输出如下:
pharmacological epidemiological atherosclerosis electrophoresis Pharmaceuticals collaboratively bibliographical pharmaceuticals pathophysiology musculoskeletal psychologically corticosteroids bioavailability reproducibility extracurricular retrospectively physicochemical epistemological autobiographical
发现都是一些专业词汇,我将这些词扔给claude问领域和来源。
一个英文语料库包括海量的文本数据,其中经过BPE算法分析发现词表中包含如下长的英文词汇: pharmacological epidemiological atherosclerosis electrophoresis Pharmaceuticals collaboratively bibliographical pharmaceuticals pathophysiology musculoskeletal psychologically corticosteroids bioavailability reproducibility extracurricular retrospectively physicochemical epistemological autobiographical 请问英文文本数据可能包括哪些专业领域,文本数据可能是什么来源?请以中文生成详细的分析结果并以markdown格式返回。
Claude给出如下回答:
根据这些长词汇的特点,我来分析可能的专业领域和文本来源:
这些词汇的专业性和学术性非常强,说明这个语料库很可能是从专业学术数据库(如PubMed、ScienceDirect等)中收集的文献资料,以及各大医学院校、研究机构的教育教学资料。文本的主要受众应该是医学研究人员、医疗从业者、生物医药领域的学者以及相关专业的学生。
其实我很好奇,deepseek中的代码是怎么做BPE分词的?长词中没发现代码的词汇。 作为对比,我统计qwen2.5的词表,发现长的词汇都是代码,没有你们家这样的专业论文。 Qwen2.5我也提交了一个issue QwenLM/Qwen2.5#1161 。 当然也可以构造prompt问分词或者数字母,这里我就不构造了。
The text was updated successfully, but these errors were encountered:
OpenAI的词表也做了分析,可以参考 issue
Sorry, something went wrong.
同样方法对中文的分析:https://claude.ai/chat/fda79c8d-e3d3-4dfe-99e6-22198435103b
一个用来训练大模型的中文语料库包括海量的文本数据,其中经过BPE算法分析发现词表中包含如下长词: 社会主义建设 国家税务总局 一起来看看吧 中华人民共和 会计师事务所 人力资源管理 在日常生活中 生态环境保护 中华人民共和国 的重要组成部分 社会主义现代化 党的二十大精神 非物质文化遗产 第二次世界大战 习近平总书记在 随着时间的推移 中国人民解放军 新时代文明实践 中国共产党成立 解决问题的能力 中国特色社会主义 社会主义市场经济 中华民族伟大复兴 习近平总书记关于 社会主义核心价值观 人力资源和社会保障 新时代中国特色社会主义 人民代表大会常务委员会 习近平新时代中国特色社会主义 习近平新时代中国特色社会主义思想 请问文本数据可能包括哪些专业领域,文本数据可能是什么来源?请以中文生成详细的分析结果并以返回markdown源文本。
让我基于这些高频长词来分析语料库的可能领域和来源: 专业领域分析 政治理论与时政 这是最主要的领域之一,体现在以下关键词:
"习近平新时代中国特色社会主义思想"、"中国特色社会主义"等反映了核心政治理论 "党的二十大精神"、"社会主义核心价值观"等体现了当代中国政治discourse "中华民族伟大复兴"这类表述反映了重要的政治愿景和目标
行政管理 多个词语指向政府行政管理领域:
"国家税务总局"反映税收管理 "人力资源和社会保障"涉及劳动保障 "人民代表大会常务委员会"体现立法和监督职能
历史文化 文本包含历史和文化元素:
"第二次世界大战"表明包含历史内容 "非物质文化遗产"显示对传统文化的关注 "中国共产党成立"等反映党史内容
生态环境 "生态环境保护"这一关键词表明语料涵盖环保议题。 可能的文本来源
官方媒体报道
人民日报、新华社等官方媒体的新闻报道 政府工作报告、重要会议公报等官方文件
政策文件
各级政府部门发布的政策文件 法律法规文本 行政规章制度
学术出版物
政治理论研究文章 行政管理学术论文 历史研究文献
教育培训材料
党校培训教材 公务员考试资料 思想政治教育材料
综上所述,这个语料库很可能是一个以政治理论、时政新闻和行政管理为主,同时涵盖历史文化、环境保护等多个领域的综合性中文语料库。从词表特征来看,语料主要来自官方媒体、政策文件和正式出版物,体现了较强的规范性和权威性。这类语料库对训练模型理解和生成标准化的政务、新闻类中文文本具有重要价值。
No branches or pull requests
接着#263 发现,我将词表中英文词汇按照长度排序输出如下:
发现都是一些专业词汇,我将这些词扔给claude问领域和来源。
Claude给出如下回答:
根据这些长词汇的特点,我来分析可能的专业领域和文本来源:
专业领域分析
医学和生物医药领域
学术研究领域
教育领域
可能的文本来源
学术文献
专业出版物
教育资料
行业文献
这些词汇的专业性和学术性非常强,说明这个语料库很可能是从专业学术数据库(如PubMed、ScienceDirect等)中收集的文献资料,以及各大医学院校、研究机构的教育教学资料。文本的主要受众应该是医学研究人员、医疗从业者、生物医药领域的学者以及相关专业的学生。
其实我很好奇,deepseek中的代码是怎么做BPE分词的?长词中没发现代码的词汇。 作为对比,我统计qwen2.5的词表,发现长的词汇都是代码,没有你们家这样的专业论文。 Qwen2.5我也提交了一个issue QwenLM/Qwen2.5#1161 。 当然也可以构造prompt问分词或者数字母,这里我就不构造了。
The text was updated successfully, but these errors were encountered: