CaCl2#
介绍#
什么是 CaCl2?#
CaCl2(CaCl2: Chinese Lexicon V2, Simple Chinese:CA 中文语言词库)CaCl2 源自一个由中国公司赞助的中文自然语言处理(NLP)研究项目。CaCl2 项目是 CaOCl(CaOCl: Open Chinese Lexical Analyzer)项目的重要组成部分。
CaCl2 如何工作?#
CaCl2 分析从互联网获取的大量文本数据,并将数据重新格式化为大量条目,按照金融行业分类标准对条目进行目录和分类 [见参考文献 1]。
CaCl2 词库能做什么?#
在自然语言处理(NLP)任务中,CaCl2 词库帮助将语言分解为更短的基本部分(即分词)。CaCl2 词库可用于更高级的 NLP 任务,如词语分割、文档摘要、上下文提取、内容分类等。
CaCl2 的目标是什么?#
CaCl2 项目旨在为互联网构建一个一致、完整和准确的行业词库或字典集合。我们尽最大努力实现更高的数据完整性,为中文 NLP 工作提供坚实基础,用户可以将更多精力投入到他们的业务和研究中。
统计#
条目#
日期 | 所有 | 候选 | 发布 | 预览 |
---|---|---|---|---|
2021-02-01 | 21,000,000 | 3,000,000 | 2,553,806 | 280,000 |
字典#
日期 | 类别 | 行业 | 发布 | 预览 | 关闭 |
---|---|---|---|---|---|
2021-02-01 | 类别 - 1 | 28 | 2 | 26 | 0 |
2021-02-01 | 类别 - 2 | 104 | 5 | 99 | 0 |
** 详细统计数据请参考 Statistics
开始使用#
1. 从 GitHub 克隆 cacl2 或下载字典#
克隆 cacl2
git clone https://github.com/limccn/cacl2.git
或下载字典
wget https://github.com/limccn/cacl2/blob/master/archive/v0.2/\[在此处放置字典代码 \].zip
2. 将字典导入到您的项目和研究环境中#
CaCl2 字典格式良好,可以在许多词典工具中使用。
import jieba
dict_name = '480000.txt'
jieba.load_userdict(os.path.join(BASE_PATH_TO_DICT), dict_name))
<properties>
<entry key="ext_dict">480000.txt;480100.txt;</entry>
</properties>
3. 运行、测试并享受 CaCl2!#
开源计划#
发布#
代码 | 名称 | 条目 | 日期 | 版本 | 格式 | 下载 |
---|---|---|---|---|---|---|
480000 | Banking-Common | 40612 | 2021-02 | v0.2 | txt | 480000.zip |
480100 | Banking-Bank | 224433 | 2021-02 | v0.2 | txt | 480100.zip |
490000 | Financials-Common | 341235 | 2021-02 | v0.2 | txt | 490000.zip |
490100 | Financials-Securities | 311121 | 2021-02 | v0.2 | txt | 490100.zip |
490200 | Financials-Insurance | 31020 | 2021-02 | v0.2 | txt | 480200.zip |
计划发布#
代码 | 名称 | 条目 | 计划 | 版本 | 格式 | 下载 |
---|---|---|---|---|---|---|
490300 | Financials-Others | 10,000 | 2021 年第 2 季度 | v0.2 | txt | 490300.zip |
技术预览#
在字典最终发布之前,我们发布了一个技术预览字典,包含每个类别 - 1 行业的 10,000 条目。如果您需要有关所有条目的更多信息,请参考 Statistics
** 原始原始数据,请参考 /dicts ** 详细的类别 - 1 和 2 行业字典,请参考 Statistics
比较和测试#
1. 比较#
(@CaoWJ)字典#
(@CaoWJ)#
(@CaoWJ)#
2. 测试和评分#
2.1 行业测试数据集#
词语分割测试用于不同的行业文本数据
2.1.1 使用金融行业(仅银行业)字典的词语分割#
2.1.2 使用金融行业(除银行业外)字典的词语分割#
2.2 标准测试数据集#
词语分割测试使用标准中文测试数据集
历史和变更日志#
1. 定期发布#
版本 | 日期 | 变更日志 |
---|---|---|
0.2 | 2021 | 最新 |
0.1.1 | 2020 | 将所有条目分类并归类为 28 个类别 - 1 行业和 240 个类别 - 2 行业 |
0.1 | 2019 | 首个发布版本,包含超过 2000 万条目,数据主要来自百度百科,维基百科 |
2. 每月 / 每季度发布#
版本 | 周期 | 日期 | 变更日志 |
---|---|---|---|
v0.2.21.01 | 每月 | 2021-02-01 | 发布:银行和金融字典 |
v0.2.20.12 | 每月 | 2021-01-01 | v0.2 初始版本 |
常见问题#
披露#
CaCl2 及其数据来自互联网上发布的信息。CaCl2 不保证数据的完整性和正确性。CaCl2 不构成任何投资建议。作为贡献者,我们在提到的任何股票中没有持仓。我们与文中提到的任何公司的股票没有业务关系。