CaCl2#
一、CaCl2 概要#
CaCl2(CaCl2: Chinese Lexicon)日本語名称:CA 日本語言語辞書、国内の金融業界 NLP プロジェクトに由来し、既存のコーパスを分析して膨大なエントリーデータを取得し、金融業界の基準に従ってエントリーを分類・編纂します。自然言語処理 NLP の過程で、分かち書き、キーワード抽出、内容要約、実体認識などに使用できます。CaCl2 プロジェクトの目標は、インターネットに業界特化型の完全で正確な辞書を提供し、中国語の NLP の基礎的な作業を完了させ、ユーザーがビジネス研究により多くのエネルギーを注げるようにすることです。CaCl2 はオープンプロジェクト CaOCl(CA オープン中国語形態素解析ツールキット)の重要な構成要素です。
統計データ#
1. エントリー数#
時間 | 総エントリー数 | 候補エントリー | 公開済エントリー | プレビュー版エントリー |
---|---|---|---|---|
2021-02-01 | 約 21,000,000 | 約 3,000,000 | 2,553,806 | 280,000 |
2. 業界辞書数#
時間 | 業界 | 辞書数 | 公開済 | プレビュー版 | 未公開 |
---|---|---|---|---|---|
2021-02-01 | 一級業界 | 28 | 2 | 26 | 0 |
2021-02-01 | 二級業界 | 104 | 5 | 99 | 0 |
** 詳細な統計状況については、リンクを参照してください:CaCl2 オープン状況統計
二、クイックスタート#
1.Clone または必要に応じて CaCl2 辞書をダウンロード#
Clone
git clone https://github.com/limccn/cacl2.git
ダウンロード
wget https://github.com/limccn/cacl2/blob/master/archive/v0.2/\[辞書コード \].zip
2. 辞書のインポートと設定#
CaCl2 公開の辞書は、さまざまな分かち書きツールや環境で使用できます。
使用例#
import jieba
dict_name = '480000.txt'
jieba.load_userdict(os.path.join(BASE_PATH_TO_DICT), dict_name))
使用例#
<properties>
<entry key="ext_dict">480000.txt;480100.txt;</entry>
</properties>
3. テストして CaCl2 を使用開始、楽しんでください!#
三、辞書オープンソース進捗表#
1. オープンソース済み#
業界コード | 辞書名 | エントリー数 | 公開日 | 現在のバージョン | フォーマット | ダウンロードリンク |
---|---|---|---|---|---|---|
480000 | 銀行 - 一般 | 40612 | 2021-02 | v0.2 | txt | 480000.zip |
480100 | 銀行 - 銀行 | 224433 | 2021-02 | v0.2 | txt | 480100.zip |
490000 | 非銀行金融 - 一般 | 341235 | 2021-02 | v0.2 | txt | 490000.zip |
490100 | 非銀行金融 - 証券 | 311121 | 2021-02 | v0.2 | txt | 490100.zip |
490200 | 非銀行金融 - 保険 | 31020 | 2021-02 | v0.2 | txt | 480200.zip |
2. 計画中のオープンソース#
業界コード | 辞書名 | エントリー数 | 計画公開日 | 現在のバージョン | フォーマット | ダウンロードリンク |
---|---|---|---|---|---|---|
490300 | 非銀行金融 - 多元金融 | 10,000 | 2Q 2021 | v0.2 | txt | 490300.zip |
3. 技術プレビュー版#
公開される辞書の前に、28 の一級業界の各 1 万エントリーの技術プレビューを提供します。辞書に実際に含まれるエントリー数については、リンクを参照してください:CaCl2 オープン状況統計
業界コード | 辞書名 | 収録数 | フォーマット | ダウンロードリンク |
---|---|---|---|---|
110000 | 農林牧漁 - 一般 | 10,000 | txt | 110000.zip |
210000 | 採掘 - 一般 | 10,000 | txt | 210000.zip |
220000 | 化学工業 - 一般 | 10,000 | txt | 220000.zip |
230000 | 鉄鋼 - 一般 | 10,000 | txt | 230000.zip |
240000 | 非鉄金属 - 一般 | 10,000 | txt | 240000.zip |
270000 | 電子 - 一般 | 10,000 | txt | 270000.zip |
280000 | 自動車 - 一般 | 10,000 | txt | 280000.zip |
330000 | 家電 - 一般 | 10,000 | txt | 330000.zip |
340000 | 食品飲料 - 一般 | 10,000 | txt | 340000.zip |
350000 | 繊維衣料 - 一般 | 10,000 | txt | 350000.zip |
360000 | 軽工業製造 - 一般 | 10,000 | txt | 360000.zip |
370000 | 医薬生物 - 一般 | 10,000 | txt | 370000.zip |
410000 | 公共事業 - 一般 | 10,000 | txt | 410000.zip |
420000 | 交通運輸 - 一般 | 10,000 | txt | 420000.zip |
430000 | 不動産 - 一般 | 10,000 | txt | 430000.zip |
450000 | 商業貿易 - 一般 | 10,000 | txt | 450000.zip |
460000 | レジャーサービス - 一般 | 10,000 | txt | 460000.zip |
480000 | 銀行 - 一般 | 10,000 | txt | 480000.zip |
490000 | 非銀行金融 - 一般 | 10,000 | txt | 490000.zip |
510000 | 総合 - 一般 | 10,000 | txt | 510000.zip |
610000 | 建材 - 一般 | 10,000 | txt | 610000.zip |
620000 | 建築装飾 - 一般 | 10,000 | txt | 620000.zip |
630000 | 電気設備 - 一般 | 10,000 | txt | 630000.zip |
640000 | 機械設備 - 一般 | 10,000 | txt | 640000.zip |
650000 | 防衛軍需 - 一般 | 10,000 | txt | 650000.zip |
710000 | コンピュータ - 一般 | 10,000 | txt | 710000.zip |
720000 | メディア - 一般 | 10,000 | txt | 720000.zip |
730000 | 通信 - 一般 | 10,000 | txt | 730000.zip |
** 元のフォーマットのエントリーについては、参照してください:/dicts ** 詳細なオープン状況については、リンクを参照してください:CaCl2 オープン状況統計
四、使用効果#
1. ツールテスト比較#
1.1 CaCl2 標準辞書と Jieba 標準ライブラリの分かち書き結果比較(@CaoWJ)#
1.2 CaCl2 と金融業界辞書の比較【招金詞酷】による分かち書き(@CaoWJ)#
1.3 CaCl2 と金融業界辞書の比較【招金詞酷】による分かち書き要約(@CaoWJ)#
2. 指標と得点#
2.1 業界データセットテスト#
2.1.1 金融業界(銀行業界)、分かち書きテスト#
2.1.2 金融業界(金融業界、銀行を含まない)、分かち書きテスト#
2.2 標準データセットテスト#
五、歴史と変更ログ#
1. 定期リリースバージョン#
バージョン | 発表日 | 変更ログ |
---|---|---|
0.2 | 2021 | 発表中のバージョン |
0.1.1 | 2020 | 申万業界分類を使用して辞書を編纂・分類、28 の一級業界と 104 の二級業界 |
0.1 | 2019 | 最初のリリースバージョン、インターネットからの 2100 万の中国語エントリーを含む、主に百度百科、ウィキ中国百科などの出典 |
2. 自動リリースバージョン#
最新バージョン | リリース周期 | 発表日 | 変更ログ |
---|---|---|---|
v0.2.21.01 | monthly | 2021-02-01 | 金融業界(銀行と非銀行金融)業界辞書の発表 |
v0.2.20.12 | monthly | 2021-01-01 | バージョン 0.2 の初版、オープンソース第一版、28 の一級業界の各 1 万エントリーのプレビューを提供 |
** 歴史的自動リリースバージョンについては、リンクを参照してください: バージョン履歴
六、ライセンス#
1. オープンソースソフトウェアライセンス#
CaCl2 のソースコードはApache License 2.0の下でオープンソースです。
Copyright 2021 limc.cn All rights reserved.
Licensed under the Apache License, Version 2.0 (the "License");
you may not use this file except in compliance with the License.
You may obtain a copy of the License at
http://www.apache.org/licenses/LICENSE-2.0
Unless required by applicable law or agreed to in writing, software
distributed under the License is distributed on an "AS IS" BASIS,
WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
See the License for the specific language governing permissions and
limitations under the License.
2. 共同創作ライセンス#
CaCl2 オープン辞書、コーパス、モデルなどの資料は、Creative Commons BY-NC-SA 4.0の知識共有ライセンスに従います。
七、貢献と貢献者#
CaCl2 のすべての貢献者の努力に感謝し、CaCl2 プロジェクトに参加し貢献する意欲のあるすべての貢献者を歓迎します。
1. どのように貢献する?#
1.1 CaCl2 をフォークまたはスターする#
1.2 Github で CaCl2 コミュニティの議論に参加する#
2. 貢献者#
@CaoWJ
八、よくある質問#
九、その他の説明#
CaCl2 の一部の内容は、インターネット上の公開情報やデータ資料に由来し、CaCl2 はデータの完全性や正確性を保証せず、いかなる提案も構成しません。 本文で言及されている関連証券を保有しておらず、本文で言及されている関連会社とは一切関係ありません。