CaCl2#
はじめに#
CaCl2 とは?#
CaCl2(CaCl2: Chinese Lexicon V2, Simple Chinese:CA 中文语言词库)CaCl2 は、中国の企業がスポンサーとなっている中国の自然言語処理(NLP)研究プロジェクトから派生したものです。CaCl2 プロジェクトは、CaOCl(CaOCl: Open Chinese Lexical Analyzer)プロジェクトの重要な部分です。
CaCl2 はどのように機能しますか?#
CaCl2 は、インターネットから取得した大量のテキストデータを分析し、データを膨大なエントリに再フォーマットし、金融業界の分類基準に従ってエントリをカタログ化および分類します [参照.1]。
CaCl2 レキシコンは何ができますか?#
自然言語処理(NLP)タスクにおいて、CaCl2 レキシコンは言語をより短い要素的な部分に分解するのに役立ちます。(別名:トークン化)CaCl2 レキシコンは、単語分割、文書要約、文脈抽出、コンテンツ分類などの高レベルの NLP タスクに使用できます。
CaCl2 の目的は何ですか?#
CaCl2 プロジェクトは、インターネット用の一貫性があり、完全で正確な産業用レキシコンまたは辞書コレクションを構築することを目指しています。私たちは、データの整合性を高め、中国の NLP 作業のための確固たる基盤を提供するために最善を尽くしています。ユーザーは、ビジネスや研究により多くの注意を向けることができるでしょう。
統計#
エントリ#
日付 | 全体 | 候補 | リリース | プレビュー |
---|---|---|---|---|
2021-02-01 | 21,000,000 | 3,000,000 | 2,553,806 | 280,000 |
辞書#
日付 | クラス | 業界 | リリース | プレビュー | クローズ |
---|---|---|---|---|---|
2021-02-01 | クラス - 1 | 28 | 2 | 26 | 0 |
2021-02-01 | クラス - 2 | 104 | 5 | 99 | 0 |
** 詳細な統計データについては、Statisticsを参照してください。
始め方#
1. cacl2 をクローンするか、GitHub から辞書をダウンロードする#
cacl2 をクローンする
git clone https://github.com/limccn/cacl2.git
または辞書をダウンロードする
wget https://github.com/limccn/cacl2/blob/master/archive/v0.2/\[辞書コードをここに入力 \].zip
2. 辞書をプロジェクトおよび研究環境にインポートする#
CaCl2 辞書は、よくフォーマットされており、多くのレキシコンツールで使用できます。
import jieba
dict_name = '480000.txt'
jieba.load_userdict(os.path.join(BASE_PATH_TO_DICT), dict_name))
<properties>
<entry key="ext_dict">480000.txt;480100.txt;</entry>
</properties>
3. 実行、テスト、CaCl2 を楽しむ!#
オープンソーススケジュール#
リリース#
コード | 名前 | エントリ | 日付 | バージョン | フォーマット | ダウンロード |
---|---|---|---|---|---|---|
480000 | Banking-Common | 40612 | 2021-02 | v0.2 | txt | 480000.zip |
480100 | Banking-Bank | 224433 | 2021-02 | v0.2 | txt | 480100.zip |
490000 | Financials-Common | 341235 | 2021-02 | v0.2 | txt | 490000.zip |
490100 | Financials-Securities | 311121 | 2021-02 | v0.2 | txt | 490100.zip |
490200 | Financials-Insurance | 31020 | 2021-02 | v0.2 | txt | 480200.zip |
スケジュールされたリリース#
コード | 名前 | エントリ | スケジュール | バージョン | フォーマット | ダウンロード |
---|---|---|---|---|---|---|
490300 | Financials-Others | 10,000 | 2021 年第 2 四半期 | v0.2 | txt | 490300.zip |
技術プレビュー#
辞書が最終的に公開 / リリースされる前に、各クラス - 1 業界の 10,000 エントリを含む技術プレビュー辞書を公開しました。すべてのエントリに関する詳細情報が必要な場合は、Statisticsを参照してください。
** 元の生データについては、/dictsを参照してください。 ** 詳細なクラス - 1 および 2 業界の辞書については、Statisticsを参照してください。
比較とテスト#
1. 比較#
(@CaoWJ)辞書#
(@CaoWJ)#
(@CaoWJ)#
2. テストとスコア#
2.1 産業テストデータセット#
単語分割テストは、異なる産業のテキストデータに使用されます。
2.1.1 金融業界(銀行業界のみ)辞書を使用した単語分割#
2.1.2 金融業界(銀行業界を除く)辞書を使用した単語分割#
2.2 標準テストデータセット#
単語分割テストは、標準中国語テストデータセットを使用します。
履歴と変更ログ#
1. 定期リリース#
バージョン | 日付 | 変更ログ |
---|---|---|
0.2 | 2021 | 最新 |
0.1.1 | 2020 | すべてのエントリを 28 のクラス - 1 業界と 240 のクラス - 2 業界にカタログ化および分類 |
0.1 | 2019 | 最初のリリースバージョン、2000 万以上のエントリを含む、データは主に百度百科、ウィキペディアから取得 |
2. 毎月 / 四半期リリース#
バージョン | サイクル | 日付 | 変更ログ |
---|---|---|---|
v0.2.21.01 | 毎月 | 2021-02-01 | リリース:銀行および金融辞書 |
v0.2.20.12 | 毎月 | 2021-01-01 | v0.2 初期バージョン |
FAQ#
開示#
CaCl2 およびそのデータは、インターネット上で公開された情報から来ています。CaCl2 はデータの完全性および正確性を保証しません。CaCl2 は、投資の提案を構成しません。寄稿者として、私たちは言及された株式に対してポジションを持っていません。私たちは、この記事で言及された企業とのビジネス関係を持っていません。