banner
李大仁博客

李大仁博客

天地虽大,但有一念向善,心存良知,虽凡夫俗子,皆可为圣贤。

CaCl2

CaCl2#

はじめに#

CaCl2 とは?#

CaCl2(CaCl2: Chinese Lexicon V2, Simple Chinese:CA 中文语言词库)CaCl2 は、中国の企業がスポンサーとなっている中国の自然言語処理(NLP)研究プロジェクトから派生したものです。CaCl2 プロジェクトは、CaOCl(CaOCl: Open Chinese Lexical Analyzer)プロジェクトの重要な部分です。

CaCl2 はどのように機能しますか?#

CaCl2 は、インターネットから取得した大量のテキストデータを分析し、データを膨大なエントリに再フォーマットし、金融業界の分類基準に従ってエントリをカタログ化および分類します [参照.1]。

CaCl2 レキシコンは何ができますか?#

自然言語処理(NLP)タスクにおいて、CaCl2 レキシコンは言語をより短い要素的な部分に分解するのに役立ちます。(別名:トークン化)CaCl2 レキシコンは、単語分割、文書要約、文脈抽出、コンテンツ分類などの高レベルの NLP タスクに使用できます。

CaCl2 の目的は何ですか?#

CaCl2 プロジェクトは、インターネット用の一貫性があり、完全で正確な産業用レキシコンまたは辞書コレクションを構築することを目指しています。私たちは、データの整合性を高め、中国の NLP 作業のための確固たる基盤を提供するために最善を尽くしています。ユーザーは、ビジネスや研究により多くの注意を向けることができるでしょう。

統計#

エントリ#

日付全体候補リリースプレビュー
2021-02-0121,000,0003,000,0002,553,806280,000

辞書#

日付クラス業界リリースプレビュークローズ
2021-02-01クラス - 1282260
2021-02-01クラス - 21045990

** 詳細な統計データについては、Statisticsを参照してください。

始め方#

1. cacl2 をクローンするか、GitHub から辞書をダウンロードする#

cacl2 をクローンする

git clone https://github.com/limccn/cacl2.git

または辞書をダウンロードする

wget https://github.com/limccn/cacl2/blob/master/archive/v0.2/\[辞書コードをここに入力 \].zip

2. 辞書をプロジェクトおよび研究環境にインポートする#

CaCl2 辞書は、よくフォーマットされており、多くのレキシコンツールで使用できます。

import jieba
dict_name = '480000.txt'
jieba.load_userdict(os.path.join(BASE_PATH_TO_DICT), dict_name))

<properties>
<entry key="ext_dict">480000.txt;480100.txt;</entry>
</properties>

3. 実行、テスト、CaCl2 を楽しむ!#

オープンソーススケジュール#

リリース#

コード名前エントリ日付バージョンフォーマットダウンロード
480000Banking-Common406122021-02v0.2txt480000.zip
480100Banking-Bank2244332021-02v0.2txt480100.zip
490000Financials-Common3412352021-02v0.2txt490000.zip
490100Financials-Securities3111212021-02v0.2txt490100.zip
490200Financials-Insurance310202021-02v0.2txt480200.zip

スケジュールされたリリース#

コード名前エントリスケジュールバージョンフォーマットダウンロード
490300Financials-Others10,0002021 年第 2 四半期v0.2txt490300.zip

技術プレビュー#

辞書が最終的に公開 / リリースされる前に、各クラス - 1 業界の 10,000 エントリを含む技術プレビュー辞書を公開しました。すべてのエントリに関する詳細情報が必要な場合は、Statisticsを参照してください。

** 元の生データについては、/dictsを参照してください。 ** 詳細なクラス - 1 および 2 業界の辞書については、Statisticsを参照してください。

比較とテスト#

1. 比較#

(@CaoWJ)辞書#

(@CaoWJ)#

(@CaoWJ)#

2. テストとスコア#

2.1 産業テストデータセット#

単語分割テストは、異なる産業のテキストデータに使用されます。

2.1.1 金融業界(銀行業界のみ)辞書を使用した単語分割#

2.1.2 金融業界(銀行業界を除く)辞書を使用した単語分割#

2.2 標準テストデータセット#

単語分割テストは、標準中国語テストデータセットを使用します。

履歴と変更ログ#

1. 定期リリース#

バージョン日付変更ログ
0.22021最新
0.1.12020すべてのエントリを 28 のクラス - 1 業界と 240 のクラス - 2 業界にカタログ化および分類
0.12019最初のリリースバージョン、2000 万以上のエントリを含む、データは主に百度百科、ウィキペディアから取得

2. 毎月 / 四半期リリース#

バージョンサイクル日付変更ログ
v0.2.21.01毎月2021-02-01リリース:銀行および金融辞書
v0.2.20.12毎月2021-01-01v0.2 初期バージョン

FAQ#

開示#

CaCl2 およびそのデータは、インターネット上で公開された情報から来ています。CaCl2 はデータの完全性および正確性を保証しません。CaCl2 は、投資の提案を構成しません。寄稿者として、私たちは言及された株式に対してポジションを持っていません。私たちは、この記事で言及された企業とのビジネス関係を持っていません。

参考文献#

1.SWSI の業界分類基準.2014

読み込み中...
ページは、創作者によって署名され、ブロックチェーンに安全に保存されています。