2020-05-25
- use debian patches in PKGBUILD.
- update mecab-user-dict-seed.

2020-05-20
- update mecab-user-dict-seed.

2020-03-18
- update build scripts.
  文字コード変換のメソッドを kconv から encode に変更した。
  修正した KEN_ALL.CSV を SJIS に戻して出力せず、UTF-8 で出力するようにした。
- update mecab-user-dict-seed.

2020-02-06
- fix costs with "jawiki-latest-all-titles-in-ns0".
  neologd の表記を日本語版Wikipediaの見出し語リスト内で検索して、
  ヒット数に応じてコスト値を修正した。
  見出し語リストには間違った表記も捨て見出しとして収録されているので完全ではないが、
  "三浦大知" が "三浦大地" より優先されるようになる。
  見出し語リストに含まれていない表記はコスト値を8000台にした。
  コスト値が6000台だと「ねがいがいつかかなう」が「願いが一花カナウ」になる。

- mozc のエントリと読み+表記が同じであっても、左文脈IDが異なれば収録するようにした。
  「名探偵コナン」「深浦康市」を1語として変換できるようになる。

- 「・」「=」が含まれるエントリの収録基準を緩和した。
  読みの文字数より表記の文字数が多いエントリは削除していたが、
  「あんはさうぇい アン・ハサウェイ」のようなエントリを収録するようにした。

- 地名辞書に全角英数が含まれていたので半角英数に修正。
- mecab-user-dict-seed.*.csv.xz を同梱しないようにした。
  自分で辞書を作成する場合は make-release-tarball.sh の "NEOLOGDDATE" "NEOLOGDURL" を
  最新のものに変更してください。
- update mecab-user-dict-seed.

2020-01-15
- I don't provide "mozc + additional dictionaries" tarballs anymore.
  The upstream mozc is not maintained, so packagers need to apply patches.
  I release mozcdic-neologd-ut as additional text files.
  See mozcdic-neologd-ut-*/README.md for installation.
  Arch Linux users can install mozc-neologd-ut easily with my PKGBUILD.

- change src dir structures.
- update build scripts.
- update PKGBUILD and README.md.

2020-01-13
- I updated PKGBUILD for python3 support, and I removed python2 from makedepends.
  https://github.com/google/mozc/issues/462#issuecomment-573220288
    mozc-2.23.2815.102-python-3.patch
- add Debian patches
  https://salsa.debian.org/debian/mozc/tree/master/debian/patches
    debian_patches_Fix-build-with-gcc8.patch
    debian_patches_add_support_new_japanese_era.patch
- add chimei/generate-zipcode-*.rb
  I wrote them instead of "gen_zip_code_seed.py".

- update mecab-user-dict-seed.

2020-01-03
- update mecab-user-dict-seed.

2019-11-29
- update mecab-user-dict-seed.

2019-10-28
- update mecab-user-dict-seed.

2019-09-13
- update mecab-user-dict-seed.

2019-08-08
- update mecab-user-dict-seed.
- 一部の組織を収録するようにした。
  「京アニ」が収録対象外になっていたので。

2019-06-10
- update mecab-user-dict-seed.

2019-04-25
- add patches/add-new-japanese-era.patch.
  "きょう" => "令和元年5月1日"
  "ことし" => "令和元年"
  "れいわ" => "㋿"（"令和"の合字）
    Use this font to show the character properly.
    https://github.com/googlefonts/noto-cjk/blob/master/NotoSansCJK-Regular.ttc

- update mecab-user-dict-seed.

2019-04-16
- update mecab-user-dict-seed.

2019-04-03
- update mecab-user-dict-seed.

2019-02-08
- update mecab-user-dict-seed.

2018-11-30
- update mecab-user-dict-seed.

2018-10-09
- update mecab-user-dict-seed.

2018-09-04
- update mecab-user-dict-seed.

2018-07-22
- update mecab-user-dict-seed.

2018-06-04
- mozcエントリと読みが同じで表記が異なるutエントリを収録するときのコスト計算を修正。
  「鈴木奈々」より「杉木奈々」が優先されていた。
- 人名のコスト計算を変更。
- 辞書生成スクリプトのファイル名を変更。
- 公式辞書には filter-mozc.txt を当てないようにした。別のフィルタが入ったようなので。
  neologd に対しては filter-mozc.txt の適用を継続。
- update mecab-user-dict-seed.
- add a patch for gcc-8.1.
  https://github.com/google/mozc/issues/441#issue-321728877

2018-03-07
- dependency change: use Qt5.
- update mozc version to 2.23.2815.102.
- update fcitx-mozc.
  See fcitx-mozc/README.md
  https://github.com/fcitx/fcitx/issues/403
- update mecab-user-dict-seed version to 20180301.

2018-01-03
- mozc-2.23.2785.102 に追従。
- mecab-user-dict-seed を最新版に差し替え。

2017-10-07
- neologdエントリがmozcエントリと同じ読みを持つ場合、双方のコストを比較するようにした。
  mozcdic-ut2で追加辞書のコストをかなり上げたにもかかわらず、
  「幾つかの」が「いくつかの」より優先されることがあったので。

- mozc公式辞書のエントリをフィルタリングするようにした。
  - src/filter-mozc.txt に含まれる表記を除外する。
    /\A似非/ のような正規表現も使用可能。
  - 「殆ど　ほとんど」のようにタブ区切りで2つの単語が並んでいる場合は、
  前者の表記から後者の表記を生成して追加する。
  追加した表記はもとの表記より優先度を高めにする。
    mozcの辞書には「殆どxx」という表記はあるのに、
    「ほとんどxx」という表記はないことが多く、
    文章が硬く見えるので。

- 郵便番号辞書を生成するときにmozc公式辞書に追記しない形にした。
  mozc公式辞書は後で重複チェックの処理が入るので、
  郵便番号辞書があると重複チェックに時間がかかる。
  郵便番号辞書は他のエントリとかぶることがないので、
  重複チェックの必要はない。

2017-10-04
- mecab-user-dict-seed を最新版に差し替え。
- 収録する表記の最大文字数を20に減らした（以前は24）。
- 数字を含む表記を削除した。
  「712円」「青森県道39号」「第1231話」などキリがないので。
- 「カブシキガイシャ」などの煩雑なエントリを削除した。
  src/get-neologd-entries.rb を参照。

2017-10-02
- mecab-user-dict-seed を最新版に差し替え。
- ソースのコメントを整理。

2017-05-29
- mecab-user-dict-seed を最新版に差し替え。

2017-03-20
- mecab-user-dict-seed を最新版に差し替え。

2017-01-16
- mecab-user-dict-seed を最新版に差し替え。

2016-12-15
- mozc-2.20.2677.102 に追従。
- fcitx-mozc-2.18.2612.102.1 に追従。
- mecab-user-dict-seed を最新版に差し替え。

2016-11-21
- mozc-2.19.2663.102 に追従。
- mecab-user-dict-seed を最新版に差し替え。

2016-11-15
- mecab-user-dict-seed を最新版に差し替え。

2016-10-24
- mecab-user-dict-seed を最新版に差し替え。

2016-10-20
- mecab-user-dict-seed を最新版に差し替え。
- 人名を一括変換しにくいので品詞idを「名詞,一般,*,*,*,*,*」のidに統一した。

2016-10-17
- 辞書生成を高速化。
  正規表現を配列から毎回整形して作らずにあらかじめ作っておく。
  カタカナをひらがなに変換する処理はtrではなくnkfで行う。
  全角英数・全角記号を半角に変換する処理はtrではなくnkfで行う。
- filter.txtの正規表現エントリを // で囲むようにした。
- change url in pkgbuild.

- mecab-user-dict-seed を最新版に差し替え。

2016-10-13
- change the directory structure and file names.
- mecab-user-dict-seed を最新版に差し替え。
- コスト計算を一部簡略化した。

2016-09-05
- update get-latest-mozc.sh
- update generate-mozc-tarball.rb
  keep original documents and the directory structure.

- mecab-user-dict-seed を最新版に差し替え。

2016-08-15
- update generate-mozc-tarball.rb
- mecab-user-dict-seed を最新版に差し替え。

2016-06-27
- update get-latest-mozc.sh

- mecab-user-dict-seed を最新版に差し替え。

2016-05-24
- update get-latest-mozc.sh
  simplified.

- mecab-user-dict-seed を最新版に差し替え。

2016-04-19
- mecab-user-dict-seed を最新版に差し替え。

2016-03-18
- 「都道府県+市+町域」のエントリを削除した。
  辞書データが膨らみすぎるので。

- mecab-user-dict-seed を最新版に差し替え。

2016-03-03
- 地名生成コードを更新。
  - 町域の数字の読みがなを改善。

- mecab-user-dict-seed を最新版に差し替え。

2016-02-29
- 辞書生成コードを更新。
  - 同じ読みの人名が続いたときは辞書に多く含まれる表記を優先する。
    冠番組を持つタレントなどが優先される。
    (例) 中井正広, 中居正広, 仲居正広, 中井正広のブラックバラエティ, 
    中居正広のボクらはみんな生きている, 中居正広のミになる図書館
    この場合は出現数の多い「中居正広」の表記を優先する。

  - 品詞をIDに変換する処理にバグがあったので修正。
    高速化するために導入した処理だったが、
    バグがあった上に直してtimeを測ってみると速くなっていなかった。
    高速化のために条件を加えるとその処理に時間がかかって、
    差し引きゼロになってしまうことがある。

  - 単語の収録範囲を広げた。
    「16文字以内の読みを持つ単語」から
    「16文字以内の表記を持つ単語」に緩和した。
    あまり文字数を増やすとサジェストウィンドウが大きくなるので注意。

  - neologdの住所エントリを使わないようにした。
    住所エントリは郵便番号データから自前で作成する。
    neologdでは自動作成された(?)短縮エントリが多く、辞書が肥大するので。
    (例) 徳島県春日町,トクシマケンカスガチョウ
    正式な住所は「徳島県徳島市春日町」

    最新の郵便番号データを使うと最新の住所を入力できるし、
    巨大な住所エントリを分離することで辞書生成が多少速くなる。

- 郵便番号データ関連のコードを更新。
  - 町域の読みにある数字をカタカナに変換。
    (例)「3ジョウ」を「サンジョウ」に。

  - 地名生成のためのコードを整理。

- フィルタを更新。
- mecab-user-dict-seed を最新版に差し替え。

2016-02-26
- 辞書生成コードを更新。
  fix-jinmei.rb を実行した後のコストがマイナスにならないようコスト計算を変更。

- フィルタを更新。
- mecab-user-dict-seed を最新版に差し替え。

2016-01-25
- 辞書生成コードを整理。
- 辞書生成を少し高速化。

- 人名の判定を変えた。
  fix-jinmei.rb
  同じ読みのエントリが続いたときに片方が人名で片方がそれ以外の場合、
  人名の表記を優先する。
  人名だと判定されなかったエントリは品詞を人名に変え、優先度を下げる。

- フィルタを更新。
- mecab-user-dict-seed を最新版に差し替え。

2016-01-21
- フィルタを更新。
- mecab-user-dict-seed を最新版に差し替え。

2016-01-18
- 辞書生成スクリプトを更新。
- フィルタを更新。
- mecab-user-dict-seed を最新版に差し替え。

2016-01-15
- 正規表現でフィルタリングできるようにした。
  正規表現の場合は頭に / を付ける。
  多用すると辞書生成が遅くなる。

2016-01-14
- first release.
