日本語文埋め込み技術
2024-09-04 12:56:23

第19回YANSシンポジウムで発表される日本語文埋め込み技術の新展開

第19回YANSシンポジウムでの発表内容



株式会社PKSHA Technologyは2024年9月4日から6日にかけて梅田スカイビルで開催される『第19回YANSシンポジウム』に参加します。このイベントでは、自然言語処理に関する最新の研究や技術開発が発表され、参加者同士の交流や学びの場とされている重要な場です。そこで発表される内容として、同社が開発した日本語に特化した「文埋め込みモデル」の新たな2つの成果が注目されています。

文埋め込み技術とは



文埋め込み技術は、自然言語処理において重要な役割を果たしており、テキストをコンピュータが理解しやすくするためのベクトル形式に変換する手法です。日本語に特化したモデルを開発することによって、より多様なアプリケーションでの利用が期待されています。PKSHA Technologyはこれまでも日本語文埋め込みモデルを発表しており、今回の発表はその進化の一環となります。

発表されるモデルの概要



1. 検索に特化した日本語文埋め込みモデル GLuCoSE v2
このモデルは、ウェブ検索や情報検索において特に高いパフォーマンスを発揮するよう設計されています。従来の大規模言語モデルは高性能ですが、コストや処理速度の面で実用化に課題があったため、PKSHAは蒸留技術を用いて軽量化し、その上で追加学習を行うことで、高性能かつ低コストでの利用を可能にしました。この技術を駆使したGLuCoSE v2は、商用ライセンスとして一般向けに公開されており、無限の可能性を秘めています。

2. 長い入力系列に対応した日本語文埋め込みモデル RoSEtta
最近、LLMを使用しての生成モデルや検索機能のニーズが増加していますが、従来のモデルは512トークンという制限がありました。このRoSEttaモデルは、最大1024トークンの長文を処理するために、「RoPE」という技術を採用しています。この技術により、より柔軟で多様なデータの処理が実現され、実用性が高まります。これもまた商用ライセンスで公開されています。

PKSHA Technologyの今後の展望



PKSHA Technologyは、AIの社会実装を促進するために多様な技術を開発し続けています。「人とソフトウエアの共進化」というビジョンのもと、今後も日本語文埋め込み技術をさらに進化させていく方針です。特にLLMの活用が進む中で、「PKSHA LLMS」という新しいプラットフォームを開発し、多様なAI技術を統合したソリューションを提供するを目指しています。

結論



第19回YANSシンポジウムにおけるPKSHA Technologyの発表は、自然言語処理の未来を示す重要な一歩であり、今後の技術動向を注視していく必要があります。言語モデルの進化は、様々な分野での社会実装に向けた期待を高め、研究者や技術者の関心を引くでしょう。


画像1

会社情報

会社名
パークシャテクノロジー
住所
東京都文京区本郷 2-35-10本郷瀬川ビル 4F
電話番号

トピックス(IT)

【記事の利用について】

タイトルと記事文章は、記事のあるページにリンクを張っていただければ、無料で利用できます。
※画像は、利用できませんのでご注意ください。

【リンクついて】

リンクフリーです。