NamiTech – Crystal Sound – 音声処理分析における AI 技術 – ビデオ: LE KIET – MAI HUYEN – NHU CHANH
顔認識技術は一般的ですが、音声認証は簡単ではありません。 電話で話すときの音声認識、分析、およびノイズ フィルタリングのための人工知能 (AI) を開発したベトナムのテック企業がありました…そして、国内および国外の多くの場所で使用されています。
NamiTech 社長の Nguyen Thanh Lam 氏は次のように述べています。
– 15年以上勤めたFPTソフトウェアを退職しました。 難しい分野もありましたが、AI 技術の学習に投資することにしました。AI 技術は大きな可能性を秘めた技術だと考えているからです。 私が VinAI に参加した理由もここにあります。才能のある技術者のチームがここにいるからです。
AI を自動車製品、電話に適用して、2 つのことに気付きました。 1 つ目は、AI には非常に大きなアプリケーションの可能性があるということです。 第二に、当社の技術スタッフは非常に優れており、米国のシリコン バレーを含むどこにも負けません。 これが私がAIを始めた主な理由です。
グエン・タン・ラム氏
声で顧客を識別する
※でもAIはいろいろな分野に応用されていますが、なぜ音声処理の分野で起業しようと思ったのですか?
物語は、VinAIで働いていたときの数学の問題から始まります。 すべての電話には、ノイズに対処するためのソフトウェアが必要です。 Vinsmart は、1 台の電話を製造するたびに、米国の企業である Qualcomm に 50 セント (10,000 VND 以上) を支払わなければなりません。
私たちはそれを自分たちで完全に行うことができることを発見しました.ディープラーニングでそれを行うと、信号処理の従来のスタイルよりもさらにうまくいく可能性があります. 年間数千万台を生産すると予想される電話の数を考えると、それは大きな金額になるでしょう。
そうするとき、音の方向性について考えれば考えるほど、より多くの可能性が見えてきます。結局のところ、音は、視覚に加えて、私たちがお互いに、そして世界とコミュニケーションをとるのに役立つ最も重要な情報源だからです。.
ノイズ処理ができれば、音声処理、声質改善、音声認識もできる……という話は続きます。
* では、企業は自社のソフトウェアを運用にどのように使用していますか?
– 当社の音声バイオメトリクス製品 (VoiceDNA) が、国内外の銀行や保険会社で、顧客サービス センターやモバイル バンキング アプリケーションを通じて取引中に顧客を識別するために使用されていることを非常に嬉しく思います。
このソフトウェアは、保険契約が多すぎる顧客などの異常な状況を検出するためにも使用されます。
ソフトウェアのみ クリスタルサウンド、さまざまな形でテクノロジーをユーザーに提供します。 通常のユーザーは、自分のコンピューターに CrystalSound ソフトウェアを手動でダウンロードしてインストールし、周囲のノイズをフィルター処理することができます。
法人顧客の場合、CrystalSound は従業員用にインストールされます。 また、CrystalSound ソフトウェアのライセンスを、ヘッドセット、コンピューター、ビデオ会議機器などの機器メーカーに提供しています。
※ではナミテックの製品にAIはどのように組み込まれているのでしょうか。
– 優れた AI 技術は、当社の主要な競争力の武器の 1 つです。 AI は、CrystalSound をデジタル信号処理技術よりも品質の点ではるかに優れたものにしますが、成功または失敗の要因は、この AI を Bluetooth ヘッドセットなどの小さなデバイス プロセッサで実行し、わずか数十日で高い処理速度を確保する方法です。 ミリ秒。
VoiceDNA を使用すると、競合他社よりも 3 倍速く音声を録音して顧客を識別できますが、それを会社の既存の標準に統合するにはどうすればよいでしょうか? これらは、優れた AI アルゴリズムを作成するのと同じくらい難しい問題です。
プライベート ニッチ マーケットの入り口
* 実際、サウンド フィルタリングとテキスト読み上げソフトウェアはすでに市場に出回っており、Google などの技術大手もこのツールを使用しています。 ナミテックの違いは何ですか?
– 私たちの違いは、適切な焦点を当て、市場のニーズに迅速に対応できるようにすることだと思います。
たとえば、CrystalSound フィルタリング ソフトウェアでは、最初は音声以外の環境ノイズのみを処理しました。 しかし、お客様のご利用状況を詳しくお聞きしたところ、故意、無意識に関わらず、人の話し声も不快な音であることがわかりました。
私たちはすぐに声紋認証技術を統合し、ユーザーが自分の声を録音できるようにしました。その後、CrystalSound が周囲の人の声を消去し、自分のユーザーの声だけを残します。
音声認識および会話分析製品に関して言えば、ベトナム語および日本語のアプリケーションに対する Google の弱点、特に多くの話者との会話や環境で行われる場合に見られます.現場は非常に騒がしく、録音品質は限られています. 、これらは最も実用的な適用条件です。
NamiSense を実用化するために、私たちは独立していると思われる多くの技術を組み合わせますが、互いに補完的な効果をもたらします。 製品は高度にカスタマイズ可能で、顧客は用途に合わせて特定の要件を定義できます。
在宅勤務やオンラインでの会議に最適なアシスタント…
– CrystalSound の最初のテスト バージョンは、流行期の 2021 年にリリースされます。 500 人を超えるコール センターの従業員が在宅勤務している通信会社がクライアントになりました。
赤ちゃんの泣き声、犬の吠え声、トタン屋根に降る雨音のように、在宅勤務は常に騒がしいものです。 多くの肯定的なレビューを受け取り、オペレーターからノイズ キャンセリングのサポートに感謝しています。
または、VoiceDNA を使用すると、音声を録音するのにわずか 10 秒、音声を認証するのに 3 ~ 5 秒しかかからないため、ベトナムと米国の顧客は非常に関心を持っています。 現在市場に出回っている米国の競合他社のソリューションでは、顧客は 30 ~ 45 秒の文を完全に無音で話し続ける必要があるため、音声録音の成功率は非常に低くなります。 .
VoiceDNA は、クライアントが正常に通信しているときに自動サンプリングを可能にします。通常のサウンド環境では、約 3 つの短いセンテンス (合計 10 ~ 15 秒) で、録音成功率が最大 5 ~ 6 倍になります。
Youth Start-Up Awardには約1,000社のスタートアップが参加
Tuoi Tre Start-Up Award は、4 シーズンにわたって 1,000 近くのチャンネルのスタートアップを獲得しました。 ラウンドの経過: 書類受領の予選、ジャーナリストの評価ラウンドと現地視察、組織委員会の予備ラウンド、200 以上のスタートアップが最終ラウンドに到達しました。
過去 3 シーズンで、決勝に進出した優秀なスタートアップの数は 150 でした。このうち、前の 3 シーズンで表彰された典型的なスタートアップの数は 70 で、そのうち 2 つが表彰されました。 評議会は、賞金 1 億ドン相当の特別賞を授与することを決定しました。
祝賀会で支援され、表彰されただけでなく、新聞に掲載された新興企業は、パートナー、顧客、特に投資家から多くのつながりを得たと宣言しました…
今年は、約 25 ~ 30 の優れたスタートアップ ストーリーがジャーナルに掲載される予定です。 若者 (オンラインまたは新聞、Tuoi Tre TV、ファンページなど) 2023 年 3 月から 5 月まで。主催者は、VinaCapital、FE Credit、No.1、 Thai Binh Group、IDico、Volvo、Tin Nghia Corp. ., Saigontourist Group, Thu Duc Golf Course….では、GIBC から 1 億 VND 相当の評価委員会によって投票された新興企業に対して常に特別なサポートがあります。
スタートアップ、優れた現実的なスタートアップのアイデアを持つ若者のグループ、テクノロジーの適用、競争上の優位性の創出、AI の適用、持続可能性、コミュニティへの貢献、グリーンで環境に焦点を当てたソリューションの提供、または実践的なストーリーを持つ読者スタートアップの肖像画の背後にある、今日から、自己紹介記事、メール アドレスに関する質問を送信できます。 [email protected].
ミン・フイン
「ビールの第一人者になりたい。テレビ中毒者。完全なインターネット忍者。受賞歴のある主催者。誇り高い起業家。」