山东省群英会开奖直播

億元級IT行業生態鏈
一站式解決方案提供商

24小時免費咨詢電話
010-52725243

新聞資訊

AJIA NEWS

谷歌開源語音命令數據集,幫助開發者搭建基礎的語音交互

來源:雷鋒網 發布日期:2017-08-25

阿甲科技谷歌開源語音命令數據集

谷歌的工程師們經常被問到這么個問題:

怎么上手用深度學習做語音識別或其它音頻識別,比如關鍵詞或指令?

雖然,現在出現了些很優秀的開源語音識別系統,比如 Kaldi,就能把神經網絡作為其中的一個模塊。但其高度復雜性,讓它們并不適合作為解決簡單任務的指南。更重要的是,對于新手而言,免費、可公開獲取的數據集并不多,經過預處理的、或適合于簡單的關鍵詞檢測的也很少。

為解決這些問題,谷歌的 TensorFlow 和 AIY 團隊創建了 Speech Commands Dataset,即“語音命令數據集”,并基于它向 TensorFlow 添加訓練和推理的示例代碼。

雷鋒網消息,谷歌在今日宣布開源該數據集。

對 30 個命令短語,該數據集有 65000 次的長約一秒鐘的發音。這來自數千個不同的人向 AIY 網站提交的貢獻。它以 Creative Commons BY 4.0 許可發布,隨著新貢獻的添加,該數據集在未來會不斷擴大。

建立這個數據集的目的,是幫助大家為應用創建基礎但有用的語音交互,比如“Yes”、“No”、數字、方向等詞語。谷歌也已經將開發這一數據集的基礎設施開源,并希望看到更多人借此創建更多版本的數據集,尤其是針對冷門語言和應用。

下載預建的 TensorFlow 安卓演示 APP,打開 “TF Speech”,就能體驗谷歌基于該數據集開發的識別模型。另外,你可以通過 TensorFlow.org 的音頻識別 tutorial 學習怎么開發你自己的模型。

阿甲科技

歡迎訪問阿甲科技集團官方網站!
山东省群英会开奖直播 888彩票平台 群英会开奖走势图33期 湖南麻将新手入门基本规则 时时彩五星独胆技巧 单机牛牛下载 3d无错500大底 皇家彩世界开奖 欧洲哪支球队实力最强 江苏快三稳赢技巧 昨天新疆25选7的开奖号码