近日,有消息稱,前微軟亞洲研究院首席研究經(jīng)理譚旭已加入大模型創(chuàng)新企業(yè)月之暗面,擔任端到端語音模型研發(fā)的領軍人物。譚旭的加入,為月之暗面的技術研發(fā)注入了新的活力。
據(jù)悉,月之暗面自去年10月起便啟動了多模態(tài)研究,目前有一個約10人的團隊專注于視頻模型的研發(fā)。為確保產(chǎn)品的獨特性和競爭力,公司對外發(fā)布計劃一直保持謹慎態(tài)度。
譚旭在生成式AI領域擁有深厚的研究背景,其論文引用量高達上萬次。在微軟任職期間,他的研究成果已廣泛應用于Azure、Bing等產(chǎn)品與服務中。
加入月之暗面后,譚旭的主要目標是助力公司打造類似GPT-4o的語音體驗。GPT-4o是OpenAI今年5月發(fā)布的多模態(tài)大模型,具備低延時、可隨時打斷等特性。
傳統(tǒng)的語音方案存在響應時間長、無法隨時打斷等問題。而端到端語音模型則省去了中間轉換過程,提高了響應速度,并改善了“幻覺”現(xiàn)象。
譚旭的加入和端到端語音模型的研發(fā),無疑將為月之暗面在未來的市場競爭中增添有力籌碼。