导语:
近日,一篇引人瞩目的论文在arXiv上浮出水面,谈论着一项颇具未来感的技术。这篇论文的作者,源自李开复旗下的大模型公司01.ai,名为"零一万物",不禁令人好奇,这次他们又带来了什么令人惊叹的创新?在AI领域,语音交互一直备受瞩目,它是否能够成为AI与人之间更自然的交流方式,而非仅限于文本输入?
让我们一同深入研究,看看这个新兴的中英双语可商用对话模型LLaSM究竟有何特色和潜力。
正文:
中英文化碰撞:
首先,让我们用中英文化碰撞的方式测试LLaSM的能力。请听模型用英文对李白进行评价,它正确地提及了李白的朝代。如果您不懂英文,也可以让模型将其翻译成中文。
这样的功能是否意味着我们未来可以轻松地进行跨语言交流?
中英混合提问:
接下来,我们尝试了一些中英混合的提问,混入了"friedfood"这个英文词汇。LLaSM的输出似乎毫不费力,这引发了我们对其跨语言交互能力的更多思考。
文学巨匠之辨:
让我们进一步挑战模型,比较一下李白和杜甫,看看它是否能够发表中立的观点。
从结果来看,模型经过一番思考后,给出了相对中立的评价,这表明它不仅具备知识,还具备基本的"端水常识"。
手机也能轻松应对:
不仅限于电脑,我们也在手机上测试了LLaSM。用语音输入的方式,我们向模型询问了一个菜谱,它迅速准确地提供了"茄子芝士"的菜谱。尽管我们不确定这道菜是否好吃,但模型的回答似乎令人满意。
然而,我们也注意到,LLaSM在某些情况下可能会出现问题,特别是在中英混合的提问中。有时候,它会假装听不懂人类语言,输出英文回答。更令人困扰的是,当我们尝试询问"TaylorSwift的Red"时,模型陷入了一连串的重复回答,几乎无法停止。总体来说,对于中英混合的问题,LLaSM的表现尚有提升空间,不够稳定。
然而,如果将中英文分开进行交流,LLaSM的表现相当出色,能够流利地表达中英文内容。
技术揭秘:
那么,LLaSM究竟是如何实现的呢?这个模型的设计有什么独特之处?从试玩中我们可以看出,LLaSM主要有两个显著特点:支持中英文输入和语音文本双输入。要实现这两个特点,模型在架构和训练数据上都进行了相应的调整。
在架构方面,LLaSM将语音识别模型与大语言模型相融合。具体来说,LLaSM由三个部分组成,包括自动语音识别模型Whisper、模态适配器和大模型Llama。Whisper负责接收原始语音输入并生成语音特征的向量表示;模态适配器负责将语音和文本嵌入对齐;Llama则负责理解语音和文本输入,并生成相应回复。
模型的训练分为两个阶段,首先是训练模态适配器,然后是训练多模态对话能力。研究人员整理了大量的语音-文本数据集LLaSM-Audio-Instructions,其中包括19.9万个对话和50.8万个语音-文本样本,其中8万个为中文样本,42.8万个为英文样本。这一数据集是迄今为止最大的中英文语音文本指令数据集之一,目前还在整理中,预计会进行开源。
总结:
LLaSM,这一中英双语可商用对话模型,标志着语音交互技术的一次重要突破。它不仅支持文本和语音输入,而且能够在中英文之间自如切换,为未来的多语言交流提供了新的可能性。然而,尽管其表现在某些情况下还有改进的空间,但其潜力和创新之处不容忽视。这一技术的开发团队来自LinkSoul.AI、北京大学和零一万物,他们的努力为我们带来了这一令人兴奋的突破。
我们期待着未来,看到LLaSM和类似技术在日常生活中的广泛应用。
原文