Google 新發表 PaLM-E 語言模型,能用「說」的操作機械人完成任務

0

隨著人工智慧的突破,近期各種利用席捲社群媒體,從聊天機器人 ChatGPT到下指令即可繪出美圖的Midjourney,也讓人越來越期待人工智慧可以進展到什麼程度。像電影《鋼鐵人》那樣口頭命令就可以操縱的機械手臂是有可能的嗎?在本周一(3/6)Google 與柏林技術大學的研究人員發表了 PaLM-E,這款視覺語言模型(visual-language model, VLM),讓機器手臂可以依據使用者以自然語言使用的命令執行各種任務。

現階段機械手臂在許多精密的組裝工作上已經應用得相當普遍,但是每項任務的細節都需要備有完整的工作程序中。 PaLM-E 的突破在於,使用者發布命令之後,會由人工智慧分析過往的錄影機資料,然後自動生成機器手臂的動作計畫,並且自動執行。簡單來說,如果在家裡對機器手臂說:「把洋芋片拿給我。」PaLM-E會找出零食的所在,並且規劃機器手臂的移動路線、打開抽屜、取出所需要的零食,再送去指定的位置。

ChatGPT輸出的成品是文字,PaLM-E 則是提供一連串的機器人動作,運用與ChatGPT相似的大型語言模型(large language model, LLM),並且加入視覺辨識與機械控制的資料,PaLM-E 因此可以不需要反覆的訓練與規劃,而可以執行多種任務。

用語言命令機械手做到分類等複雜功能

過往對於機器人控制的想像,需要人工事前模擬規劃每項任務的步驟與細節,研究人員認為多樣的資訊輸入,賦予了 PaLM-E 多模組的推理與圖像推理能力,輸入大量的視覺資訊以及工作任務的細節,讓人工智慧自動生成完成任務所需的機械步驟。PaLM-E 如能夠穩定地達成複雜的任務,將有機會徹底改變未來機器人應用的場合與場景。

目前這項技術還在測試的階段,Google團隊預計進一步探索 PaLM-E 在工業現場甚至進入家庭的工作潛力,或許未來我們將迎來截然不同的機器人世界。

參考資料:PaLM-E: An Embodied Multimodal Language Model

加點製造為產品開發專業知識交流社群,專業問答提供開發者互助學習,也可以快速的搜尋在地的優秀設計與製造廠商。優秀產品資訊歡迎投稿

與 60,000+ 讀者一起訂閱最新文章

最後修改日期: 8 3 月, 2023