Google 新發表 PaLM-E 語言模型，能用「說」的操作機械人完成任務

隨著人工智慧的突破，近期各種利用席捲社群媒體，從聊天機器人 ChatGPT到下指令即可繪出美圖的Midjourney，也讓人越來越期待人工智慧可以進展到什麼程度。像電影《鋼鐵人》那樣口頭命令就可以操縱的機械手臂是有可能的嗎？在本周一（3/6）Google 與柏林技術大學的研究人員發表了 PaLM-E，這款視覺語言模型（visual-language model, VLM），讓機器手臂可以依據使用者以自然語言使用的命令執行各種任務。

現階段機械手臂在許多精密的組裝工作上已經應用得相當普遍，但是每項任務的細節都需要備有完整的工作程序中。 PaLM-E 的突破在於，使用者發布命令之後，會由人工智慧分析過往的錄影機資料，然後自動生成機器手臂的動作計畫，並且自動執行。簡單來說，如果在家裡對機器手臂說：「把洋芋片拿給我。」PaLM-E會找出零食的所在，並且規劃機器手臂的移動路線、打開抽屜、取出所需要的零食，再送去指定的位置。

ChatGPT輸出的成品是文字，PaLM-E 則是提供一連串的機器人動作，運用與ChatGPT相似的大型語言模型（large language model, LLM），並且加入視覺辨識與機械控制的資料，PaLM-E 因此可以不需要反覆的訓練與規劃，而可以執行多種任務。

過往對於機器人控制的想像，需要人工事前模擬規劃每項任務的步驟與細節，研究人員認為多樣的資訊輸入，賦予了 PaLM-E 多模組的推理與圖像推理能力，輸入大量的視覺資訊以及工作任務的細節，讓人工智慧自動生成完成任務所需的機械步驟。PaLM-E 如能夠穩定地達成複雜的任務，將有機會徹底改變未來機器人應用的場合與場景。

目前這項技術還在測試的階段，Google團隊預計進一步探索 PaLM-E 在工業現場甚至進入家庭的工作潛力，或許未來我們將迎來截然不同的機器人世界。

參考資料：PaLM-E: An Embodied Multimodal Language Model

加點製造為產品開發專業知識交流社群，提供專業問答提供開發者互助學習，也可以搜尋在地的優秀設計與製造廠商。

Google 新發表 PaLM-E 語言模型，能用「說」的操作機械人完成任務

與 60,000+ 讀者一起訂閱最新文章

相關