AI影像模型Sora封測效果驚人 輸入文字即可生成影像
OpenAI開發的Sora,生成的AI貓咪看起來栩栩如生。
這套仍在封閉測試的生成式AI影像模型,目前可產出最長1分鐘的影像。它根據輸入的文字指示,自動生成動態影像,例如簡單的一句prompt,也就是俗稱的咒語:「一隻卡通袋鼠跳迪斯可舞」,就出現這些影像。

若輸入「一群黃金獵犬幼犬在雪地玩耍,牠們的小腦袋從雪堆中冒出來」,AI生成的狗毛色蓬鬆柔軟,隨著狗的動作,毛髮呈現自然的流動。
如果輸入的文字是製作電影預告片,prompt包含主角的職業、打扮穿著、交通工具、場景條件和影片規格等細節,就呈現出電影風格的畫面。
Sora還能擷取靜止圖像,生成動態影像。
根據OpenAI發布的Sora影像成品,有動畫、實景、真人和動物等。

仔細看這段貓咪影片會發現,貓用前肢逗主人的片段出現奇怪的破綻。而OpenAI也承認,目前Sora還有很多技術問題有待克服,比如左右方向不清、無法保持視覺連貫性,以及無法呈現影像接續的因果關係等。
然而整體而言,Sora文字生成影片的表現的確讓人驚豔,是繼AI圖片生成工具DALL-E和Midjourney之後,AI產業技術又一次的躍進,AI凌駕人類的說法再度引發討論。

經濟合作暨發展組織OECD的教育專家指出,我們應該修正看待AI的態度。
OECD教育與技能主任史萊徹(Andreas Schleicher)表示,「我認為只要保持人類的能力,我們就不應該畏懼人工智慧,當我們放棄這些能力,我們就會處於風險裡。」

生成式AI問世短短1年多,帶動產業和人力市場生態的變革,而生成式圖片與深偽影像技術DeepFake,造成各種網路假訊息滿天飛。
專家也擔心Sora一旦開放使用,有關大選與戰爭等爭議性議題的假訊息、偽造影片生成與傳播,勢必將更加氾濫,事實查核的工作也將變得更加艱鉅。

史萊徹說道,「我們也呼籲確保這些技術不會凌駕主導,它們應該受到限制,特別是當涉及兒童時,我們要減少這方面的風險,所以我們要投入了解這些機制,學會像科學家一樣思考、像歷史學家一樣思考、像哲學家一樣思考,我認為我們有很好的機會,好好掌握這些技術所創造的機會。」

OpenAI邀集學者專家和外部研究人員組成Sora測試小組,模擬用戶和駭客生成不當內容的使用情境,藉此研擬出反制對策,提供管理政策制定的參考。
除了OpenAI,臉書母公司Meta、Google和Runway AI公司都在研發相關影像產製技術,顯示AI自動生成影像的趨勢已成定局。