發表文章

目前顯示的是 12月, 2021的文章

只需輸入文字,人工智慧替你完成一幅畫!

圖片
繪圖用 人工智慧 發展到「你說我畫」的境界!透過  NVIDIA  於上個月發表的最新版 GauGAN2( 點此繪圖 ),你只要輸入「海灘的日落」 (sunset at a beach) 等短句, 人工智慧 即可自動生成精細的日落海灘圖像!若你覺得還不夠,沒關係!你還可以進一步加入更精確的敘述句如「沿岸的日落」 (sunset at a rocky beach),或是將「夕陽」換成「下午」、「雨天」等字詞,都能讓 GauGAN2 立即調整生成圖像。 過去  NVIDIA  在 2019 年 GPU 技術大會(GTC)上,首次發表了人工智慧繪圖工具—— 「GauGAN」的第一代 ,能透過簡單的手繪草圖自動生成栩栩如生的風景圖;現在又持續更新為第二代的 GauGAN2,加入了能以簡單的描述字句,即可自動建立圖像的功能、且精細度更符合使用者所需結果:如自動形成使用者所構想海灘形式,夕陽呈現的位置等。 依據  NVIDIA  官方說明,GauGAN2 採用分割映射(segmentation mapping)、圖像修復以及文字轉圖像生成功能,能依據文字敘述或手繪生成高品質的精細圖像之外;也是第一個在單一對抗生成網路(Generative Adversarial Network,GAN)運算中,加入文字語意識別,讓藝術創作者能以更簡單的方式,指引 人工智慧 快速生成圖像。 使用者不需畫出心中場景的每個元素,只需輸入短句, 人工智慧 技術就能依照短語,快速生成關鍵特徵和主題:如被白雪覆蓋的山脈;接著,使用者特於特定的山上草草點個幾筆,讓那座山更高;最後還可在前方加入幾棵樹、或天空增加幾朵雲來點綴整副畫作。簡單幾個動作,藝術家就能描繪出栩栩如生的美景圖、或是超現實的蒸氣龐克風格繪畫。 NVIDIA  強調,GauGAN2 背後運算則採用了 NVIDIA Selene 超級電腦運算系統,已經使用 1 千萬張高品質風景圖片訓練 GauGAN2  人工智慧 模型,並讓系統能將描述字詞與風景圖像建立關連,以能快速對應到使用者輸入字詞後產生相應圖像。 透過人工智能,GauGAN2 讓藝術家們的作畫工具變得更強大多元、且作畫速度變得更有效率、更開啟了藝術創作的無限可能性。 GauGAN2 傳送門在此,點我來作畫吧! 使用教學如以下影片所示:

最好的編舞人工智慧應用!利用音樂生成舞蹈動作(下)

圖片
與其他人工智慧應用相比:FACT編舞能力一流 將 FACT 的性能,針對各個指標,與其他的 人工智慧 應用進行比較: 如上表所示,FACT 與三種最先進的編舞 人工智慧 應用( Li et al 、 Dancenet  和  Dance Revolution )相比,FACT 模型生成的動作更逼真,與輸入音樂的相關性更好,並且在以不同的音樂為條件時更多樣化。*注意的是  Li et al 生成的運動是不連續的,使得平均運動特徵距離異常高。 Google 還透過使用者研究,評估音樂與動作的相關性:讓每位使用者觀看 10 個影片,片中有一個 FACT 模型與一個隨機對照模型所生成的編舞結果然後讓使用者選擇哪個模型生成的舞步比較能夠與音樂同步。使用者共有 30 名,包含專業舞者以及很少跳舞的人。 結果顯示:81% 的使用者喜歡 FACT 模型生成的結果勝於 「Li et al.」的;跟 Dancenet 相比,71% 的人喜歡 FACT 勝過 Dancenet;跟 Dance Revolution 比較, 77% 的人也更喜歡 FACT。。有趣的是,75% 的參與者喜歡 AIST++ 未配對的舞蹈動作勝於透過 FACT 所生成的。這並不奇怪,因為最初的舞蹈紀錄具有很強的表現力。 定性結果 如下圖所示,與先前  DanceNet (左)與  Li et. al. (中)相較之下,使用 FACT 模型(右)生成的 3D 舞蹈更逼真,並且與音樂的相關性更好。 使用 FACT  人工智慧 模型生成更多 3D 舞蹈: 人工智慧發展下一步:為每首歌生成逼真舞蹈 Google 開發了一個 人工智慧 模型,可以學習音頻與動作對應的關係,還可以基於音樂,生成的高質量 3D 動作序列。由於從音樂生成 3D 動作是一個新興的研究領域,Google 希望此項研究成果能為未來跨模組「音頻-3D 動作」的生成鋪道。 透過這項研究,Google 還發布了迄今為止最大的 3D 人類舞蹈資料庫「 AIST++ 」——具有多視角、多種舞蹈形式、跨模態的 3D 動作數據集,不僅對 3D 動作生成研究有幫助,一般來說,也對人類理解研究幫助。Google 將在  GitHub  中發布代碼,並在 此處發布 經過訓練的模型。 雖然此項結果給了這個「

讓人工智慧「鑑定」用戶是否安樂死?(下)

圖片
AI自殺艙會帶來哪些影響?技術、倫理、法律界各持不同觀點 尼奇克會把石棺計畫印在自行創辦的非營利組織「解脫國際」(Exit International)發行的刊物中,並免費提供,只要年滿 50 歲就可取得設計圖、自行用 3D 列印出該自殺機器,如此輕易就可取得「死亡門票」的方式,各界如何看待? 演算法觀察機構:AI 恐削弱人類決定的自主權 讓人工智慧來決定人類的生死,只會削弱、不會增加人類對於 AI 的自主權 對此,關注 人工智慧 倫理議題的非營利組織「演算法觀察(Algorithmwatch)」政策及倡議團隊負責人穆勒(Angela Müller)指出:科技最終為人類開發,而 人工智慧 也是倚賴過去所學習的資料累積來做決定,而這兩者隱含的偏見和歧視,無形中都會影響 AI 的決定,「我擔心依賴它(AI)只會削弱、而不是增加我們的自主權」。 對此,尼奇克也只好承認當前的人工智慧應用與技術仍存者取多限制,上有無法解決的問題。但是他也沒有放棄,打算在「石棺」剛推行時與瑞士的醫師合作,確保每位石棺的用戶都經過醫界的專業判斷,以避免爭議;待此 AI 發展完成後,就採用人工智慧與醫師並行的「雙軌制」,消弭外界疑慮之餘也不斷優化  AI  的判斷力。 倫理研究所主任:過度美化自殺、恐引發自殺率 「像石棺這樣的機器會美化自殺,並增加心靈較脆弱或是心理疾病患者的自殺率。」美國喬治城大學(Georgetown University)甘迺迪倫理研究所(Kennedy Institute of Ethics)的主任 Daniel Sulmasy 認為如此集結最新 人工智慧 科技、富有設計感外觀的 AI 自殺機器根本就是「美化自殺」,恐引發自殺風潮。 法律專家們各持不同看法 尼奇克委託的法律顧問——瑞士聖加侖大學(University of St Gallen)的法律教授赫里曼(Daniel Huerlimann)表示:石棺在瑞士並無違法疑慮。 赫里曼教授指出此石棺並不在瑞士法律所定義的「醫療器材」之內,因此並不會受到《瑞士醫療器材法》(Swiss Therapeutic Products Act)的規範。除此之外,它也沒有違反氮氣、危險化學物質或武器等相關法律的嫌疑。面對這樣的結果,尼奇克沾沾自喜地表示:「這樣的結果,讓我們確認沒有遺漏任何法律問題……這表示在瑞士的法律下,

讓人工智慧「鑑定」用戶是否安樂死?(上)

圖片
當醫療用人工智慧助人恢復健康時⋯⋯這位醫生卻開發自殺用AI! 截至目前,許多醫療界與 AI 工程師聯手推出各式各樣的 人工智慧應用 ,目的都是為了要救活病人、降低死亡率,像是 日前獲 FDA 批准的內視鏡 AI ,可及早預防與醫治大腸癌 、還有  PTT 創辦人杜奕瑾因逝母遺憾,而打造的人工智慧敗血症即時預測 AI 。 當眾多 醫用 AI  在為人類解決問題時⋯⋯有「死亡醫師」之稱的澳洲醫師尼奇克(Philip Nitschke)卻反其道而行,開發了讓人工智能「鑑定」用戶是否該安樂死,並搭配可自行 3D 列印的輔助自殺(assisted suicides)裝置——「石棺(Sarco)」,介紹如以下影片所示: Sarco @ Venice_Design from Philip Nitschke on Vimeo .   瑞士安樂死條件太龜毛?他竟讓 AI 來定義你是否「該死」 AI  自殺裝置「石棺(Sarco)」的樣品 ,首次公開於 2018 年荷蘭的阿姆斯特丹喪葬展上,引發不小爭議。之後經過三年的研發,他打算帶著「進化版」的石棺 AI 輔助自殺系統前進瑞士,期待可在第一個通過安樂死合法的國家派上用場。 安樂死原因有哪些?瑞士接受輔助自殺的死者中「25%無罹患絕症」 而瑞士當前的法律僅允許人們在「特定條件」下接受輔助自殺,執行前亦需經過心理狀態評估等程序,才有機會拿到處方箋、並由醫生或醫療單位協助自殺。 當然心理狀態的評估標準見仁見智,在瑞士,每年通過協助自殺而過世的人群當中,有四分之一的人其實並沒有罹患絕症,純粹只是「厭倦了生活」。像是 2014 年通過安樂死而過世的英國退休藝術教師, 選擇自殺的原因竟只是「厭倦了充斥著電子郵件、電視、電腦和超市快餐的現代世界」 。 他讓 AI 取代醫師決定你生死,讓「找死」的過程更民主? 即便如此,尼奇克仍主觀地認為,瑞士有很多醫師不願意開「死亡處方箋」給無病痛的人:例如對活著感到厭倦的長輩等,而他發明的石棺可解決問題,宣稱可「讓死亡的過程更加『民主化』(democratising)⋯⋯」尼奇克說道:「所有理性的成年人都應享有決定要在何時結束生命的權利,不該是被掌握在其他人手上⋯⋯」 只要 AI 說「yes」,你就可一鍵墜入陰間 所以尼奇克在一開始研發「石棺」時, 就沒有打算要讓其他醫護人員參與; 他

最好的編舞人工智慧應用!利用音樂生成舞蹈動作(上)

圖片
人工智慧學編舞,動作搭配音樂複雜度高 Google 正進行一項 人工智慧 研究,開發稱為「FACT (Full-Attention Cross-modal Transformer)」的模型,可以模仿、理解舞蹈動作,甚至可提高個人的編舞能力。 Google  研究團隊為了訓練該模型,也隨之發布一個大規模、多模態的 3D 舞蹈動作資料庫「AIST++」,包含長達 5.2 小時的 1408 個 3D 舞蹈動作序列,涵蓋 10 種舞蹈類型。都包含了已知相機位置的多視角影片,可生成逼真流暢的 3D 舞蹈動作。 Google  提到:雖然隨著音樂節拍編排出動作,是人類的本能;然而舞蹈是「需要練習」的藝術形式。專業的舞者都需要經過大量的、包含各式各樣舞步的曲目來訓練,才有編舞能力。這樣的訓練,對人類來說已不容易;對 ML(Maching Learning, 機器學習 )來說更是難上加難。因為要使用 人工智慧 來實現編舞,需要生成動力複雜度高的連續動作,同時還要捕捉動作與配樂間的非線性關係。 人工智慧如何學舞?Google修正AIST舞蹈資料庫成教材 Google 從現有的  AIST 舞蹈影片資料庫( 一組帶有音樂伴奏的舞蹈影片,但無任何 3D 信息)生成 3D 動作資料庫。AIST 包含 10 種舞蹈類型:Old School(地板舞 Breaking、機械舞 Popping、鎖舞 Locking 和 Waack)以及 New School(Middle Hip-Hop、LA-style Hip-Hop、House、Krump、Street Jazz 和 Ballet Jazz),雖然包含了許多舞者的多視角影片,但鏡頭都沒有經過校準。  Google  依研究人員的需求,根據常用的  SMPL  3D模型參數,修復 AIST 影片的拍攝校準正後的數值和 3D 人體動作,重建為「AIST++ 數位資料庫」,包含與音樂搭配的各種 3D 動作,並將上述十種舞蹈均勻地呈現在動作中、以每分鐘節拍 (BPM) 為單位涵蓋各種音樂節奏。每種舞蹈類型都含 85% 的基本動作和 15% 的進階動作(舞者自由設計的更長編舞)。 未經修正的  AIST 舞蹈影片資料庫 如下所示: Google  依研究人員的需求,根據常用的  SMPL  3D 模型參數,修復 AIST

最好的編舞人工智慧應用!利用音樂生成舞蹈動作(中)

圖片
人工智慧編舞一把罩:FACT 模型 Google 使用上述的 AIST 資料庫,訓練 FACT 模型從音樂生成 3D 舞蹈。該模型先使用動作轉換器與音頻轉換器,分別對一段音樂與一個短的(2 秒)種子動作(seed motion)進行編碼。之後再將嵌入碼連接、發送到跨模型轉換器,該轉換器學習兩種模型之間的對應關係,並生成 N 個未來的動作序列。 然後使用這些序列以自我監督的方式訓練模型。在測試時, Google  將此模型用於自回歸框架,其中所預測的動作則作為下一個生成步驟的輸入。因此,FACT 模型能夠一個框架接著一個框架地,生成長時間的舞蹈動作。 FACT 網絡接收音樂片段 (Y) 和 2 秒的種子運動序列 (X),然後生成與輸入音樂相關的長期未來動作。|圖片出處:Google AI Blog Google 用三指標評估 FACT 的性能 Google  依據以下所述之三個指標,評估 人工智慧  FACT 的性能: 動作品質:我們計算 AIST++ 資料庫中的「真實舞蹈動作序列」與 40 個「模型生成的動作序列」之間的  Frechet 起始距離 (FID),每個序列具有 1200 幀鏡頭(20 秒)。我們將基於幾何和動力學特徵的 FID 分別表示為 FIDg 和 FIDk。 生成多樣性:與 之前的工作(指 「 深度 慣性姿勢捕捉」:從少許的慣性量測中學習而重建人體姿勢)類似:Google 從 AIST++ 測試集中的 40 個「模型生成動作特徵空間」中,計算平均歐氏距離,用以評估模型生成各式舞蹈動作的能力。,接著再比較幾何特徵空間 (Dist g ) 和動力學特徵空間 (Dist k )。 Google 使用不同的音樂,來生成四個不同的編舞版本:Break、Ballet Jazz、Krump 和 Middle Hip-hop(右),但有兩秒是相同的 Hip-hop 舞蹈動作(左),這些相同的動作被稱為「種子動作」。|圖片出處:Google AI Blog 運動-音樂相關:由於沒有合適的指標來衡量輸入音樂(音樂節拍)與所生成的 3D 動作(動作節拍)之間的相關性。所以 Google 提出了一種新的「節拍對齊分數 (BeatAlign)」作為指標。 上圖中顯示 FACT 所生成的舞蹈動作的動作速率(藍色曲線)、動

人工智慧不再侷限聲音與視覺!Meta AI發展「觸覺」感知(下)

圖片
過往收集不到的觸覺,ReSkin 做到了!人工智慧發展大突破 為了展現 ReSkin 的實用性、並展示它如何幫助研究人員,利用過往難以收集到的各種觸覺數據,以推進 人工智慧發展 的, Meta AI  在下列幾個不同的試驗中,展現 ReSkin 突出的實用性: 像人類般,完整拿取藍莓、葡萄等脆弱的水果 ReSkin 擁有絕佳的觸覺感知能力,可用於研發「訓練 機器人 用鑰匙打開門、抓住葡萄或藍莓等精緻物體」的人工智慧。 上面影片是測試當機器夾爪抓起脆弱的藍莓時,無安裝 ReSkin 以及有安裝 ReSkin 的差異: 影片一開始是沒有裝 ReSkin 的對照組,單單透過夾爪的內建力道感應拿起藍莓,不但容易破壞水果,也無法完成採樣與評估力道;而影片的後半段顯示:只要透過 ReSkin,它就卻能夠好地感應力回饋以控制抓取力道。 ReSkin 做成狗鞋子,蒐集動物於野外活動的觸覺資料 ReSkin 製成狗的鞋子,蒐集狗在野外行走的觸覺資料。其感測器可追踪狗在休息、行走、跑步的施力大小與方向。 ReSkin 做成手套,捕捉人類用手接觸物品的力道 ReSkin 同時可用於感測人類與物體交互過程(例如用手拿起東西、或是推東西)中,所施予的力道大小。影片中,研究人員在右手食指放置了一張 ReSkin 皮膚和一塊電路板、並戴上橡膠手套製作紅豆麵包時。過程中,感測器測量、並輸出數據。 大範圍面積的接觸定位 ReSkin 還可以按比例放大,在更大的表面積上進行接觸定位。有些模型建構,是需要知道目標位置在哪裡的。例如:要訓練 機器人 靠近地面撿起物體,則需要知道它要從哪裡接觸物體、要用多少力道。而 ReSkin 可在大範圍面積上接觸定位的特性,有利於建構此類模型。 ReSkin 未來在人工智慧的應用 Meta AI  研發了具有細膩觸覺感知的 ReSkin,低成本、靈敏度高且能恆久使用。柔軟的外皮,像繃帶般容易更換,換後可以立即使用——這是一個強大的 人工智慧 工具,可以幫助研究人員建立多種 人工智慧 模型。 Meta AI  進一步表示:希望將觸覺感知作為 人工智慧 研究的一個領域,並大力推進。除了 ReSkin,他們還同時宣布處理物件觸覺的開源生態系統,包含高分辨率觸摸感應硬體 DIGIT 、模擬器 TACTO 、基準測試

人工智慧不再侷限聲音與視覺!Meta AI發展「觸覺」感知(上)

圖片
在元宇宙也有觸覺! Meta 養成 ReSkin 人工智慧模擬真實肌膚感知 讓臉書 CEO 祖克柏​​熱血沸騰的「元宇宙」(Metaverse)新虛擬世界,目前是以有限的形式存在,我們只要戴上  VR  眼鏡便可抵達!祖克柏日前更將  Facebook  母公司改名 「 Meta 」,展現將「元宇宙」深入現實世界的野心!緊跟著「元宇宙」的腳步,祖克柏在十一月宣布:自家公司研發了新的觸覺感測器「ReSkin」,質感如真人皮膚,可安裝在  AI 機器人 身上、​​收集 人工智慧 的觸覺資料。 祖克柏:人工智慧皮膚ReSkin,讓我們離「元宇宙」更近 根據祖克柏日前在  Facebook  的貼文所述,自家公司「 Meta 」設計了高階觸控感測器 ReSkin;並與引導全球人工智慧趨勢的「卡內基美隆大學(Carnegie Mellon University)」合作,創造 機器人 及穿戴式裝置專用的塑膠薄皮膚。這能「帶領我們,進一步邁向『元宇宙』擬真虛擬物件與實質肢體的互動」。 Meta AI  (前身為 Facebook AI)的研究人員與卡內基美隆大學合作研發的 ReSkin,快速、大規模地提升了 人工智慧 夠在感測器和系統間共享數據。 Meta 將發佈 ReSkin 的設計、相關文檔、代碼和基礎模型,讓人工智慧的研究人員毋需搜集或訓練他們自己的數據庫,就能立即使用 ReSkin。如此一來,反而有利於提高人工智能的觸覺感應技能。 ReSkin觸覺感應範圍廣,助人工智慧執行高靈敏工作 人造皮膚 ReSkin 能感應到的觸覺非常廣泛,這優點幫助 人工智慧 能進行多種以觸覺為主的工作,包含物件分類、肌肉運動知覺(本體感覺)和 機器人 抓取等;另外,訓練過觸覺感知能力的 人工智慧 模型,有能力從事需要高度靈敏度的工作,如醫療保健機構的工作、或是需要更高靈巧度的工作:如操作小的、柔軟的、敏感的物體等。 ReSkin 還能與其他的感測器結合,在實驗室外等不可控的非結構化環境中,搜集視覺、聽覺和觸覺的數據。

人工智慧不再侷限聲音與視覺!Meta AI發展「觸覺」感知(中)

圖片
不到3mm的輕薄柔軟、不到6美元的低成本 由於人工智慧應用與技術的研發,往往需要巨量的數據來產生機器學習模型。所以致力於 人工智慧發展 的  Meta AI  部門,對觸覺 sensor 的需求大。 過往 機器人 皮膚需要內建電子設備,來監控皮膚與表面接觸時產生的電流變化。然而厚度不到 3mm 的可塑型皮膚 ReSkin ,只需要靠近監控設備即可,這意味著我們可以花更低的成本屬於,偵測到寬度不到 1 釐米、力道僅 0.1 牛頓的物件。 Meta  研究科學家古塔(Abhinav Gupta)說:如果生產 100 件以上的 ReSkin,則每一件的材料成本將低於 6 美元。皮膚的薄度可以重複使用 50000 多次,就算磨損,也非常容易搭上磁性粒子替換(更換過程如下方影片所示)。 90%的精確度,能搜集到過去無法得知的數據 ReSkin 的時間解析率高達 400Hz,1 毫米的空間解析度則有 90% 的精確度。這種精準度使其在元宇宙上能具備多種應用,像是機械手臂、觸感手套、袖套、以及任何能追蹤走路、跑步、運動和休息的鞋子(寵物也可用)等,因此它可協助研究人員蒐集過去無法得知的多種觸覺資料。此外,ReSkin 還提供高頻 3 軸觸覺訊號,可執行靈巧的操作動作,如丟、抓、拍手、滑等。 古塔認為這是未來。他說:「當你戴上這些耳機時,你想要產生愈來愈豐富的體驗——而關鍵是觸覺。」 ReSkin的人工智慧原理-磁場x影像SENSOR打造擬人觸覺 依 Meta AI 的研究科學家古塔(Abhinav Gupta)等人的撰文內容表示,目前希望這樣的觸覺感知能力賦予在 AI  機器人 身上,使其獲得更人性化的互動方式。例如:機器手臂順利地拿起桌上的蛋,而不會施予過度的力道讓蛋破碎。 當研究人員想要賦予機器人觸覺時,首先想到的是能不能也給機器人跟人類一樣的皮膚,讓 機器人 全身都有觸感?紐約大學電腦科學的助理教授 Lerrel Pinto 表示,獲得可信賴的觸覺感知數據,是目前機器技術的重大瓶頸。現有的感應器很昂貴、解析度差且重量不輕,ReSkin 將克服以往的這些問題。 ReSkin感測器-內建磁性顆粒,一摸就生成磁場 由 Meta AI 的合作對象——卡內基梅隆大學打造的 ReSkin 感測元件,可模擬「觸覺」:透過模仿人類皮膚的設計,在接觸其