說到AIGC工具,你還是只知道ChatGPT?
實際上,越來越多的AIGC應用都已經(jīng)不是基于OpenAI的GPT。在文娛領域,歌手“AI孫燕姿”、“AI周杰倫”的翻唱音樂爆火,讓歌手本人都嘆服;在電商領域,AI虛擬人7×24小時念著AI生成的臺本,為企業(yè)賣出百萬貨物;在特殊的課堂上,虛擬教師根據(jù)語音內(nèi)容輸出手語課程,助聾啞人學習知識……這些場景,都成為企業(yè)自研大模型或開源模型的落地領域。
據(jù)美譽度統(tǒng)計,截至5月中旬,全球至少有百款具有代表性的AIGC工具落地應用。從日常辦公到社交媒體,從游戲制作到平面設計,從金融法規(guī)到產(chǎn)品銷售,AIGC工具的角色定位從以往的“觀察+預判”升級為如今的“生成+決策”,推動AIGC落地“奇點”初顯。
▲詞云圖展示了圍繞ChatGPT,其他使用率、提及率較高的AIGC工具
在文本寫作領域,以ChatGPT、文心一言等對話聊天式機器人為首的AIGC工具節(jié)省了人們檢索信息的時間成本,以對話的方式就能完成一系列低效重復性工作,其他寫作類工具還包括Notion AI、騰訊文涌、WPS智能寫作等。
在圖像生成領域,AIGC也顛覆并重塑了以往的繪圖方式,“以文生圖”為創(chuàng)作者提供了風格迥異、源源不斷的靈感來源,在設計領域已掀起一場生產(chǎn)力革命。比如Midjourney、DALL-E等工具,不斷擴展人們想象力的邊界。
在音視頻領域,AI通過對海量源數(shù)據(jù)進行分析,能按照預設風格生成音頻、視頻,既縮短了創(chuàng)作周期,也突破了物理空間和時間的限制。常用工具包括訊飛聽見、MusicLM、Runway Gen-2等。
除以上應用場景之外,還有更為細分的協(xié)同辦公、語言學習、電商直播、編程、數(shù)字人虛擬偶像等場景,都能借助于AIGC技術,從技術層面以低邊際成本、高效率的方式滿足用戶的個性化需求。
更值得一提的是,在釣魚信息不斷涌現(xiàn)、虛假新聞充斥版面的當下,為了將AIGC內(nèi)容與真實內(nèi)容區(qū)分開來,網(wǎng)易、人民網(wǎng)相繼推出了AIGC內(nèi)容檢測工具來對內(nèi)容風險加以控制。國外也有AIGC內(nèi)容檢測相關工具,如專攻文本抄襲檢測Copyleaks、論文查重助手DetectGPT等。
本文分別從七大板塊解讀了100余款AIGC工具,并附網(wǎng)頁鏈接,幫助使用者提高工作生產(chǎn)力。實際上,國內(nèi)外的AIGC工具每天都如雨后春筍般出現(xiàn),因此本文收錄的100款AIGC工具并未完全覆蓋產(chǎn)業(yè),但求在類別和方向上為產(chǎn)業(yè)提供一定參考。
一、AIGC寫作工具:一鍵寫作,生活or辦公場景都適配
文本生成是AIGC最先實現(xiàn)商業(yè)落地的技術之一,也是AIGC發(fā)展至今最成熟的一項技術。如今,AI寫作工具無論是在上下文的理解能力、對常識性知識的抓取能力、對長篇幅文本的生成能力,還是在生成內(nèi)容的完整性、準確性、邏輯性上都有了質(zhì)的飛躍。
AI寫作工具現(xiàn)在主要的落地場景可以大致分為以下三類:
一是應用型文本生成,如據(jù)意查句、反向詞典等,有較為明確的功能使用場景,使用指向性也較為明確。二是創(chuàng)作型文本生成,如Notion AI、WPS智能寫作等,可以用于文本續(xù)寫、內(nèi)容生成等,大多為非結構化寫作,用戶有更大的文本創(chuàng)作空間和自由度。三是對話型文本生成,如文心一言、通義千問、訊飛星火等,具備高交互性的同時對大模型的自然語言理解能力要求也更高。
Notion AI是一款寫作助手,主要功能包括寫作、編輯、總結等,可以自動生成博客文章、會議日程、社交媒體文案、新聞稿、銷售郵件以及詩歌等滿足不同場景需求的文字內(nèi)容。用戶可以讓Notion AI處理某篇文章的初稿,借其獲得更多的寫作思路;或是將它當作一個編輯器,檢查拼寫、語法、翻譯上的錯誤。
該工具目前采取“免費試用+付費”模式,為每位新用戶提供20次免費試用機會,次數(shù)使用完后則需要購買服務,價格為10美元/人/月,折合約68.9元。
網(wǎng)頁鏈接:
https://www.notion.so/product/ai
文心一言是百度開發(fā)的一款聊天機器人,主要功能包括與用戶對話互動、回答問題、協(xié)助創(chuàng)作等,幫助用戶獲取信息、知識和創(chuàng)作靈感,使用場景包括有文學創(chuàng)作、商業(yè)文案寫作、數(shù)理推算、中文解釋、多模態(tài)生成等。
文心一言的優(yōu)勢除了文案生成之外,還包括圖片創(chuàng)作能力、根據(jù)文案自動生成視頻的能力等。
網(wǎng)頁鏈接:
https://yiyan.baidu.com/welcome
通義千問是阿里云自研大模型,目前搭載了9種應用,主要分為效率類、生活類和娛樂類。
(1)效率類,包括寫提綱、SWOT分析、商品描述生成三種應用;
(2)生活類,包括“會放飛的菜譜”、“小學生作文”、“然后呢”三種應用;
(3)娛樂類,包括“彩虹屁專家”、“寫情書”和“為你寫詩”三種應用。
目前,通義千問主要功能包括文案創(chuàng)作、對話聊天、知識問答、邏輯推理、代碼編寫、文本摘要以及圖像視頻理解服務。
網(wǎng)頁鏈接:
https://tongyi.aliyun.com/
訊飛星火是科大訊飛在5月6日推出的一款大模型,具備文本生成、語言理解、知識問答、邏輯推理、數(shù)學、代碼、多模態(tài)這七大維度能力,經(jīng)測評對比發(fā)現(xiàn)其在語言理解和數(shù)學能力上的表現(xiàn)已經(jīng)優(yōu)于ChatGPT。
訊飛星火可以完成多風格、多語言、多任務的長文本生成,還能對英文文案進行語法檢測和糾錯,在語言理解能力上不輸國內(nèi)可測的現(xiàn)有系統(tǒng)。
網(wǎng)頁鏈接:
https://xinghuo.xfyun.cn/?ch=360tg-xh-cy01
5、序列猴子:一只能回答復雜問題的AI猴子
AI公司出門問問推出的大語言模型“序列猴子”,其能力體系以語言為核心,涵蓋“知識、對話、數(shù)學、邏輯、推理、規(guī)劃”六個維度,能夠同時支持文字生成、圖片生成、3D內(nèi)容生成、語音生成和語音識別等不同任務。
序列猴子已經(jīng)有了一定的自然語言理解、知識、邏輯以及推理等能力,對于“湖南和湖北哪一個省會的人口更多?”“天貓背后的公司的創(chuàng)始人本科畢業(yè)于哪個學校?”等這類需要進一步思考的問題,它已經(jīng)能夠快速給出準確結果。
網(wǎng)頁鏈接:
openapi.mobvoi.com
文涌Effidit(Efficient and Intelligent Editing)是由騰訊AI Lab研發(fā)的智能寫作助手,利用AI技術來輔助寫作者發(fā)散思路、豐富表達,并提升文本編輯和寫作的效率,所具備的功能包括有智能糾錯、文本補全、文本改寫、文本擴寫、詞語推薦、句子推薦、生成等功能。
網(wǎng)頁鏈接:
https://effidit.qq.com/
據(jù)意查句是清華大學研究團隊研發(fā)的一款文案處理工具,利用最前沿的AI和自然語言處理(NLP)技術,幫助人們更加方便、快捷地處理閱讀、寫作、文案搜索、查找名人名言等。
用戶只用輸入相關主題詞匯,它就能找出相關的名言、詩句、俗語、成語等。
網(wǎng)頁鏈接:
https://wantquotes.net/
反向詞典和據(jù)意查句同屬清華研究團隊研發(fā),能通過已給出詞語能幫助找到的更加貼切、生動的近義詞,還支持中英雙語同譯和互譯。
網(wǎng)頁鏈接:
https://wantwords.net/
息流是一款專注于為小型組織和個人提供服務的知識管理和協(xié)同辦公軟件,將寫作文檔、知識存儲、多維表格、思維導圖等多種功能集成到一個平臺上,其用戶以高校學生群體為主,占比超過總用戶人數(shù)的1/3。
息流與目前也已與ChatGPT進行了適配,用戶可以使用FlowUS AI來根據(jù)自身需求實現(xiàn)寫作、續(xù)寫、翻譯、潤色等功能。
網(wǎng)頁鏈接:
https://flowus.cn/product
WPS智能寫作是金山辦公推出的一款幫助用戶高效創(chuàng)作的智能寫作產(chǎn)品,主要包括四大功能:文本自動生成、輔助初稿寫作、句子智能補寫、文本智能校對。
其文本數(shù)據(jù)和相關信息來源于權威媒體和政府公開網(wǎng)站,題材覆蓋講話、總結、計劃、新聞等多種寫作場景,并與金山文檔打通,可實現(xiàn)文本云端同步上傳,用戶在線寫作后可以轉到金山文檔進行更加專業(yè)的排版等文檔編輯。
網(wǎng)頁鏈接:
https://aiwrite.wps.cn/#/
英文拼寫檢查工具Grammarly也推出了AI服務GrammarlyGo,它可以根據(jù)用戶輸入的關鍵詞提示來生成郵件草稿,或是幫現(xiàn)有文章更換語氣與文字風格、調(diào)整文章的長度等,并為主題寫作起草大綱。
網(wǎng)頁鏈接:
https://app.grammarly.com/
火山寫作是字節(jié)跳動推出的一款寫作助手,目前已支持全文潤色的AI智能寫作服務,無論是修改論文、潤色簡歷,還是寫留學申請文書、撰寫自媒體文案等20多種寫作場景,火山寫作都能覆蓋。
用戶輸入想要潤色、修改的文本內(nèi)容,點擊“一鍵優(yōu)化”之后,它就能自動識別文本類型、風格以及寫作目的,用戶還能調(diào)整想要修改的幅度,平臺就能基于原文一鍵輸出英文改寫結果,還支持智能糾錯、多樣改寫等AI功能,使語言表達更加地道、簡潔。
網(wǎng)頁鏈接:
https://www.writingo.net
知士問答是一款基于AI技術的智能問答系統(tǒng),用戶可以在知士問答平臺上輸入問題,系統(tǒng)會自動分析問題并給出最佳答案。同時,它也提供了多種交互方式,包括文字輸入、語音輸入等,以滿足不同用戶的需求。
網(wǎng)頁鏈接:
http://zhimachat.com/
除了以上這些較為熟悉的AIGC寫作工具外,還有不少“冷門產(chǎn)品”有待用戶體驗,如Friday AI寫作助手、愛改寫、Claude、創(chuàng)作王、秘塔寫作貓、Subtxt、Writesonic等等。
二、AIGC圖像工具:文生圖不止Midjourney,一鍵實現(xiàn)繪畫自由
2022年可以說是“AI繪畫元年”,多款AI作畫工具在文字提示的幫助下展示出了良好的圖像理解與生成能力。
在GPT-4的助力之下,“文生圖”領域也掀起了新一波競賽浪潮。更迭到V5版本的Midjourney憑借一組情侶寫真火爆全網(wǎng),設計行業(yè)龍頭Adobe也不甘落后,火速推出“螢火蟲(Adobe Firefly)”來一較高低,其一鍵修圖、分層修改等功能造福了廣大設計工作者。如今的AI圖像工具無論在商業(yè)化還是藝術化上較之去年都更為成熟、風格也更為多變。
▲一組由Midjourney自動生成的復古情侶寫真
圖像工具的技術場景可分為圖像生成、圖像局部修改、圖像編輯這三種。
一是圖像生成。以Midjourney、Stable Diffusion、DALL-E 2等為代表的產(chǎn)品主要聚焦于從端到端的圖像生成,能基于一段文本描述或是草圖生成一張具有指定風格的完整圖像,底層技術邏輯明確,能為創(chuàng)作者提供一定的靈感來源與創(chuàng)作參考。
二是圖像編輯。主要功能包括有圖片智能去水印、設置風格濾鏡、修改圖像風格或是提升圖片清晰度等,以Imagen AI、創(chuàng)客貼AI畫匠等產(chǎn)品為代表。
三是圖像局部修改,代表產(chǎn)品為Adobe Firefly。它的主要優(yōu)勢聚焦于更改圖像的部分要素,或是按照圖層來逐層修改調(diào)整,適合于二次創(chuàng)作或是后期的作品完善環(huán)節(jié)。
1、Disco Diffusion:用嘴就能畫畫
Disco Diffusion是一個運行在谷歌云端電腦(Google Colab)上的作圖程序,擁有谷歌賬號的用戶可以直接在瀏覽器上運行,但需要用戶掌握一定的代碼知識。
用戶通過輸入一段描述語句,該程序就能自動渲染生成對應場景的圖片,它更擅長生成風格偏夢境感的抽象畫面,在寫實風格的具象生成和輸入較多文本描述時效果一般。
網(wǎng)頁鏈接:
https://colab.research.google.com/github/alembics/disco-diffusion/blob/main/Disco_Diffusion.ipynb
2、Midjourney:AI“攝影師”
Midjourney是由Disco Diffusion的作者之一推出的一款AI繪畫聊天機器人,搭載在Discord上。在GPT-4推出之后,它也快速更迭到了V5版本。新版本在圖像的逼真度、細節(jié)處理上更加精細,商業(yè)化水準更高,近乎達到了可以“以假亂真”的地步。
之前的版本中,生成圖片的風格多以卡通或是超現(xiàn)實為主,少有寫實風格的圖片,更新到V5版本之后的Midjourney憑借一組真假難辨的情侶寫真迅速出圈,已經(jīng)達到了電影的質(zhì)感,在手部特寫、眼部特寫、光影處理方面更加逼真。
此外,Midjourney V5中用戶可以自定義長寬比,在輸入描述文本時也需要更加詳細的形容詞和情緒、風格、明暗等圖像細節(jié),這要求用戶對于圖像有更主動的把控力和更明確的想象空間。
網(wǎng)頁鏈接:
https://www.midjourney.com/home/?callbackUrl=%2Fapp%2F
3、Stable Diffusion:像素級圖像生成
Stable Diffusion是一款免費、開源的AI圖像生成器,目前最新版Stable Diffusion XL已經(jīng)面向公眾開始測試。
相較之前的版本,新版的SD-XL用戶只需使用較短的描述性Prompt就能生成圖像,圖像的人體結構、細節(jié)處理也更符合現(xiàn)實、更符合大眾審美,生成的肖像圖也更加清晰逼真。
網(wǎng)頁鏈接:
https://stablediffusionweb.com/
4、DALL-E 2:現(xiàn)實主義繪畫大師
DALL-E 2是OpenAI公司推出的一款圖像生成與編輯工具,以優(yōu)秀的生成效果和藝術色彩著稱。用戶只需輸入簡短的Prompt,它就能綜合概念、屬性和風格三個要素,給用戶生成出一張符合需求的現(xiàn)實主義圖像,同時還能具備不同藝術家的繪畫風格。
比如,用戶輸入概念“一只小狗”、屬性“在草地上”和風格“波普藝術家安迪·沃霍爾風格”三個要素,它就能生出符合這三個條件的圖片。該工具的功能還包括圖像編輯、風格變體等。
網(wǎng)頁鏈接:
https://openai.com/product/dall-e-2
5、Imagen AI:生成圖片可以假亂真
Imagen AI是谷歌開發(fā)的一款文本轉圖像的AI工具,可根據(jù)用戶的書面提示輸出人像照片、油畫、CGI渲染等圖像,其圖像真實感更強,對于語言理解的準確性也更高。
網(wǎng)頁鏈接:
https://imagen.research.google/
6、Adobe Firefly:AI作圖+修圖一站搞定
Adobe Firefly是Adobe聯(lián)合英偉達推出的一款AI繪圖工具,目前已實現(xiàn)文本生成圖片、草圖轉換成畫面、一鍵修改畫面內(nèi)容等功能,還可以對自動生成的圖片進行分層修改,輸出超高分辨率的圖像.
網(wǎng)頁鏈接:
https://www.adobe.com/sensei/generative-ai/firefly.html
7、文心一格:支持以圖生圖、圖轉視頻
文心一格是百度旗下一款依托于飛槳、文心大模型技術推出的AI作畫產(chǎn)品。用戶只需輸入自己的創(chuàng)意文字,并選擇好期望的圖片風格,就能獲取一張由文心一格生成的畫作,還可以自行選擇畫面類型、圖片比例、單次生成的圖片數(shù)量等。目前,文心一格已支持如油畫、水彩、動漫、寫實等十余種不同風格圖像。
網(wǎng)頁鏈接:
https://yige.baidu.com/
8、阿里鹿班Luban:電商作圖神器
鹿班是由阿里巴巴智能設計實驗室自主研發(fā)的一款圖像設計產(chǎn)品?;贏I圖像生成技術,鹿班可以在短時間內(nèi)完成大量Banner圖、海報圖和會場圖的設計。用戶只需任意輸入想達成的風格、尺寸,鹿班就能代替人工完成素材分析、摳圖、配色等耗時耗力的設計項目,實時生成多套符合要求的設計解決方案。
在2017年“雙11”大促中,鹿班每秒生成8000張海報,期間共生出4億張產(chǎn)品海報,刷新了人們對AI作圖能力的認知。
網(wǎng)頁鏈接:
https://luban.aliyun.com/
9、創(chuàng)客貼AI畫匠:不會繪圖也能當設計師
創(chuàng)業(yè)設計平臺創(chuàng)客貼推出了人工智能繪畫產(chǎn)品AI畫匠,并上線“文生圖”和“圖生漫”兩大常用功能場景。
在“文生圖”場景下,用戶只需輸入簡單的需求文本,選擇好自己想要的繪畫風格,就能一鍵生成目標圖像,現(xiàn)有風格包括古風、油畫、彩繪、漫畫、CG等。
在“圖生漫”場景下,用戶僅需上傳目標圖片,并輸入簡單的文字指引就能得到一張定制化的手繪圖片,其功能還包含邊緣檢測、線稿上色、姿勢檢測等4種功能。
網(wǎng)頁鏈接:
https://aiart.chuangkit.com/show
三、AIGC音頻工具:可變聲、可克隆、可降噪
除了文本、圖像等應用場景之外,音頻也是我們會在日常生活中接觸面較廣的應用場景。短視頻中的人聲變音、語音合成,以及克隆等都是AIGC在音頻領域的熱門研究技術,還包括動畫、電影、游戲中的人物配音工作等如今都可以由AI來完成。微軟、谷歌等科技公司也都推出了自己的Text-to-Speech(文本轉語音)服務。
AI音頻工具按照功能屬性的不同可劃分為兩種:一是以So-Vits-Svc、Adobe Podcast AI Voice、魔音工坊等為代表的聲音處理工具,通過AI技術來修音、提高音頻質(zhì)量或是轉換音色等;二是以MusicLM、網(wǎng)易天音、Aiva等代表的音樂制作工具,可實現(xiàn)更加細分領域的“文本轉音樂”功能。
1、So-Vits-Svc:打造全網(wǎng)爆火“AI孫燕姿”
“AI孫燕姿”一夜之間火爆全網(wǎng),由她“翻唱”的《發(fā)如雪》《下雨天》等歌曲在嗶哩嗶哩中播放量破百萬,而這些歌曲正是由UP主們通過開源項目So-Vits-Svc制作而成。
這款模型使用SoftVC內(nèi)容編碼器來提取真人歌手的源音頻語音特征,然后將其傳輸進VITS語音合成模型當中,讓歌手原聲被保留下來。類似的“AI歌手”還有AI周杰倫、AI許嵩、AI王心凌等。
除了模擬知名的歌手嗓音之外,還能基于電話錄音、錄像視頻等素材來模擬大量真人聲音,之前也有UP主利用該模型與逝者進行對話。但由于該項目被越來越多人濫用,作者已刪除了項目。
2、Adobe Podcast AI Voice:專業(yè)播客音頻處理
Adobe Podcast AI Voice是Adobe推出的一款由AI驅(qū)動的音頻增強器,能利用AI來提高博客音頻錄制的質(zhì)量。
用戶在登錄Adobe帳號之后,上傳好需要進行降噪處理的音頻文件,AI便會自動處理音頻文件,達到滿意的音頻播放效果之后,用戶就能直接下載到電腦上自由使用。
網(wǎng)頁鏈接:
https://podcast.adobe.com/enhance
3、MusicLM:會唱歌的AI模型
MusicLM是谷歌發(fā)布的一款全真生成式AI模型,通過該模型,可以由文字直接生成高保真度的音樂。除了文字之外,無論是哼唱、演唱、敲擊、樂器演奏等,MusicLM都可以在這些既有旋律上創(chuàng)建音樂,并保證音樂不失真。
其最大亮點在于根據(jù)一到兩個提示詞就能生成一段5分鐘的完整曲目,風格多樣,包括電子樂、爵士樂、藍調(diào)、Pop等。歌曲長度也可提前設定好,比如一首5分鐘的完整曲目或是一個十幾秒的哼唱片段。
此外,它還能生成由特定的樂器演奏的曲段,連演奏者的演奏水平高低也可以設定,還能根據(jù)時代特色、演奏地點等創(chuàng)作音樂,例如用戶可以輸入“具有90年代風格的、由管風琴在海邊演奏的流行音樂”。
MusicLM在長達28萬個小時的音樂數(shù)據(jù)庫中訓練出來,無論是何種風格、情感的歌曲對它而言都不在話下。
網(wǎng)頁鏈接:
https://google-research.github.io/seanet/musiclm/examples/
4、訊飛聽見:隨時隨地語音轉文字
訊飛聽見是科大訊飛旗下的一款智能語音產(chǎn)品,依托于科大訊飛的自然語言處理、聲紋識別和語音識別等語音技術,訊飛聽見可滿足用戶在多種場景下的語音需求,適用場景涵蓋會議記錄、授課演講、媒體訪談、個人寫作等不同場合。
其優(yōu)勢功能還包括為視頻添加雙語字幕、多語種同傳翻譯、為視頻會議生成字幕等,幫助用戶跨越語言障礙,方便溝通協(xié)作。
網(wǎng)頁鏈接:
https://www.iflyrec.com/
5、網(wǎng)易天音:詞曲編唱一站完成
網(wǎng)易天音是網(wǎng)易出品的一款AI編曲音樂創(chuàng)作系統(tǒng),能進行AI音樂在線創(chuàng)作。其最大優(yōu)勢在于音樂創(chuàng)作門檻低,用戶能在短時間內(nèi)根據(jù)指引完成一首原創(chuàng)音樂的編曲。
天音的工作臺中包括了多個具體的音樂風格,包括流行、民謠、電子、國風等,支持用戶從零開始創(chuàng)作一組自己的和弦,也支持將預設好的和弦拖進編輯段落當中,對全曲進行增減、復制、調(diào)整段落等編輯,全部編輯完成后會進行自動渲染,稍微等待就能得到一首自己創(chuàng)作的原創(chuàng)編曲。
網(wǎng)頁鏈接:
https://tianyin.music.163.com/#/
6、魔音工坊:影視解說大V必備利器
魔音工坊是由AI公司出門問問推出的AI語音系列產(chǎn)品,用戶能夠狗高效便捷地億AI語音技術模擬出具有個人特色的真人語音,進行AI音頻內(nèi)容創(chuàng)作,讓文字一鍵轉換為真人語音。
用戶在界面中快速導入要合成聲音的文章,通過與文檔類似的操作頁面來進行在線編輯,就能便捷實現(xiàn)文檔轉音頻。編輯頁面中的功能包括有:重音標注,多音字、易錯字標注,添加背景音,多人混合配音,變速,韻律等多種不同的功能。
對于喜歡科技、財經(jīng)等領域的用戶,魔音工坊還在后臺中添加了多家相關企業(yè)CEO的AI聲音模型,讓熟悉他們的用戶能用他們的聲音來制作音頻內(nèi)容。
網(wǎng)頁鏈接:
https://www.moyin.com/?promottype=360__mygf1
7、Fake You:聲音也能偽造
FakeYou是一個使用深度偽造技術生成不同語言和聲音的文本到語音的音頻剪輯工具,用戶可以使用自己喜歡的人物角色的聲音來創(chuàng)建音頻,還提供了AI文本轉語音功能。
當用戶輸入一段想要生成的文字并選擇好想要誰來念出這段文字,再點擊“說話”按鍵,一段由目標人物“說”出的語音就自動生成出來了。
網(wǎng)頁鏈接:
https://fakeyou.com/
8、LyricStudio:AI幫你寫歌詞
LyricStudio是一款歌詞在線制作工具,能幫助用戶生成一篇模仿自己的風格的原創(chuàng)歌詞,還能為某個特定詞匯找到韻腳。用戶可以上傳一段文本描述或是音樂片段,它就能將其轉換為與內(nèi)容相符的歌詞。
據(jù)其官網(wǎng)數(shù)據(jù)顯示,該工具目前已經(jīng)協(xié)作完成了100多萬首歌曲的創(chuàng)作,平臺中15%的用戶是專業(yè)的音樂制作人。說唱歌手Curtiss King在iTunes排行榜上排名第一的專輯歌詞就是由LyricStudio協(xié)助完成的。
網(wǎng)頁鏈接:
https://lyricstudio.net/
9、LALAL.AI:一鍵提取樂器聲
LALAL.AI是一款在線音樂分離工具,可以從音樂中分割并提取人聲和樂器聲。
其在線音樂分離技術完全基于機器學習和人工智能,在之前的版本之前還只能分割人聲,目前已能做到從音視頻文件中精確提取出人聲、電吉他、原聲吉他、鋼琴、鼓、貝斯等多種樂器的音軌。
網(wǎng)址:
https://www.lalal.ai/
10、Aiva:AI音樂制作人
Aiva是AI音樂公司“Aiva”自研的同名AI音樂工具,用戶能通過AI技術輔助音樂人制作、編寫原創(chuàng)音樂,平臺覆蓋多種不同風格,比如古典、搖滾、電音、流行、國風、藍調(diào)、嘻哈等。在自動作曲頁面,有11種曲風可供用戶選擇,還包括Key Signature曲調(diào)、Time Signature節(jié)拍、Pacing速率、Instrumentation樂器、Duration時長等。
Aiva還通過深度學習,對莫扎特、巴赫、貝多芬等多位音樂家的代表作品、音樂風格進行了學習,基于這些音樂特征建立了學習模型,從而幫助音樂人創(chuàng)作出樂曲。同時,Aiva也是史上第一位被認證的AI作曲家,曾發(fā)表過5張專輯。
網(wǎng)頁鏈接:
https://www.aiva.ai/
11、Supertone:一款變聲神器
Supertone是一家韓國的AI創(chuàng)意聲音工作室,提供語音合成和實時語音增強技術,幫助用戶輕松創(chuàng)建各種類型的聲音內(nèi)容,包括簡單的文本閱讀到藝術作品、歌曲等,可以讓用戶通過變聲等方式來減輕對個人信息問題的擔憂。
Supertone還提供了一種被稱為“VoicePrint”的技術,可以將用戶的語音轉換為數(shù)字指紋,以此與其他用戶的聲音區(qū)別開來。
網(wǎng)頁鏈接:
https://supertone.ai/
四、AIGC視頻工具:自動剪輯、生成分鏡功能來了
文生圖如今已成為主流的AIGC技術,但文本生成視頻目前還只是初露頭角。
紐約的AI初創(chuàng)公司Runway開發(fā)出一款生成視頻模型Gen-2,可以通過一句簡單的描述生成一個高度復合的視頻。其他公司也紛紛加入其中,如圖像編輯平臺美易PiscArt推出的的Text2Video-Zero、Video-P2P和TemporalNet,以及阿里研發(fā)的Text-to-video等,文本生成視頻在不久后或許也將進入競爭白熱化階段。
1、Deepfakes:AI視頻換臉
Deepfakes(深度偽造)如今已成為AI合成視頻的代名詞。微軟推出FaceShifter,可以將一張模糊不清的原始圖像處理后成為清晰可信的偽造畫面;迪士尼與蘇黎世聯(lián)邦理工大學聯(lián)合研發(fā)推出了百萬像素級Deepfakes視頻制作工具,并在《星球大戰(zhàn)》系列電影中,利用Deepfakes讓已故演員重返大熒幕。
但由此引發(fā)的安全隱患也接踵而來,對于一些高清且光線極為自然的視頻,甚至連再精密的Deppfakes算法都無法準確識別出來。
于是早在2020年美國大選時,F(xiàn)acebook就已宣布平臺全面禁止使用Deepfakes,YouTube、TikTok也不例外,明確禁止在視頻中違規(guī)使用Deepfakes技術。我國2021年開始實施的《民法典》中也指出,各大視頻平臺需要對AI換臉視頻內(nèi)容進行嚴格限制,不得在未經(jīng)允許的情況下隨意使用。
2、Runway Gen-2:30秒生成電影大片
Gen-2是初創(chuàng)公司Runway推出的一款從端到端的Transformer模型,用戶能以圖片和文字為條件,從零開始生成一個原創(chuàng)的慢風格視頻。
它所生成的視頻分辨率高達1280×720,時長約為30-60秒,目前可以實現(xiàn)以下幾種功能:生成視頻、生成圖像、根據(jù)文字提示無限制擴展圖像、混合圖像風格、訓練AI模型、刪除視頻中的某個元素、扣除背景等。
近日,Runway推出了其第一款手機應用程序,利用Gen-1模型,用戶可以在手機端上傳文本、圖片或是視頻,讓模型根據(jù)內(nèi)容來轉換視頻的風格。
網(wǎng)頁鏈接:
https://research.runwayml.com/gen2
3、Make-A-Video:文本直接轉視頻
2022年9月,Meta就推出了自家的文本轉視頻軟件“Make-A-Video”,用戶輸入幾個簡單的單詞描述之后,軟件就會制作出一段無聲的視頻。
在官方的演示視頻中,用戶輸入“一對年輕夫婦在大雨中行走”“一直正在畫肖像的泰迪熊”等文本描述,就能得到一段幾秒鐘的視頻。此外,Make-A-Video還能將靜態(tài)的圖片動畫化,這種能力基于“文生圖”技術之上。
官方稱,模型采用圖像合成數(shù)據(jù)和未經(jīng)標記的視頻來進行訓練,模型在學習之后能夠“預測”圖像接下來會發(fā)生什么、移動到哪個位置,并在極短的時間內(nèi)移動到圖像將會出現(xiàn)的位置,以此構成一個短視頻。
網(wǎng)頁鏈接:
https://makeavideo.studio/
4、商湯智影:短視頻達人寶藏神器
商湯科技推出了商湯智廣一站式廣告營銷平臺,其中包括短視頻創(chuàng)作引擎“商湯智影”,該工具可一鍵生成創(chuàng)意短視頻,包括腳本生成、背景替換、橫豎屏替換、生成字幕等短視頻廣告生產(chǎn)的多種服務,能幫助廣告主節(jié)約廣告內(nèi)容制作成本。
商湯智影中包括的“視頻元素分析”服務,能夠通過AI視頻結構化技術,對短視頻中每一個鏡頭的長度、景別、場景、人物、道具以及臺詞等信息進行分析和提取,并自動創(chuàng)作一個分鏡頭腳本,大大減少了腳本撰寫的時間,有效輔助創(chuàng)作者進行二次創(chuàng)作。
此外,平臺上還提供了大量爆款視頻的腳本,為創(chuàng)作者提供創(chuàng)作靈感。
網(wǎng)頁鏈接:
https://www.sensetime.com/cn/product-index
5、Decoherence:圖片一鍵生成視頻
Decoherence是一款用于創(chuàng)建AI視頻的工具,用戶能從各種AI風格中進行選擇。
網(wǎng)頁鏈接:
https://www.decoherence.co/
6、騰訊智影:短視頻創(chuàng)作神器
“騰訊智影”主要面向短視頻創(chuàng)作者,其特色功能為正版版權素材和數(shù)字人播報。用戶可以通過上傳照片和文本,生成一段數(shù)字人視頻。用戶還可搭配智能AI配音功能來使用,為數(shù)字人選擇不同的音色。
網(wǎng)頁鏈接:
https://zenvideo.qq.com/activity/invitee?invitation_code=ongrFrCWsXiQuELe&
五、AIGC辦公工具:AI+OA實現(xiàn)一鍵“從無到有”
3月17日,微軟正式發(fā)布Microsoft 365 Copilot,將GPT-4與ChatGPT的能力融進Office辦公工具當中,并推出了集成Office 365數(shù)據(jù)的Business Chat功能,提升了數(shù)字化辦公水平,將員工從低效、重復性勞動中解放出來。
金山辦公作為國內(nèi)協(xié)同辦公領域的龍頭企業(yè),也在短短一個月后推出了具備大語言模型能力的生成式辦公平臺“WPS AI”,成為國內(nèi)協(xié)同辦公賽道的首個類ChatGPT應用。此外,百度、字節(jié)跳動、釘釘?shù)绕髽I(yè)也接續(xù)推出自家的AI協(xié)同辦公工具。
OA(辦公自動化Office Automation)應用系統(tǒng)如今逐步發(fā)展成熟,它作為連接員工和企業(yè)的橋梁,未來或?qū)⒊蔀榇笳Z言模型在B端生態(tài)的入口。
除了協(xié)同辦公領域之外,AI工具還可應用更多垂直化場景中,與更多實際需求相結合,如“AI+語言學習”就有了DuolinguoMax,“AI+電商帶貨”誕生出智能版電商網(wǎng)站Shopify、電商營銷工具eCommerce Prompts等,“AI+編程”則讓GitHub Copilot X成為開發(fā)者們的得力助手,“AI+思維導圖”則有了能用一句描述生成一幅思維導圖的Chatmind。
1、Microsoft 365 Copilot:Gpt-4版微軟全家桶
Microsoft 365 Coplilot在3月17日凌晨緊隨GPT-4而來,包括Word、Excel、Powerpoint、Outlook、Teams等在內(nèi)的Office辦公軟件全部上線生成式AI功能。
在Word中,Copilot只需要一句簡單提示就能創(chuàng)建出一個初稿,還能根據(jù)用戶的需要來調(diào)整的文章的語氣,比如專業(yè)嚴肅的、熱情隨意的等,還能自動刪去文章中一樣的地方,進行進一步簡化。
Excel中的Copillot可以幫助用戶分析數(shù)據(jù),能直接進行數(shù)據(jù)趨勢分析并將數(shù)據(jù)分析結果可視化。
更神奇的是,Powerpoint已經(jīng)能直接生成一份PPT了,Copilot能將一份已有的文檔直接轉換為包含標記資料來源的PPT。如果用戶覺得PPT太冗長,也能直接用文本描述來一鍵壓縮、調(diào)整布局或是格式化文本。
Outlook中的Copilot可以幫用戶按照一定依據(jù)來分類郵件,總結提煉長郵件中的主題,將幾個關鍵詞或是草稿轉寫為正式郵件。
網(wǎng)頁鏈接:
https://blogs.microsoft.com/blog/2023/03/16/introducing-microsoft-365-copilot-your-copilot-for-work/
2、Google Workspace:科技+辦公=打工人神器
Google Workspace是包括Docs、Slides、Sheet和Gmail等辦公工具在內(nèi)的谷歌工作臺,谷歌在3月時宣布將AI集成到這些工具組件當中。在接入生成式AI模型之后,用戶將能通過輸入簡短的文本描述,在這些工具幫助之下創(chuàng)建一份內(nèi)容完整的電子郵件、商業(yè)計劃書或是廣告營銷費用表等。
在Docs中,生成式AI可以幫助用戶起草文本初稿、文字潤色修改、校對糾錯;Gmail能對郵件進行回復總結、重要事項標注等;Slides可以根據(jù)主題自動生成圖像、音視頻插入到模板當中;Sheet能自動進行數(shù)據(jù)處理、表格整理、上下文分類,甚至是原始數(shù)據(jù)分析等工作。
目前,谷歌采用彈性付費方案,分為基礎的商務新手版、商務標準版和商務Plus版,允許用戶根據(jù)自己的實際需求來進行訂閱。
網(wǎng)頁鏈接:
https://workspace.google.com/blog/product-announcements/generative-ai
3、百度如流:AI+知識管理
百度如流在去年年底推出了面向企業(yè)服務市場的“如流智能工作平臺2.0”,包括了智能知識管理、智能會議、智能工作臺三大智能化產(chǎn)品矩陣。
在智能知識管理中,包含有“智能知識庫”、“搜索推薦雙引擎”和“知識星鏈”三大知識管理應用,把散落在各處的文檔、郵件、筆記等文件集合在一處,員工能以最便捷的方式搜尋到所需的文件和知識。
智能會議則把員工、空間和設備智能化連接起來。會前,如流會議助手能幫忙查看參會人時間安排、預約最佳會議時間、發(fā)送參會資料;會中,如流助手能記錄參會者發(fā)言并實時語音轉文字,標記重點信息;會后,會議助手會自動生成會議待辦,方便員工回溯會議重點。
智能工作臺中集合了不同的工作卡,讓任務系統(tǒng)變得更加靈活清晰,還根據(jù)不同崗位員工匹配了不同的工作卡。比如,HR工作臺中嵌入了面試助手、招聘管理等模塊工作卡;管理者工作臺中包括效率跟蹤、協(xié)同分析、流程管理三個維度的工作卡,為管理者提供團隊任務數(shù)據(jù)。
網(wǎng)頁鏈接:
https://infoflow.baidu.com/#/
4、釘釘斜杠“/”:魔法棒一鍵生成小程序
在通義千問大模型面世的一周之后,釘釘宣布正式接入。接入千問大模型之后,用戶只需要用一根“/”斜杠就能進行智能化辦公。主要的使用場景包括群聊、文檔、視頻會議和小程序開發(fā)。
在群聊中,新加入者只用在對話框中輸入“/”就能得到群聊上下文要點,斜杠還能對重要會議生成待辦事項、預約日程、制作表情包等。
在一對一聊天中,用戶可以直接用斜杠創(chuàng)建一個聊天機器人來讓它自動學習知識并回答問題。
在文檔中,斜杠能自動生成各種風格的文案、海報;視頻會議中,斜杠能一鍵總結會議要點、待辦事項等。
此外,斜杠最出乎意料的功能在于用自然語言生成小程序,并以“釘釘酷應用”的形式在群里使用。
5、金山辦公WPS AI:AI代筆寫文檔
在釘釘宣布接入大模型、上線智能辦公助手“/”的同一日,國內(nèi)辦公軟件龍頭企業(yè)金山辦公也官宣了“WPS AI”的問世。其底層大模型由MiniMax提供,目前包括內(nèi)容生成、多輪對話、內(nèi)容優(yōu)化等多種功能,未來有可能進化為國內(nèi)版“Microsoft 365 Coplilot”,全面嵌入到WPS套件當中。
網(wǎng)頁鏈接:
https://www.wps.cn/learning/article/detail/id/332552
6、飛書My AI:字節(jié)跳動版行政助理
4月11日,字節(jié)跳動旗下辦公平臺飛書也推出了智能AI助手“My AI”。其功能包括自動總結會議紀要、創(chuàng)建報告、續(xù)寫并優(yōu)化文字內(nèi)容等,在飛書中,My AI也能通過對話形式幫助用戶來創(chuàng)建日程、搜索公司內(nèi)部知識庫等。但目前My AI仍在推進中,公測及上線時間仍未公布。
網(wǎng)頁鏈接:
https://www.feishu.cn/product/ai
7、Shopify:AI秒變電商客服
3月1日,ChatGPT宣布開放API之后,跨境電商服務平臺Shopify率先集成。集成ChatGPT后的Shopify能用智能客服與用戶進行溝通,幫助消費者進行個性化推薦、節(jié)省購買時間;ChatGPT還為平臺商品進行評論數(shù)據(jù)分析、標題以及關鍵詞優(yōu)化、營銷文案撰寫、網(wǎng)站智能開發(fā)編程等多項功能,幫助提升電商網(wǎng)站運營效率和優(yōu)化消費者購買體驗。
網(wǎng)頁鏈接:
https://www.shopify.com/sg
8、eCommerce ChatGPT Prompts:電子商務提示師
網(wǎng)頁鏈接:
https://www.ecommerceprompts.com/
9、GitHub Copilot X:編程小白也能寫代碼
在微軟推出新版Bing搜索引擎、Edge瀏覽器和Office全家桶之后,旗下代碼托管平臺GitHub也發(fā)布了Copilot X,將ChatGPT引入集成開發(fā)環(huán)境當中,即使是零代碼基礎的用戶也能靠“動動嘴”寫出代碼。
在GitHub Copilot Chat當中,用戶可以在一個聊天窗口中給它發(fā)出寫代碼的指令,對于那些運行異常的代碼,它能直接找到Bug(錯誤)所在并進行修改;在GitHub Copilot Voice中,甚至能實現(xiàn)從語音到代碼一步到位,開發(fā)者直接說話給出自然語言指令,它就能生成相關代碼。
除了以上功能之外,如果用戶對某一行代碼存在不懂的地方,只需在Chat中讓Copilot來解釋代碼的作用。
網(wǎng)頁鏈接:
https://github.com/features/preview/copilot-x
10、Fireflies:會議紀要輕松解決
網(wǎng)頁鏈接:
https://fireflies.ai/
11、飛書妙記:千言轉文字,一字勝千言
網(wǎng)頁鏈接:
https://www.feishu.cn/product/minutes
六、AIGC生活工具:下廚房、記筆記、做旅游攻略,讓AI成為生活管家
除了文本生成、音視頻編輯等應用性較強的AI工具外,在生活上也涌現(xiàn)出各種AIGC新產(chǎn)品。
比如幫助每天為吃什么頭疼的用戶生成菜譜的ChefGPT,為獵頭們提供優(yōu)質(zhì)人才履歷的AI招聘工具Dover Autopilot,能一邊看視頻一邊記筆記的BibiGPT,能生成睡前小故事的Bedtime Story AI,按照個人喜好進行推薦電影片單的WatchNow等,全智能化生活已經(jīng)不再是科幻片中才有的情節(jié),AI全面進入到我們的日常之中。
1、BibiGPT:大學生友好工具,實現(xiàn)視頻一鍵轉筆記
視頻太長無法總結關鍵點?邊看視頻邊記筆記太匆忙?基于ChatGPT開發(fā)的音視頻總結軟件BibiGPT很好地解決了這些難題,對于Bilibili、Youtube上的視頻,BibiGPT可以一鍵總結關鍵內(nèi)容,用戶只需要將自己訪問的視頻鏈接粘貼在搜索框上,點擊“一鍵總結”,就能得到一份視頻總結筆記。
網(wǎng)頁鏈接:
https://b.jimmylv.cn
2、Dover Autopilot:AI招聘軟件
Dover Autopilot是一款自動化招聘工具,招聘者只需輸入簡單的工作描述鏈接,它就能通過LinkedIn等求職網(wǎng)站的數(shù)據(jù)源在幾分鐘之內(nèi)找到與崗位需求相匹配的求職者,還能自動生成針對候選人的個性化電子郵件。
網(wǎng)頁鏈接:dover.com/start
3、ChefGPT:美食小白的食譜百科書
這是一款AI食譜推薦工具,當用戶輸入手上現(xiàn)有的食材和工具,以及預留的做飯時間,它就能推薦出一款滿足需求的食譜。
頁面中包含兩種模式,一是美食家模式,二是全選模式。美食家模式對于用戶自主能力有更高的要求,需要用戶對食材和廚具進行挑選后再輸入到網(wǎng)頁中,而全選模式則對“廚房小白”更為友好,不用動腦就能得到一份符合實際需求的食譜。
網(wǎng)頁鏈接:
https://www.chefgpt.xyz/pantryChef
4、Journeai:背包客的出游指南
Journeai是一款基于AI的聊天旅行顧問,旨在為用戶創(chuàng)建個性化的旅行路線,能根據(jù)用戶喜好生成行程,包括活動安排和旅游伙伴,還附帶谷歌地圖導航功能,用戶可以在地圖上進行實地探索。
這款工具既適合需要定制個性化旅程安排的度假人士,也適合用來輔助旅行社提升用戶體驗。
網(wǎng)頁鏈接:
https://journeai.com/
七、AIGC內(nèi)容檢測工具:打假AIGC,領跑內(nèi)容鑒別新賽道
隨著AIGC技術發(fā)展步入快車道,也造成大量的虛假信息、文本抄襲、學術造假、版權糾紛等不良影響與相關負面事件。未知的安全爭議無可回避,這就需要開發(fā)出相關技術來進行檢測和篩查。
目前市面上已出現(xiàn)的AIGC內(nèi)容檢測工具雖然數(shù)量不多,但已經(jīng)可以對生成文本、圖片、聲音等AIGC內(nèi)容進行精準區(qū)分,比如已開始公測的國內(nèi)首款AIGC內(nèi)容檢測工具AIGC-X、國際反剽竊檢測系統(tǒng)CrossCheck等。
Copyleaks是目前全球最流行的AI內(nèi)容檢測工具之一,最突出的優(yōu)勢就在于除了檢測英文內(nèi)容外,還能檢測西班牙語、法語等其他語種編寫的內(nèi)容。對于全篇都由AI生成的文本,Copyleaks可以達到99.99%的識別準確度,但對于真假參半的文本內(nèi)容,它會將其標記為人工生成文本。
網(wǎng)頁鏈接:
https://github.com/Copyleaks
人民日報旗下專注于內(nèi)容風控業(yè)務的人民網(wǎng)信息技術公司,開發(fā)了國內(nèi)首款AI生成內(nèi)容檢測工具AIGC-X,該工具可以用來區(qū)分機器生成文本與人工生成文本,能對AI技術生成的假新聞、內(nèi)容抄襲、垃圾郵件等進行檢測、篩查,尤其可以在虛假信息、學術造假、網(wǎng)絡釣魚等灰色領域提供技術支撐。
但AIGC-X目前還只支持對于中文內(nèi)容的檢測,對圖像、音視頻等內(nèi)容的檢測能力尚待提高。
網(wǎng)頁鏈接:
http://ai.sklccc.com/AIGC-X/#/
3、 DetectGPT:反偵察工具,造假作弊現(xiàn)象在劫難逃
零樣本的檢測工具DetectGPT由美國斯坦福大學研究團隊研發(fā),主要用于打擊高校中普遍存在的論文生成現(xiàn)象。題為《DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature”》的研究論文已發(fā)表在預印本網(wǎng)站arXiv上。
這款檢測工具提出了一種用于判別大語言模型生成文本的新指標,它只用掃描上傳到網(wǎng)頁當中的內(nèi)容就能判斷文中是否有內(nèi)容是使用大語言模型生成的。
網(wǎng)頁鏈接:
https://detectgpt.ericmitchell.ai/
4、網(wǎng)易網(wǎng)盾:敏感詞精準檢測
網(wǎng)易網(wǎng)盾基于網(wǎng)易公司多年的行業(yè)經(jīng)驗積累,針對文本垃圾特點,提供個性化匹配模型及定制檢測方案,支持檢索多類型、多語言垃圾文字及敏感詞、違禁變種等服務,對于文本信息中包含為第三方導流的內(nèi)容還會自動過濾篩除。
網(wǎng)頁鏈接:
https://dun.163.com/trial/text
5、數(shù)美智能文本檢測:風險文本迅速識別
數(shù)美利用全棧式智能內(nèi)容識別引擎,可以有效識別各類場景中敏感、違禁、色情、暴恐、辱罵、廣告導流等風險文本內(nèi)容,幫助用戶進一步鑒別風險信息。目前,數(shù)美已經(jīng)能自動檢測175種海外語種,支持英語、阿語、泰語、印尼語等18種主流語種的風險標簽識別。
網(wǎng)頁鏈接:
https://www.ishumei.com/new/product/tj/text
結語:AIGC掀起全領域生產(chǎn)力革命,成為創(chuàng)作者的Copilot
AIGC賽道擠得火熱,除了寫作、圖像生成、影音編輯、辦公助手、內(nèi)容檢測等以上幾方面之外,還有更多細分領域等待被開掘。
如今,AI正大步跨進數(shù)字內(nèi)容生產(chǎn)領域,除了在寫作、問答、繪畫、百年城等方面能與專業(yè)人士媲美之外,更是展示出了大語言模型的強大理解能力。但它始終只能作為“Copilot(副駕駛/助手)”來協(xié)助人類作出決策,輔助創(chuàng)作者持續(xù)生產(chǎn)、迭代創(chuàng)意,而不會取代那些真正具有價值性的工作。