美譽(yù)度品牌管理
美譽(yù)度11月29日?qǐng)?bào)道,今天,AICC 2023人工智能計(jì)算大會(huì)上,北京市公布了大模型應(yīng)用、算力基礎(chǔ)設(shè)施、中文數(shù)據(jù)集三方面的重磅新成果!
1、《北京市人工智能行業(yè)大模型創(chuàng)新應(yīng)用白皮書(2023年)》(以下簡(jiǎn)稱《白皮書》)發(fā)布,調(diào)研六大領(lǐng)域近百家企業(yè)的大模型應(yīng)用,為大模型產(chǎn)業(yè)應(yīng)用落地提供參考;
《白皮書》鏈接:https://kw.beijing.gov.cn/art/2023/11/29/art_6382_724110.html
2、海淀區(qū)北京人工智能公共算力平臺(tái)點(diǎn)亮,與智譜華章、紫東太初等首批入駐大模型企業(yè)簽約;
3、“中文互聯(lián)網(wǎng)語(yǔ)料庫(kù)”首期104GB數(shù)據(jù)公開,數(shù)據(jù)集時(shí)間跨度為2001年1月至2023年11月。
智源開放數(shù)據(jù)倉(cāng)庫(kù)下載地址: https://data.baai.ac.cn/details/BAAI-CCI
HuggingFace下載地址:https://huggingface.co/datasets/BAAI/CCI-Data
國(guó)際數(shù)據(jù)調(diào)研機(jī)構(gòu)IDC和算力龍頭企業(yè)浪潮信息聯(lián)合發(fā)布的《2023-2024年中國(guó)人工智能計(jì)算力發(fā)展評(píng)估報(bào)告》提到,中國(guó)人工智能計(jì)算力發(fā)展評(píng)估城市排行榜的前五名為北京、杭州、深圳、上海、蘇州,且北京連續(xù)六年排名第一。
從大模型產(chǎn)業(yè)的發(fā)展情況來(lái)看,北京市目前在人工智能創(chuàng)新算力基礎(chǔ)、人才資源、研發(fā)能力方面都有較大優(yōu)勢(shì),且人工智能核心企業(yè)數(shù)量、算力基礎(chǔ)設(shè)施規(guī)模、備案大模型數(shù)量位居全國(guó)第一。
此次發(fā)布的一系列重磅成果,正是北京市面向大模型產(chǎn)業(yè)發(fā)展在算力、數(shù)據(jù)、應(yīng)用落地等核心痛點(diǎn)的有利突破。創(chuàng)新成果從北京市大模型企業(yè)的實(shí)際案例出發(fā),為企業(yè)創(chuàng)新發(fā)展提供一定的借鑒參考,并從政策層面為產(chǎn)業(yè)生態(tài)提供支撐。
此前,北京市已經(jīng)發(fā)布了一系列人工智能相關(guān)的政策,如《北京市加快建設(shè)具有全球影響力的人工智能創(chuàng)新策源地實(shí)施方案(2023-2025年)》、《北京市促進(jìn)通用人工智能創(chuàng)新發(fā)展的若干措施》、《人工智能算力券實(shí)施方案(2023—2025年)》,這些都已經(jīng)成為北京市人工智能產(chǎn)業(yè)加速發(fā)展的重要保障。
一、北京大模型約占全國(guó)一半,行業(yè)應(yīng)用四大特點(diǎn)凸顯
距離2022年11月30日ChatGPT發(fā)布已經(jīng)一年,大模型帶來(lái)的技術(shù)革新熱度不減,與此同時(shí),大模型產(chǎn)業(yè)的眾多參與者已經(jīng)將目光從算力投向應(yīng)用落地。
從國(guó)內(nèi)的大模型產(chǎn)業(yè)發(fā)展來(lái)看,北京市已經(jīng)成為國(guó)內(nèi)人工智能領(lǐng)域創(chuàng)新基礎(chǔ)、人才資源、研發(fā)能力都有明顯優(yōu)勢(shì)的城市之一。根據(jù)《白皮書》,2022年北京市人工智能核心產(chǎn)值規(guī)模達(dá)2170億元,核心企業(yè)數(shù)量已經(jīng)超過(guò)1800家,截至2023年10月,我國(guó)10億參數(shù)規(guī)模以上的大模型廠商及高校院所共計(jì)254家,北京擁有其中122家,約占全國(guó)的一半。
與此同時(shí),大模型應(yīng)用落地加速之際,北京市眾多產(chǎn)業(yè)玩家已經(jīng)在政務(wù)、金融、醫(yī)療等領(lǐng)域?qū)崿F(xiàn)落地,并且其布局特點(diǎn)也逐漸清晰。
從模型演進(jìn)來(lái)看,通用大模型已經(jīng)呈現(xiàn)出強(qiáng)大的泛化能力,但在與各行各業(yè)深入融合時(shí),由于缺乏行業(yè)深度,無(wú)法針對(duì)性解決特定行業(yè)的實(shí)際需求。因此,通過(guò)面向特定領(lǐng)域進(jìn)行大模型訓(xùn)練,打造垂直行業(yè)大模型能滿足行業(yè)特定需求,成為大模型商業(yè)化落地的重要方向。
在大模型應(yīng)用的賽道方面,目前北京市大模型的應(yīng)用速度較快的領(lǐng)域?yàn)閭鹘y(tǒng)產(chǎn)業(yè)賦能和金融領(lǐng)域,原因在于這兩大領(lǐng)域的央國(guó)企密集,具有較強(qiáng)的數(shù)據(jù)基礎(chǔ)設(shè)施、算力投入和人工智能應(yīng)用基礎(chǔ),對(duì)于推進(jìn)大模型應(yīng)用也更加主動(dòng)。
大模型對(duì)于內(nèi)容理解、生成的能力不斷增強(qiáng),逐漸從文字、圖片生成升級(jí)到視頻、音頻、3D動(dòng)畫生成?!栋灼诽岬剑竽P偷膽?yīng)用類型主要有內(nèi)容生成、智能問答、IT支持、數(shù)據(jù)分析、智能識(shí)別和智能硬件六類。
其中,內(nèi)容生成和智能問答兩個(gè)方面的應(yīng)用類型已經(jīng)逐漸成熟。面向B端,這兩類應(yīng)用對(duì)于行業(yè)降本增效、業(yè)務(wù)價(jià)值提升、落地速度的價(jià)值體現(xiàn)更為明顯,這在一定程度上能夠快速完成市場(chǎng)教育,進(jìn)一步推進(jìn)大模型應(yīng)用落地。
在商業(yè)模式角度,大模型形成了以通用大模型人工智能服務(wù)為主的基礎(chǔ)層、以垂直行業(yè)領(lǐng)域人工智能服務(wù)為主的行業(yè)層和以大模型應(yīng)用服務(wù)為主的應(yīng)用層的“基礎(chǔ)+行業(yè)+應(yīng)用”的三層架構(gòu)。
大模型的商業(yè)模式正是通過(guò)通用大模型底座的強(qiáng)大能力,與行業(yè)細(xì)分領(lǐng)域相結(jié)合,再將能力集成到實(shí)際應(yīng)用中,從而讓大模型的真正社會(huì)價(jià)值得以體現(xiàn),并對(duì)人們的生活、工作產(chǎn)生影響。
不論從大模型自身能力的升級(jí)迭代,還是行業(yè)實(shí)際痛點(diǎn)來(lái)看,大模型商業(yè)化落地應(yīng)用已經(jīng)迫在眉睫。一些行業(yè)先行玩家的應(yīng)用落地實(shí)例,為國(guó)內(nèi)大模型大規(guī)模商業(yè)化落地提供了經(jīng)驗(yàn)。
二、調(diào)研六大領(lǐng)域近百家企業(yè),AI率先落地傳統(tǒng)產(chǎn)業(yè)及金融
從北京市的大模型產(chǎn)業(yè)應(yīng)用來(lái)看,大模型產(chǎn)業(yè)玩家的落地應(yīng)用集中于政務(wù)、金融、醫(yī)療、傳統(tǒng)產(chǎn)業(yè)賦能、文化旅游、智慧城市六大領(lǐng)域。
《白皮書》調(diào)研了六大領(lǐng)域中近百家企業(yè)的行業(yè)大模型應(yīng)用案例,并梳理出其中18個(gè)典型案例,從不同領(lǐng)域的特點(diǎn)出發(fā),結(jié)合企業(yè)的實(shí)際案例,以此整合出當(dāng)下北京市行業(yè)大模型商業(yè)落地的挑戰(zhàn)。其中,應(yīng)用發(fā)展較快的為傳統(tǒng)產(chǎn)業(yè)賦能和金融領(lǐng)域。
金融業(yè)的痛點(diǎn)在于,其IT架構(gòu)龐大,數(shù)據(jù)量很高,如何在符合數(shù)據(jù)安全合規(guī)等要求下,用大模型的能力實(shí)現(xiàn)降本增效,并擴(kuò)展其兼容能力。
再加上金融行業(yè)對(duì)信息準(zhǔn)確性、數(shù)據(jù)合規(guī)等要求較高,短期內(nèi),大模型在金融行業(yè)的落地方向集中于研報(bào)撰寫、客服輔助提示等非核心系統(tǒng)應(yīng)用。從長(zhǎng)期來(lái)看,大模型的應(yīng)用方向在金融領(lǐng)域?qū)⑦M(jìn)一步擴(kuò)大,隨著大模型能力的進(jìn)一步提升,招股書生成編寫、智能研報(bào)合規(guī)審查、大模型智能數(shù)據(jù)治理等場(chǎng)景或許將與大模型實(shí)現(xiàn)更好的結(jié)合。
目前,基于大模型技術(shù),AI獨(dú)角獸公司曠視科技推出個(gè)人征信創(chuàng)新技術(shù)方案,該方案可以自動(dòng)篩選有效變量,并通過(guò)Transformer架構(gòu)進(jìn)行自監(jiān)督預(yù)訓(xùn)練,進(jìn)一步預(yù)測(cè)用戶的貸款意愿。在此基礎(chǔ)上,曠視科技與樸道征信合作打造的個(gè)人客戶資質(zhì)評(píng)分服務(wù),幫助樸道征信的客戶轉(zhuǎn)化率提升了20%。
傳統(tǒng)產(chǎn)業(yè)是我國(guó)經(jīng)濟(jì)的重要組成部分,大模型技術(shù)在推動(dòng)傳統(tǒng)產(chǎn)業(yè)的數(shù)字化轉(zhuǎn)型升級(jí)方面扮演著重要角色。
這一產(chǎn)業(yè)的特點(diǎn)在于,中小企業(yè)在營(yíng)銷工具、IT研發(fā)等方面基礎(chǔ)薄弱,平臺(tái)型企業(yè)較難帶動(dòng)產(chǎn)業(yè)鏈上中下游中小企業(yè),以及因傳統(tǒng)企業(yè)涉及場(chǎng)景較多,其市場(chǎng)需求個(gè)性化程度較高,中小企業(yè)很難快速了解企業(yè)的核心痛點(diǎn)。
因此,《白皮書》提到,針對(duì)傳統(tǒng)產(chǎn)業(yè)的痛點(diǎn),一些頭部玩家可以建立專屬企業(yè)的大模型,加速構(gòu)建新一代人工智能能力基礎(chǔ)設(shè)施,然后構(gòu)建不同的大模型應(yīng)用。中小企業(yè)可以從試點(diǎn)場(chǎng)景出發(fā),找到大模型落地應(yīng)用的真實(shí)價(jià)值后,再進(jìn)行廣泛應(yīng)用。
正如此前提到的,智能客服等場(chǎng)景對(duì)于大模型價(jià)值的體現(xiàn)更為快速且直接,因此傳統(tǒng)產(chǎn)業(yè)在驗(yàn)證大模型市場(chǎng)價(jià)值初期,也可以從這一場(chǎng)景切入。
以國(guó)家電網(wǎng)為例,其在大規(guī)模復(fù)雜電網(wǎng)系統(tǒng)管理運(yùn)營(yíng)方面面臨電網(wǎng)設(shè)備數(shù)量多、關(guān)鍵設(shè)備運(yùn)行缺陷需快速發(fā)現(xiàn)響應(yīng)。結(jié)合文心大模型,百度打造了電網(wǎng)智能分析與智能應(yīng)用平臺(tái),并訓(xùn)練了電力行業(yè)NLP大模型,在電力專業(yè)分詞任務(wù)上,F(xiàn)1(精確率和召回率的調(diào)和平均數(shù))指標(biāo)達(dá)到92.376%。
值得注意的是,大模型在加速各行各業(yè)轉(zhuǎn)型升級(jí)、降本增效的同時(shí),這些典型案例也體現(xiàn)出目前國(guó)內(nèi)大模型在應(yīng)用落地方面仍面臨諸多挑戰(zhàn),如算力資源持續(xù)供應(yīng)、高質(zhì)量數(shù)據(jù)、大模型“幻覺”問題、“蹭熱度”以及同質(zhì)化等。
三、打造公共算力平臺(tái)、中文互聯(lián)網(wǎng)語(yǔ)料庫(kù),搶灘大模型應(yīng)用
大模型發(fā)展與算力、算法、數(shù)據(jù)密切相關(guān)。其中,訓(xùn)練數(shù)據(jù)的數(shù)量、質(zhì)量等是大模型智能水平的關(guān)鍵因素。
北京智源人工智能研究院副院長(zhǎng)兼總工程師林詠華談道,目前大型語(yǔ)言模型、多模態(tài)大模型中使用的開源數(shù)據(jù)集多來(lái)自海外,中文部分較少,如Common Crawl中中文數(shù)據(jù)占比不到5%,且其中超80%為海外網(wǎng)站,因此這些數(shù)據(jù)在訓(xùn)練大模型時(shí)會(huì)有英文思維,并且存在內(nèi)容安全風(fēng)險(xiǎn)。
在大會(huì)的“大模型創(chuàng)新論壇”上,北京智源人工智能研究院發(fā)布了“中文互聯(lián)網(wǎng)語(yǔ)料庫(kù)(CCI)”。該語(yǔ)料庫(kù)是在中國(guó)網(wǎng)絡(luò)空間安全協(xié)會(huì)人工智能安全治理專業(yè)委員會(huì)數(shù)據(jù)集工作組、北京市委網(wǎng)信辦、北京市科委中關(guān)村管委會(huì)、海淀區(qū)政府的指導(dǎo)下,由智源研究院聯(lián)合拓爾思、中科聞歌共建,旨在為國(guó)內(nèi)大數(shù)據(jù)及人工智能行業(yè)提供一個(gè)安全、可靠的語(yǔ)料資源,并以此為契機(jī)促進(jìn)不同機(jī)構(gòu)合作,共同推動(dòng)大數(shù)據(jù)和人工智能領(lǐng)域的健康發(fā)展。
該語(yǔ)料庫(kù)首期開放的數(shù)據(jù)(CCI v1.0.0)規(guī)模為104GB,數(shù)據(jù)集總體的時(shí)間跨度為2001年1月至2023年11月。
目前CCI語(yǔ)料庫(kù)首期開放的104GB數(shù)據(jù),包括智源研究院400GB“悟道”數(shù)據(jù)集、拓爾思貢獻(xiàn)的250GB數(shù)據(jù)集、中科聞歌貢獻(xiàn)的200GB數(shù)據(jù)集。
為了保證數(shù)據(jù)質(zhì)量,智源研究院會(huì)對(duì)上述數(shù)據(jù)基于合規(guī)站源數(shù)據(jù)進(jìn)行高質(zhì)量數(shù)據(jù)清洗、去重,同時(shí)為了避免數(shù)據(jù)集混雜測(cè)試數(shù)據(jù),他們會(huì)把可能存在的主流評(píng)測(cè)數(shù)據(jù)進(jìn)行過(guò)濾。
從今年4月到10月,國(guó)家網(wǎng)信辦發(fā)布的《生成式人工智能服務(wù)管理辦法(征求意見稿)》、以及國(guó)家網(wǎng)信等七部門聯(lián)合發(fā)布的《生成式人工智能服務(wù)管理暫行辦法》等都強(qiáng)調(diào)了數(shù)據(jù)真實(shí)、安全等。
今年10月,中國(guó)網(wǎng)絡(luò)空間安全協(xié)會(huì)設(shè)立了人工智能安全治理專業(yè)委員會(huì),下設(shè)數(shù)據(jù)工作組,其目的在于聯(lián)手國(guó)內(nèi)數(shù)據(jù)、互聯(lián)網(wǎng)、大模型等企業(yè),推動(dòng)中文語(yǔ)料庫(kù)的建設(shè)。
林詠華談道,構(gòu)建高質(zhì)量的中文語(yǔ)料庫(kù)主要有三個(gè)階段,首先是建設(shè)中文互聯(lián)網(wǎng)語(yǔ)料庫(kù),這是一個(gè)長(zhǎng)期持續(xù)的過(guò)程,本次發(fā)布的中文互聯(lián)網(wǎng)語(yǔ)料庫(kù),其數(shù)據(jù)主要來(lái)源為地市級(jí)以上政府門戶網(wǎng)站、重點(diǎn)新聞網(wǎng)站、中央和地方報(bào)刊等。
第二個(gè)階段就是建設(shè)綜合數(shù)據(jù)集,其囊括的數(shù)據(jù)范圍也更加廣泛,包括科技類、媒體類、書籍期刊等文字、圖片、視頻等數(shù)據(jù)。
第三個(gè)階段就是建設(shè)行業(yè)數(shù)據(jù)集,針對(duì)不同行業(yè)的應(yīng)用需求,打造面向金融、醫(yī)療等領(lǐng)域的數(shù)據(jù)集。
為推動(dòng)“中文互聯(lián)網(wǎng)語(yǔ)料庫(kù)CCI”的廣泛使用,吸引國(guó)內(nèi)大模型領(lǐng)域研究機(jī)構(gòu)、企業(yè)共建、共享高質(zhì)量、多樣化、安全合規(guī)的中文語(yǔ)料庫(kù),會(huì)上,智源研究院聯(lián)合17家大模型機(jī)構(gòu)和企業(yè)共同發(fā)起《“中文互聯(lián)網(wǎng)語(yǔ)料庫(kù)”共建共享倡議書》,倡導(dǎo)堅(jiān)持合作共享、安全合規(guī)、數(shù)據(jù)高質(zhì)量等6項(xiàng)原則,持續(xù)推動(dòng)人工智能產(chǎn)業(yè)健康持續(xù)發(fā)展。
在商業(yè)落地背后,算力基礎(chǔ)設(shè)施是支撐人工智能產(chǎn)業(yè)發(fā)展的堅(jiān)實(shí)底座。北京市海淀區(qū)的北京人工智能公共算力平臺(tái)舉行了點(diǎn)亮儀式,同時(shí),北京電信作為算力平臺(tái)代表與智譜華章、紫東太初等首批入駐大模型企業(yè)完成了簽約儀式。
結(jié)語(yǔ):開啟大模型應(yīng)用落地新階段
如今,大模型的技術(shù)創(chuàng)新升級(jí)與商業(yè)落地正穩(wěn)步推進(jìn),作為國(guó)內(nèi)在大模型領(lǐng)域具有一定資源優(yōu)勢(shì)、先發(fā)優(yōu)勢(shì)的城市,北京市已經(jīng)錨定大模型下一階段發(fā)展的核心及持續(xù)性痛點(diǎn),通過(guò)算力基礎(chǔ)設(shè)施、中文互聯(lián)網(wǎng)語(yǔ)料庫(kù)、應(yīng)用創(chuàng)新等,為國(guó)內(nèi)大模型產(chǎn)業(yè)發(fā)展筑起堅(jiān)實(shí)的底座。
《白皮書》提到,北京市將進(jìn)一步培育大模型產(chǎn)業(yè)生態(tài),將人才、資金、產(chǎn)業(yè)生態(tài)等方面與大模型產(chǎn)業(yè)發(fā)展結(jié)合的更為緊密;在算力方面,北京市也通過(guò)算力券、資金補(bǔ)貼等為企業(yè)提供支撐;在行業(yè)落地角度,北京市還通過(guò)行業(yè)大模型創(chuàng)新應(yīng)用大賽,為企業(yè)探索大模型實(shí)際落地場(chǎng)景提供機(jī)會(huì);同時(shí),在大模型應(yīng)用監(jiān)管方面,北京市也提供了圍繞大模型底層設(shè)施、關(guān)鍵技術(shù)、上層應(yīng)用的標(biāo)準(zhǔn)體系。
大模型產(chǎn)業(yè)發(fā)展至今,企業(yè)對(duì)于大規(guī)模商業(yè)落地的探索加快,可以看出,北京市已經(jīng)形成了從算力、數(shù)據(jù)、應(yīng)用三個(gè)角度出發(fā),圍繞軟硬件基礎(chǔ)設(shè)施、關(guān)鍵技術(shù)、應(yīng)用落地等重點(diǎn)為這一產(chǎn)業(yè)打造了一系列支撐,大模型正重塑千行百業(yè)。