n
同时,通过以上业务的数据反哺,极光通用大模型,可持续高速优化迭代。
极光系平台,日均可产生25亿+UGC内容,经三维风控模型过滤后,可形成50TB纯净文本库。
结合自研“语义去噪模型”,自动识别并过滤低质内容,最终提炼出3.6亿+高质量长文本,构成核心训练集。
较同期竞争对手的数据规模,领先。。
呃。。
报一丝。
同期没对手嗷~
大家伙儿都还在那玩,几千万参数的模型呢~
甚至都还没形成,完整的Transformer模型概念~
至于训练效率,那就更别提了。
通过全栈自研的“芯片间高速通信协议+云-芯协同协议+高速总线”三层技术架构,极光