您的当前位置:首页>科技咨询>资讯详情

小红书将业界最大数据湖迁至阿里云

发表于:2024-11-06 17:00:11 浏览:50次 发布者: 网易互联网

记者获悉,经过一年奋战,小红书已把业界体量最大的数据湖0故障迁上阿里云。据统计,该项目共有1500人参与,迁移数据500PB。

作为中国头部互联网公司之一,小红书月活已过3亿,其数据湖存储了过去11年的所有原始数据,包括结构化、半结构化和非结构化数据。近年来,随着业务的高速增长,小红书在线处理数据的需求不断增加,同时离线处理所积累的历史问题,也会在未来的切换中带来更多成本与风险。


为此,2023年11月,小红书发起迁云项目——计划一年内,把小红书的数据湖搬上阿里云。

迁移至阿里云上后,数据湖可通过多个OSS Bucket支持纳入统一资源池,实现多个Bucket共享资源池内的OSS吞吐及QPS能力。这样的流控能力在面向小红书复杂业务场景,可灵活调配资源,高效利用吞吐性能,降低不同业务租户间的互相影响。阿里云原生HDFS+DLA元数据可实现无缝对接Hadoop EMR体系,支持元数据线性扩展能力,轻松应对小红书数百PB数据下的元数据线性增长。

较于过往业界体量最大的案例,小红书的本次迁移的数据体量更大。


*注:任务=数据处理过程

(图片来自小红书官方公众号)

据介绍,小红书的迁云项目经历了三个阶段。第一步,项目组首先解决标准问题,然后根据标准进行治理;第二步,完成治理后,项目在2024年5月正式进入双跑阶段。把数据拷贝到阿里云上,两边同时跑数,验证正确性与及时性;第三步,2024年8月,项目结束双跑,进入割接阶段。阿里云团队全程在现场保障,顺利完成了割接。

2024年11月,小红书迁云项目正式宣告结束。在0故障的情况下,迁移数据500PB,任务11万,参与人数1500人,涉及部门40多个。项目涉及产品之多和数据体量之大均创下业界记录。

雷峰网

猜你喜欢

早资道 | 小米汽车智驾更名为辅助驾驶;淘宝闪
早资道 | 小米汽车智驾更名为辅助驾驶;淘宝闪
发表于:2025-05-06 浏览:7 发布者: 网易互联网
加速七鲜仓店融合 京东即时零售再战美团盒马
加速七鲜仓店融合 京东即时零售再战美团盒马
发表于:2025-03-20 浏览:13 发布者: 网易互联网
2025克劳锐第9届新媒体生态大会举办,共探全球
2025克劳锐第9届新媒体生态大会举办,共探全球
发表于:2025-03-24 浏览:16 发布者: 网易互联网
B站终于缓过来了
B站终于缓过来了
发表于:2024-11-16 浏览:61 发布者: 网易互联网
爱奇艺营收“跳水”,数据背后藏着什么?
爱奇艺营收“跳水”,数据背后藏着什么?
发表于:2025-04-21 浏览:10 发布者: 网易互联网
草稿链代替思维链,推理token砍掉80%,显著降低
草稿链代替思维链,推理token砍掉80%,显著降低
发表于:2025-03-10 浏览:13 发布者: 网易互联网
被架在太平洋上的小红书
被架在太平洋上的小红书
发表于:2025-01-14 浏览:41 发布者: 网易互联网
封面有数丨跨境电商“春节档”国产投影仪、耳机
封面有数丨跨境电商“春节档”国产投影仪、耳机
发表于:2025-02-13 浏览:20 发布者: 网易互联网
实测Claude 3.7:3200行代码一口气输出,弱智吧
实测Claude 3.7:3200行代码一口气输出,弱智吧
发表于:2025-02-25 浏览:15 发布者: 网易互联网
有没有测试采用sram在lpu上部署deepseek的性能
有没有测试采用sram在lpu上部署deepseek的性能
发表于:2025-02-11 浏览:15 发布者: 网易互联网