全球主机交流论坛

标题: 1亿5千万的txt打包居然吃掉了31个G的内存! [打印本页]

作者: gamerock    时间: 2024-8-25 13:41
标题: 1亿5千万的txt打包居然吃掉了31个G的内存!

小说站真是伤不起啊!
从昨天开始打包到现在还没打包好!
真是罪过啊!
关键是还卡在打包阶段!
作者: wcn    时间: 2024-8-25 13:43
用命令行打包吧
再就是分阶段打多个包,比如杰奇,1----10目录打一个包,10----20目录打一个包,以此类推。
作者: hcyme    时间: 2024-8-25 13:43
庆丰不识字何故乱翻书
作者: bronco    时间: 2024-8-25 13:45
什么时候放出来
作者: gamerock    时间: 2024-8-25 13:45
wcn 发表于 2024-8-25 13:43
用命令行打包吧
再就是分阶段打多个包,比如杰奇,1----10目录打一个包,10----20目录打一个包,以此类推。 ...


我是win系统!
作者: wcn    时间: 2024-8-25 13:47
本帖最后由 wcn 于 2024-8-25 13:50 编辑
gamerock 发表于 2024-8-25 13:45
我是win系统!


有tar for windows。我以前就是这么干的。
另外,使用Ultraiso打包也可以。

win系统打包解包,有个特点就是会遍历一遍目录文件,再进行压缩解压。
我们的目的就是跳过这一过程。比如解压,如果直接双击打开,如果文件多且大会很慢。而不打开用右键解压,就会迅速很多。

作者: gamerock    时间: 2024-8-25 13:49
wcn 发表于 2024-8-25 13:47
有tar for windows。我以前就是这么干的。
另外,使用Ultraiso打包也可以。


恩,感谢大佬,
如果winrar打包不了,我就换你说的方法!
反正机器还有半个月到期!
半个月还打包不了吗?
哪真是罪过了!
作者: jqbaobao    时间: 2024-8-25 13:51
总文件多少
作者: gamerock    时间: 2024-8-25 13:52
jqbaobao 发表于 2024-8-25 13:51
总文件多少


不知道,
反正数据库60多个G
文件还没搞完呢!
作者: ioioio    时间: 2024-8-25 14:00
卖一份给我
作者: gamerock    时间: 2024-8-25 14:03
ioioio 发表于 2024-8-25 14:00
卖一份给我


自己采集就行了啊!
还不要花钱!
我卖的价格高了,你不开心!
我卖的价格低了,我不开心!
自己采集最划算!
作者: adminisd    时间: 2024-8-25 14:03
都是旧数据,不是最新的
作者: osprey    时间: 2024-8-25 14:04
打包干嘛?搬站?搬过去还得解压。。。
这么大的站流量得多少啊
作者: xuexing    时间: 2024-8-25 14:05

教你一招,做个脚本,分段生成单个文件,然后单个文件压缩加密,传到hub公共账户就行了,几百G都不需要一天时间,具体操作:
1 文件的aaa.txt的大小为60G,进行拆分,1G为一个文件aaa1.txt,或者10万行一个文件aaa1.txt;
2 对aaa1.txt进行压缩并加密,生成aaa1.tar;
3 构建docker镜像,将加密的aaa1.tar放到镜像文件image_aaa1中;
4 push上传镜像文件image_aaa1到公共仓库,即使有人拉取,破解不了你的密码;
5 用的时候依次拉取,几百G、几千G都可以上传,突破普通网盘容量限制,docker上传速度比大部分收费网盘要好,不存在上传限速

300G的视频,我一天搞定它,hub上现在还存放着呢,都是私人珍藏,高清无码
作者: xuexing    时间: 2024-8-25 14:13
本帖最后由 xuexing 于 2024-8-25 14:15 编辑

你是win,可以不使用额外工具,先查看总文件有多少行,按行提取就行了,比如总用有100万行,一次提取10万行,脚本循环,下一次提取100001-200000的数据,生成aaa1.txt,单独对它进行压缩,思路基本就是这样,具体脚本扔给gpt搞定就行,循环提取,循环压缩,循环上传到hub docker,我发现hub真是好东西,上传不限速,而且还是无线容量
作者: gamerock    时间: 2024-8-25 14:19
xuexing 发表于 2024-8-25 14:13
你是win,可以不使用额外工具,先查看总文件有多少行,按行提取就行了,比如总用有100万行,一次提取10万行 ...


单个单个txt文件啊!
不搞哪些乱七八糟的!
别到时候用不了就麻烦了!
作者: xuexing    时间: 2024-8-25 14:30
本帖最后由 xuexing 于 2024-8-25 14:32 编辑
gamerock 发表于 2024-8-25 14:19
单个单个txt文件啊!
不搞哪些乱七八糟的!
别到时候用不了就麻烦了! ...


随便找个文件,测试一下呗,你先记录sha256,然后让gpt给你做个脚本,分段切分成100个小文件,然后再让gpt给你做一个合并100个txt的脚本,看看是不是原来的sha256就行了。
上传到hub和下载也是一样,执行完看看是否和最初的sha256一致。这个方法是不会错的,如果错了,那就是你执行的环节出了问题,让gpt给你排查。

不想搞这些复杂的,那你就搞钱升级大容量网盘,速度还没hub快,很多都上传限速,你说还有半个月时间,那就慢慢搞,要想快速,想一天搞定,那就要折腾。
作者: NodeLoc    时间: 2024-8-25 14:37
不建议打包的方式,建议同步采集的方式搬站。 另外一台部署一下直接从这边采集数据。
作者: gamerock    时间: 2024-8-25 14:53
xuexing 发表于 2024-8-25 14:30
随便找个文件,测试一下呗,你先记录sha256,然后让gpt给你做个脚本,分段切分成100个小文件,然后再让gp ...


恩,感谢提供方案!

作者: 88170351    时间: 2024-8-25 21:18
xuexing 发表于 2024-8-25 14:05
教你一招,做个脚本,分段生成单个文件,然后单个文件压缩加密,传到hub公共账户就行了,几百G都不需要一 ...

300T的高清步兵,可以操作吗
作者: 晴晴晴    时间: 2024-8-25 21:20
站点放出来,MJJ免费帮你打包
作者: wcn    时间: 2024-8-25 21:20
xuexing 发表于 2024-8-25 14:05
教你一招,做个脚本,分段生成单个文件,然后单个文件压缩加密,传到hub公共账户就行了,几百G都不需要一 ...

什么乱七八糟的。
人家小说站,是一个txt的体积1K都不到,几亿个txt文件打包。
你说的是单个txt文件,还示例大小60G,你家txt这么大?
根本说的不是一个东西。
作者: 着地    时间: 2024-8-25 21:39
一亿五千万个,你是不整个人类的图书馆都弄来了吗。。。
作者: xuexing    时间: 2024-8-29 23:12
88170351 发表于 2024-8-25 21:18
300T的高清步兵,可以操作吗

我没挑战过上限,一个号过T肯定会被封号的,理论上300T应该可以搞,但是估计要很多号,hub可以作为转存工具,肯定不能永久存啊。
作者: xuexing    时间: 2024-8-29 23:15
本帖最后由 xuexing 于 2024-8-29 23:26 编辑
wcn 发表于 2024-8-25 21:20
什么乱七八糟的。
人家小说站,是一个txt的体积1K都不到,几亿个txt文件打包。
你说的是单个txt文件,还 ...


我理解错了,不是一个文件的话,那么多分一些文件夹就好了




欢迎光临 全球主机交流论坛 (https://loc.010206.xyz/) Powered by Discuz! X3.4