第六章 提上日程(1 / 1)
要解决这些需求,说简单也简单,说复杂也复杂。
最简单的,直接外包,把原本三毛钱一条的单价提高到三毛五,肯定还是有一些公司愿意接单的;不济便提到四毛钱,那肯定有大把公司肯接单了。但是这么做需要让渡大笔公司利益,别说秦大富这个公司老总了,就是秦枫这个项目组长也不答应。
中等的呢,就是租建大公司的服务器和存储空间,互联网三巨头涵盖了互联网生态的方方面面,在这种小事上为企业提供一点基础服务那是不在话下。
最后最复杂的就是,自己进货,组建服务器和云端,这其中耗费者巨,庞大的工作量也并非海欣区区三人可以处理的。不过好处是一旦成型,以后很多类似的工作都可以用自家的资源,节约了大笔成本。
秦枫选择的当然是第二种。综合考虑了十几家互联网企业的服务价格和质量,他大抵得出,租东西的成本,大概在三毛钱。不过他也暗暗立下心愿,等有余力的时候,一定搭建一套公司自己的资源。
说干就干,秦枫当即在某巨头的服务器官网上下单,选了个包年计费的套餐,又额外买了大概3t的空间用来训练ai。随后就是上github浏览有关ai领域和深度学习领域的模型,打算找一个心仪的开始“炼丹”。
两个小时后,秦枫弄的服务器和ai基本初见雏形,当然,ai还没“喂”过资源。接下来,就是使用爬虫软件把几大社交平台的言论跑一遍,然后运行一个筛选算法,把其中大量的无意义灌水筛掉,留下那些有意义的喂给ai,让它逐渐产生“灵智”,从而可以不间断地24小时在网上发布一条又一条的“高质量评论”。
“陆白,我这里有大概25t的用户评论,你帮我写一个算法,超过5条内容相同的直接滤掉,ok不。”
“好的枫哥。”
“胖子,你顺便在陆白的基础上搞个优化算法,把那些内容近似的也给我滤掉,近似度你自己把握,能行不。”
胖子略微沉吟,也给出了肯定的答复。
这看似一个内容相同,一个内容近似,要处理起来复杂度可不是一个量级。
内容相同可太简单了,直接“查重率1%,鉴定为寄”就可以了。但是近似要怎么近似?要知道网上热门梗本来就多,这就导致不同用户之间发表的评论本就有大量相似性。
其次,如果按照其中百分之多少的内容重复来作为过滤标准,又有可能出现“字汉序顺本根不响影读阅”这种跟原本内容单字重复、但是整体内容又不重复的评论。这种评论,滤掉可能会多滤了一些确实是因为改变了汉字顺序而导致意思变化的评论,但是不滤又可能让ai的语料库里多了大量无意义的灌水评论,怎么处理还真是个难题。
小胖决定宁可错杀一百,不要放过一个。
秦枫这边,则是一边在写一个权重算法,一边考虑服务器的事情。
所谓权重算法,自然是让ai在学习的时候有所侧重,加大学习时那些高赞多评的权重,这样有利于ai也写出各种热门评论。当然,在学习的时候,也要先用小胖的算法过滤一遍,避免那些单纯因为来得早发了个“第一”就上热门的水评。
另一方面,秦枫觉得,搭建公司自己的服务器,也是一件要开始提上日程表的事情。两个个月前,二月二十三号,华夏发布新闻发布会,宣布疫情已经基本结束。
也就是说,娱乐业也会焕发第n春。
娱乐,离不开买量。
买量,离不开水军。