全球即时:网传的“全国感染进度表”准不准?专家:有一定参考价值

大河网

原标题:朋友圈流传的“全国感染进度表”准不准?我们找专家聊了聊


(相关资料图)

随着感染者越来越多,这一轮疫情的“进度”、我们何时能恢复正常生活正被广泛讨论。

其中,“大数据”尤为公众所关心。

12月15日前后,一组预测各城市首轮感染高峰期的截图,在朋友圈和微信群中广泛流传。

图中,给出了全国各省区主要城市的疫情进度和最终高峰的预测时间表,且这个数据在不断更新。

以石家庄、北京、郑州3城为例,最早的版本是,截至12月10日,第一波群体感染达峰石家庄已经完成了77%,北京是29%,郑州11%。

12月12日,在制作者开发的小程序上,数据更新为:石家庄完成84%,北京是38%,郑州是15%。

最新版本停在了12月16日,石家庄已完成100%,北京87%,郑州46%。

而此时,三个城市的累计感染人数占总人口比值分别为49%,35%,19%。

这组数据的原作者,是知乎大V@chenqin,“数据帝”、“2021新知答主”是他的标签。

据其预测,截至12月16日,石家庄、保定、邢台等多地“达峰进度”均已达到100%。

北京市将于2023年1月22日结束首轮感染高峰,上海市将于2023年1月18日结束首轮感染高峰,郑州市将于2023年1月14日结束首轮感染高峰。

那么,这个预测时间表的依据是什么,又是否靠谱?

大河报·豫视频《看见》记者/张晶晶

当你上网搜索“发烧”

就贡献了一个数据?

12月15日以来,针对算法和数据等疑问,大河报·豫视频《看见》记者多次联系@chenqin本人,但未获得回应。

更多网友则宁可信其真,跟帖话题转向与数据“严重程度”相当的疫情见闻。

专家:有一定参考价值

但有优化空间

通过搜索引擎数据建立模型预测疫情走势,该预测数据的参考价值有多大?

“仅通过搜索数据建立起来的预测模型,准确度通常并不高。”天使投资人、资深人工智能专家郭涛告诉大河报·豫视频《看见》记者。

郭涛说,疫情传播速度受到感染人群的数量及活动轨迹、人口流动信息、居民生活方式、交通条件、医疗条件和天气条件等综合因素影响,如果想要实现预测,就需要搞清楚影响疫情传播的因素到底有多少,它们之间又是如何相互影响的,仅通过搜索数据是不够的。

“美国早年曾用搜索数量进行过相关的预测,在一定程度上它是可以反映疫情整体的传播速度和爆发量的。”北京社科院研究员、大数据业务分析师王鹏教授接受记者采访时则表示,依据搜索大数据来预测新冠疫情感染高峰,实际上在国外也早有相关的应用。

针对不同城市,预测感染何时达到顶峰、退却、第一波进度等,在一定程度上,无论是对公共政策的制定者、政府、还是公众来说,都有一定参考价值,有助于大家了解疫情的走势。

但是从现实角度出发,目前运用搜索引擎,尤其是仅依托于百度的数据,王鹏觉得可能有所失真。

移动互联网时代和PC端时代有差异,首先现在很多人不一定都在手机端搜索,即使手机端的搜索引擎也有很多源,不一定都用百度,国产的其他搜索引擎也很多。另外,很多人可能不在搜索引擎上进行搜索,也可能在社交平台或短视频平台搜索,所以说相关的搜索数量,数据本身是存在一些问题的。

第二,在这个自媒体时代,大家搜索一个关键词,不一定自身有症状,可能是家人或朋友有症状。而且在一定程度上,我们陷入了信息茧房,换句话说,我们在互联网搜索引擎上搜索最多的人群,可能是特定的人群,他们的收入水平、年龄、对互联网的熟悉程度相当。剩下绝大多数人群,对互联网运用得少,或者压根不上网,是“沉默的大多数”,所以完全依托于搜索的数据来推测疫情,肯定不是特别精准的。

王鹏也建议,PC端和移动端数据都需考虑到,数据来源也不应该仅是搜索引擎,应该把社交媒体、短视频平台数据都纳入。同时,算法不应该太简单,还应该进行多元的优化重组,进一步训练,才能得出更为精准的结论。

[责任编辑:]