HR求职招聘QQ群 http://www.44523.com/bk/20210928/5701.html在来自美国家最大公司的15,多个Instagram帖子上使用网络抓取,降维和无监督的机器学习,以尝试并构成普通公司帖子的样式。回到过去,当我曾经帮助计划和管理大学活动时,每天都会出现“样式指南”一词。想法是您发布的所有内容都应具有一致的字体,大小,调色板等。我认为这是一个有趣的练习,以查看哪些行业的图像帖子(或标准样式指南)最丰富,文字说明最丰富从Instagram的。某些行业应该是相当标准的,尤其是面向消费者的行业(例如,汽车应该是一堆汽车)。其他行业可能根本就不是标准行业(例如财务咨询)!我分三个步骤进行了操作:获取每个公司的帖子的图像和文本数据关于图像和文本数据的PCA和t-SNE高斯混合模型的异常检测获取每个公司的帖子的图像和文本数据事实证明,此部分比实际困难的过程耗时更多,这主要是由于所需的刮削量和超时所致。每个步骤的旁边都显示了每个脚本的运行时。要执行这些步骤,同时使用selenium和beautifulsoup4。第一步的脚本并不难,只是打开了一个使用它的webdriver并不断搜索name-of-
转载请注明:http://www.aierlanlan.com/cyrz/6163.html