Skip to content Skip to footer

引领人工智能革命:深入分析 4000 多种人工智能工具并选择正确的工具

让我们深入了解一下 AI 能提供什么!

image-20231231221124995

浏览 AI 创新网络(使用 Midjourney 生成,用 Python 制作的词云)

人工智能的演变:进步与创新的故事

近年来,人工智能已经取得了长足的进步,发生了重大变化。现在,它已经重塑了我们的日常生活和工作方式。在这一部分中,我们将回顾人工智能的起源,并追溯其演变到我们今天所依赖的先进技术。以下是人工智能的迷人旅程,重点介绍了关键的里程碑和挑战。滑动此交互式轮播,了解 AI 是如何演变的。

image-20231231221148627

人工智能正处于黄金时代,正在解决曾经属于科幻领域的问题。— 杰夫·贝佐斯

AI工具数据准备:

截至 2023 年 10 月,我利用 Python 库 Scrapy 和 Selenium 的网络抓取来提取 Futurepedia 上列出的 4,293 种 AI 工具的详细信息。Futurepedia 被公认为最大的 AI 工具目录。

以下是数据集属性的概述:

地址:直接链接到 Futurepedia 上每个 AI 工具的页面。
工具:AI 工具的名称。
描述:工具功能摘要,平均长度为 180 字。
上传日期:工具在 Futurepedia 目录中列出的日期。
类别:与工具关联的扇区(一个工具可以是多个扇区)
计划:可用的访问类型 - 免费、免费增值、付费或免费试用。
投票数:反映该工具受欢迎程度的用户的赞成票数。

除了这些属性之外,我还捕获了链接到工具实际网站的重定向 URL。使用这些 URL,我确定了与每个域关联的国家/地区。

对于这种地理跟踪,我利用了GeoIP2 Python库,该库与GeoLite2-Country数据库配合使用。该数据库可以下载为名为“GeoLite2-Country.mmdb”的文件,允许程序确定与每个工具的域关联的国家/地区。

image-20231231221217984

为了增强分析,我利用尖端的 OpenAI 嵌入模型从每个工具的描述中生成一个 1,536 维的向量。这些向量捕获的不仅仅是文本,它们还揭示了描述的语义含义或上下文,从而更深入地了解每个工具的目的和用途。

跨类别 AI 工具的兴起:

这个交互式时间表说明了 2022 年 11 月至 2023 年 10 月期间 AI 工具开发格局的变化以及主导类别的兴衰。可视化显示每周在不同类别中添加新的 AI 工具。由于工具可以跨越多个类别,因此总数为 4914 个,高于列出的 4293 个单个工具。

image-20231231221326691

最初,该列表以文案和搜索引擎工具为主,这些工具很快被短暂的“有趣”类别所超越。然而,这个类别很快就从前 10 名中消失了。值得注意的是,生产力工具已经显示出显着的增长,超过了其他类别,并强调了人工智能领域不断发展的重点和进步。

月度动量:跟踪顶级 AI 类别的工具列表

此交互式折线图记录了前 10 个类别中列出的工具数量的上升和下降。请注意,所有类别的活动在 2023 年 4 月至 7 月期间都达到了显著的峰值。您可以从下拉菜单中选择特定类别进行比较。

image-20231231221427680

人工智能可能是人类有史以来最重要的事情。我认为它比电或火更深刻。— 桑达尔·皮查伊

人工智能的前景:该领域的主要类别

此条形图显示前 35 个类别,每个条形表示一个类别中的工具数量。随着“生产力”的出现,其次是“个人助理”和“写作生成器”,很明显,提高效率的工具需求量很大。

image-20231231221449128

社区最爱:跨 AI 工具类别的投票模式

这个详细的箱形图揭示了用户偏好是如何根据收到的投票分布在前 10 个 AI 工具类别中的。投票数中位数为21,用红色虚线表示。这意味着这些类别中有一半的人工智能工具获得了超过 21 票。绿色虚线代表第 80 个百分位的选票,设定为 75。这表明这些领先类别中排名前 20% 的工具已经累积了至少 75 票。

image-20231231221508813

“教育”类别的投票中位数最高,其次是设计生成器和社交媒体,反映了社区对学习和发展工具的优先考虑。一些类别显示出广泛的投票范围,而另一些类别则显示出更集中的模式,表明市场成熟度和用户参与度的不同程度。

AI工具类别的象限分析

此散点图根据工具数量(x 轴)和中位数投票(y 轴)将 4 个象限中的顶级类别一分为二,从而提供对受欢迎程度和存在感的见解。我们对他们的市场饱和度和用户参与度有了宝贵的了解。

image-20231231221528128

右上象限中的绿色类别(例如教育)表明它们不仅数量丰富,而且受到用户的高度重视,这从他们的中位数投票中可以看出。这反映了积极使用这些工具的强劲需求和用户群。

像 “搜索引擎 ”和 “视频生成器 ”这样的类别在市场上的工具可能较少,但它们较高的中位数投票将它们置于左上象限,表明可能存在未开发的需求。这些类别可能代表利基市场,在这些市场中,质量和特异性对用户来说比多样性更重要。

位于右下象限的类别可能是过度饱和或用户参与度尚未固化的新兴领域。

人工智能工具趋势:月度增长和品类动态

这个堆积条形图说明了 AI 工具领域的月度增长和波动。

image-20231231221547704

虽然最近几个月新 AI 工具的总数总体上明显下降,但以浅绿色标记的生产力工具的 % 有所扩大,表明人们越来越重视旨在提高效率和简化工作流程的工具。

同样,创业类别也在上升。这表明人们对支持新商业企业和创新的工具越来越感兴趣。

该图表反映了 AI 工具开发中不断变化的优先事项,并暗示了更广泛的市场和行业变化。

就像100年前电力几乎改变了一切一样,今天我实际上很难想到一个我认为人工智能在未来几年内不会改变的行业。— 吴安德

环比 AI 工具亮点:

通过这张富有洞察力的图表,深入了解 AI 工具领域的月度明星表现者。随着时间的流逝,较早发布的工具往往会积累更多的选票,因此我进行了月度比较以确保公平性。

image-20231231221604526

红色虚线垂直线标记每个月的投票计数中位数,提供成功的基准,而绿色虚线代表第 90 个百分位数。此可视化效果采用颜色编码,以区分绿色区域中排名前 10% 的工具、黄色区域中中等成功的工具以及红色区域中仍在获得关注的工具。标签精确定位了各自月份中投票最多的一些工具。

类别冠军:每个领域的最佳 AI 工具

此交互式径向图突出显示了前 10 个类别中得票最多的 8 个工具。内圈中的点表示类别,分为不同的计划,例如免费、免费增值和付费。每个条形表示工具的投票数。通过单击任何类别或使用下拉菜单与可视化进行交互。

image-20231231221624887

人工智能的发展将是人们生活质量最巨大的飞跃。— 山姆·奥特曼

AI 工具推荐小部件

该工具根据用户需求提供 AI 建议。在文本框中输入您的特定需求,小部件将列出最符合您条件的前 10 个 AI 工具,以及它们的相似度分数和直接访问的 URL。

image-20231231221655696

推荐过程涉及通过 OpenAI 嵌入模型将用户输入转换为向量。然后将生成的向量与预处理的 AI 工具描述数据集进行比较,这些描述也转换为向量嵌入。计算余弦相似度分数以查找最接近的匹配项,并显示前 10 个工具。

该系统的后端使用 Flask API 来处理请求。为了提高性能效率,矢量嵌入以 parquet 文件格式存储在 Google Cloud Storage 中,以便快速检索和计算相似度分数。

下面是一个示例输出:

image-20231231221721085

人工智能的真正风险不是恶意,而是能力。一个超级智能的人工智能将非常擅长实现其目标,如果这些目标与我们的目标不一致,我们就有麻烦了。— 斯蒂芬·霍金

嵌入的 2D 表示:可视化 AI 工具的相似性

以下是 AI 工具嵌入的可视化表示。通过应用 t-SNE 算法,我将嵌入的高维空间从 1536 维减少到 2 维。我根据投票选出了前 800 个工具,以显示在单个 2D 散点图中。

image-20231231221747670

在 Python 中使用散景库创建的交互式绘图为每个 AI 工具分配一个 2D 平面上的点。得票数为 700 票或以上的工具标记为绿色,而得票数较少的工具则标记为红色。票数越高,不透明度越高,使该点更加突出。将鼠标悬停在这些点上会显示其他详细信息,例如工具的类别、计划和投票。

此散点图中的点越接近,工具之间的相似性就越高。任何给定工具周围的相邻点表示最密切相关的选项。放大图以探索这些关系。

如果你想要一个神奇的精灵,它会给你任何你想要的愿望,而且没有限制。你没有这三个愿望限制的废话,它既好又坏。未来的挑战之一将是我们如何找到生命的意义。— 埃隆·马斯克

人工智能工具的地理分布

以下分析表明,某些国家在该领域占主导地位。排名前 8 位的国家,包括那些被标记为“未定义”的国家,占所有列出的人工智能工具的 95.5%。美国位居榜首,印度位居第二。

image-20231231221852933

以下堆积条形图直观地显示了每个国家/地区每月对上传的人工智能工具总数的贡献。

image-20231231221909539

尽管数量有所波动,但随着时间的推移,每个国家的工具比例保持相对一致。这表明人工智能工具开发的地理格局稳定。

计划分析:分发和用户参与

大多数工具属于免费类别(34%),其次是免费增值(26%)、付费(18%)、免费试用(15%)和定价联系(7%)。只有一小部分工具(0.5%)提供了多个计划选项,我排除了这些选项,以便进行更清晰的分析。

image-20231231221926907

我们观察到“付费”工具的比例逐渐增加,这表明市场趋势趋于货币化,并且用户愿意投资更高质量的付费解决方案的优质产品可能会增加。

“免费增值”类别在人工智能工具总量中的份额呈下降趋势。这可能表明从免费增值模式过渡,或者最初旨在通过免费服务吸引用户,然后再将他们转化为付费客户的产品已经饱和。

下面的箱线图揭示了通过投票衡量的不同计划的用户参与度。每个点代表相应计划类别中的一个 AI 工具。

image-20231231221941862

“免费”计划工具不仅产品数量最多,而且还吸引了更多的选票,投票数中位数为 47,在其他类别中脱颖而出。这明显高于用红色虚线标记的21票的总体中位数。绿色虚线标记了 80 票的第 75 个百分位。在“付费”类别中,超过75%的工具获得的投票少于整体中位数,这表明用户不太倾向于投票给付费工具。

这不是关于人与机器的较量,而是关于人与机器的较量。— 萨蒂亚·纳德拉

按计划和用户参与度划分的 AI 工具季度细分

该数据清晰地概述了 2023 年不同计划中的 AI 工具性能,显示了工具数量和投票数相对于上一季度的变化。

image-20231231222003507

所有计划在第二季度都经历了工具数量的高峰。第三季度出现了显着下滑,尤其是免费和免费增值计划,这些计划的下滑最为明显。

考虑到随着时间的推移,预期的选票积累,选票从一个季度到另一个季度的下降是显而易见的。免费试用计划在第二季度的投票中位数大幅下降,而付费计划在第三季度的下降幅度最大,凸显了用户参与度和工具受欢迎程度的变化趋势。

免费工具在所有百分位数的投票中始终优于其他计划,这表明免费工具在保持用户兴趣和积极接受方面取得了成功。

类别和计划的交集

堆积图揭示了不同计划在顶级 AI 工具类别中的分布情况。

image-20231231222023825

图像生成器、客户支持、图像编辑和 SEO 等类别的付费工具比例较高,表明这些服务有货币化的趋势。像 Fun 这样的类别主要以免费工具为特色,这与用户更容易使用娱乐或休闲使用工具的期望相一致。

树状图可视化显示每个计划中的前 7 个类别(不包括“联系定价”)。每个块的大小代表工具的数量,颜色表示投票的中位数,为了清楚起见,也进行了标记。

image-20231231222040623

教育、创业、写作生成器和图像生成器类别中的“免费”工具的中位数投票率最高,这意味着它们已经成功地吸引了大量的用户群。

通过词频分析揭示共同主题

在这个词频分析中,我利用自然语言处理从工具描述中提取主要主题、特性或功能。该分析可识别每个工具类别中出现频率最高的单词、二元组(一对连续单词)和三元组(一组 3 个连续单词)。分析排除了停用词(常用词,如-the、a、in),这些词几乎没有有用的信息。

例如,“生产力”类别经常提到“人工智能助手”和“节省时间”,强调效率和人工智能在提高生产力方面的作用。

以下是生产力类别中最常见的单词,二元组和三元组。括号中的数字表示所有生产力工具描述中相应术语的出现次数。

image-20231231222055880

见解在交互式旭日图中进行了说明,其中每个细分对应一个类别,并展示了其前五个二元组和三元组。只需从下拉菜单中选择一个类别,或直接单击区段即可在图表中导航。

image-20231231222114869

每个类别中确定的关键主题包括:

image-20231231222138685

人工智能就像核能一样,既有前途又危险。— 比尔·盖茨

高级 AI 工具建议:利用 TFIDF 矢量化、TSNE 聚类和散景可视化

我创建了一个基于工具向量相似性的个性化工具推荐模型,考虑了工具的描述、类别、计划和投票。这些元素的权重分别为 3、0.5、0.2 和 0.2,以反映它们在相似度得分计算中的重要性。

工具描述经过 TFIDF 矢量化,根据工具描述中存在的单词、二元组和三元组在数据集中的唯一性和相关性为其分配权重。使用的 TFIDF 设置为:TfidfVectorizer(ngram_range=(1, 3), max_df=0.7, min_df=2, stop_words='english')。

例如,以下是 ChatGPT 的前 10 个 TFIDF 功能,每个功能都有其相应的权重,展示了该工具的重点领域:

虚拟代理 (0.624)、理解 (0.406)、ChatGPT (0.403)、代理 (0.401)、客户 (0.374)、对话 (0.333)、虚拟 (0.326)、寻求自动响应 (0.323)、输入提供 (0.323)、利用 OpenAI 技术 (0.323)

在对分类变量(类别和计划)进行独热编码和缩放投票后,每个工具的最终工具向量维度为 92,885。然后计算相似性矩阵以确定工具之间的相似性。

例如,与 ChatGPT 最相似的前 12 个工具是 Kore.ai、Cohere、Agent4、TeleWizard、Typemagic、echowin、Corpora、AiCogni、Ebi.Ai、Giti、BulkGPT Visus.ai 这揭示了一组工具,共同关注虚拟代理和对话式 AI,利用 AI 技术。

为了直观地呈现这些关系,我使用了t-SNE进行降维,将高维矢量压缩到2D空间,然后通过交互式散景图进行说明。Kmeans 聚类将工具组织成 24 个不同的组,每个组在可视化中用不同的颜色标记。点越近表示相似度越高,该图允许缩放和悬停以显示有关每个工具的更多详细信息。

image-20231231222159392

TFIDF 矢量化、聚类和交互式可视化的这种结合创建了一个先进且用户友好的平台,用于导航 AI 工具生态系统,突出了工具在功能和重点方面如何相互关联。

URL 分析:托管平台和用户参与度

大多数工具都有自己的专用网站或托管在各种平台上。通过检查这些工具的最终重定向 URL,我确定了最常见的平台,这些平台可能会影响用户发现这些工具并与之交互的方式。

以下是 AI 工具的前 15 个托管平台以及相应的工具数量:apps.apple.com (55)、chrome.google.com (46)、appsumo.com (24)、github.com (21)、play.google.com (18)、bubble.io (7)、huggingface.co (6)、messengerx.io (6)、founderpal.ai (3)、ibm.com (3)、preppally.com (3)、cloud.google.com (3)、adaptify.ai (3)、buildai.space (3)、openai.com (3)

该表详细介绍了前 5 个托管平台上发布的工具的第 25 个、第 50 个(中位数)和第 75 个百分位的选票。

image-20231231222224848

虽然 github.com 以托管高质量工具而闻名,正如其用户投票的中位数所示,但有趣的是,尽管 apps.apple.com 是数量最多的托管平台,但获得的用户投票数量最少。这种差异表明了不同平台用户参与度的差异。

使用机器学习的 AI 工具成功预测

该分析旨在预测新人工智能工具的成功。此分析的关键是根据收到的投票数计算每个工具的百分位分数,并与同一上传月份的其他工具进行比较。这种对时间敏感的方法通过考虑不断变化的受欢迎程度和竞争格局来提供公平的比较。

利用这些数据,使用工具描述、计划和类别作为输入变量来训练支持向量机 (SVM) 模型。特征是通过描述的TF-IDF矢量化(权重=1)、分类变量的独热编码(权重=0.25)和组合特征向量来设计的。

ML 模型 — 支持向量机 (SVM):

该模型是使用 scikit-learn 的支持向量回归器 (SVR) 构建的,通过网格搜索优化了超参数,以最小化负均方误差 (MSE)。采用3倍交叉验证,利用多个CPU内核来提高效率。数据集被划分为 80/20 的拆分用于训练和测试,与设置的随机种子保持一致。

模型评估:

使用平均绝对误差 (MAE) 和中位绝对误差 (MedAE) 评估 SVM 模型,得分分别为 16.9 和 12.5。这些指标表明,平均模型预测通常在 16.9 以内,中位数在实际值的 12.5 个百分位点以内,考虑到百分位分数的范围 (0-100),这被认为是中等准确性。

预测的百分位数越高,表示成功的可能性越高。我通过将 SVM 模型与两个朴素的基线预测因子进行比较来评估其有效性:

平均朴素预测器始终预测训练集中所有工具的平均成功率,而中值朴素预测器始终预测中间成功率,而不考虑工具的具体细节。

比较表明,SVM 模型的预测要准确得多,朴素预测变量的平均绝对误差 (MAE) 和中位绝对误差 (MedAE) 得分平均约为 25。这表明 SVM 模型正在捕获数据中更复杂、更有意义的模式,而不仅仅是基于中心趋势的猜测。

与线性回归的比较:

我还比较了 SVM 模型的性能与线性回归模型。SVM 模型在 MAE (17.8) 和 MedAE (14.4) 方面略优于线性回归模型,表明它更有效地捕获了数据的模式。

预测新工具的成功:

对于新工具,SVM 模型可以在预处理工具数据后估计成功百分位数。举个假设的例子,一个“生产力”工具,有一个“免费”计划,并给出了“描述”(该工具根据用户的饮食和病史创建健身房锻炼计划)的预测成功百分位数为68,表明成功的可能性很高。

提供的代码概述了整个过程:

该分析证明了使用机器学习(特别是 SVM 模型)根据各种特征预测 AI 工具成功的有效性。该模型优于基线模型,并为 AI 生态系统中新工具的潜在成功提供了宝贵的见解。

结论

人工智能的惊人故事表明,我们从简单的开始到现在成为我们日常生活的重要组成部分已经走了多远。它展示了一个不断变化和发展的技术世界。