Inspiré par, je vais publier un type écrit en Python.
La chose la plus importante dans le comptage est de traiter l'URI comme 20 caractères. S'il s'agit d'un URI, il devrait être facile de le récupérer avec une expression régulière, mais Twitter, qui est fou récemment, le reconnaît comme un URI même sans schéma! Nice (yeux blancs)
Il est possible d'extraire sans schéma grâce au travail acharné des utilisateurs de Twitter.
twitter-text-java/src/com/twitter/Regex.java at master · twitter/twitter-text-java
Qu'est-ce que c'est plus?
Je pourrais traduire cela en Python, mais les expressions régulières de Python sont trop anciennes pour prendre en charge diverses choses.
J'ai juste écrasé l'endroit où l'erreur s'est produite et c'est devenu comme ça.
twikoto3/twikoto3/twittertext/regex.py at master · azyobuzin/twikoto3 Je ne fais que les parties liées à l'URI.
Python est pire que ce à quoi je m'attendais ...
Tout ce que vous avez à faire est de normaliser et de compter le nombre de caractères. Vous pouvez le compter, mais le problème est que vous devez compter par point de code.
C'était un gros problème car il n'était pas pris en charge par Python 3, qui est principalement Unicode.
C'est ce que j'ai rencontré à ce moment-là
C'est un domaine public, vous pouvez donc faire ce que vous voulez. Cela nécessite un peu de modification pour fonctionner avec Python 3, mais il est très facile de compter par point de code.
import codepoint
text = "Yoshinoya" #http://blog.unfindable.net/archives/Je voulais faire 2728, mais je suis mort d'un bug à Qiita
length = len(codepoint.characters(text))
Vous pouvez maintenant compter! !!
Cliquez ici pour le code complet
twikoto3/twikoto3/twittertext at master · azyobuzin/twikoto3
Recommended Posts